वह eval suite जो आप वास्तव में चलाते रहते हैं
20 टेस्ट केस, साप्ताहिक रूप से replay किए जाते हैं, production के साथ विकसित होते रहते हैं। शिपिंग के लिए न्यूनतम आवश्यकता।
एक eval सूट वैकल्पिक नहीं है। यह वह सिस्टम है जो आपको बताता है कि आपका production AI अभी भी वही कर रहा है जो लॉन्च के दिन करता था। इसके बिना, आप एक शानदार डेमो ship करते हैं और उसे चुपचाप खराब होते देखते हैं। यह वह eval पैटर्न है जिसे हम हर engagement में बनाते हैं।
1. 20 मामलों से शुरुआत करें। 200 से नहीं।
20 हाथ से चुने गए cases 200 synthetic cases से बेहतर हैं। ये 20 happy path, common edge cases, और वे patterns को कवर करते हैं जिन्हें आप तोड़ने का जोखिम नहीं उठा सकते।
हम इन्हें वास्तविक वार्तालाप (गुमनाम), प्री-लॉन्च साक्षात्कार और टीम ब्रेनस्टॉर्मिंग से एकत्रित करते हैं। प्रत्येक केस में अपेक्षित आउटपुट ही नहीं, बल्कि अपेक्षित व्यवहार होता है।
2. जो मायने रखता है उसे स्कोर करें
हैलूसिनेशन दर (LLM-as-judge, ground truth के विरुद्ध)। अस्वीकृति शुद्धता (क्या agent ने तब मना किया जब उसे मना करना चाहिए था?)। Tool-call सटीकता। उद्धरण शुद्धता।
समग्र स्कोर उपयोगी होते हैं, लेकिन प्रति-केस स्कोरिंग उन मामलों को पकड़ती है जहां औसत वास्तविक विफलताओं को छिपा देते हैं।
3. साप्ताहिक चलाएं, रिलीज़ को गेट करें
हर प्रॉम्प्ट बदलाव पर CI में eval चलता है। eval फेल होने पर merge ब्लॉक हो जाता है। इंजीनियर्स को जल्दी पता चल जाता है कि प्रॉम्प्ट में रिग्रेशन रिस्क होता है।
CI के बाहर, हम प्रोडक्शन के विरुद्ध साप्ताहिक रूप से पूरा suite चलाते हैं। समय के साथ drift यहाँ उपयोगकर्ता शिकायतों में दिखने से पहले दिख जाता है।
4. प्रोडक्शन से suite को बढ़ाएं
प्रोडक्शन में आपको मिलने वाली हर failure mode एक स्थायी eval case बन जाती है। सक्रिय विकास में यह suite प्रति सप्ताह 2-5 cases बढ़ता है।
प्रोडक्शन केस जोड़ने से पहले आक्रामक रूप से गुमनाम करें — PII, नाम, खाता संख्याएं हटा दें।
5. LLM-as-judge, फिर करीबी मामलों पर मानव
एक मजबूत मॉडल से अपने मानदंडों के आधार पर आउटपुट्स को ग्रेड कराएं। 80%+ मामलों को स्वचालित रूप से स्कोर करें।
बारीक मामले और असफलताएं इंसानों के पास जाती हैं। वहीं आपका ट्यूनिंग निर्णय रहता है।
सामान्य विफलता मोड
मूल्यांकन को एकबारगी मानना। ये एक स्थायी प्रणाली हैं, लॉन्च चेकलिस्ट नहीं।
सामान्य छोड़ें
eval suite के लिए कोई owner न होना। बिना owner के यह हफ्तों में खराब हो जाता है।