सामग्री पर जाएं
AIAn Alian Software company
Playbook6 मिनट4 pages

वह eval suite जो आप वास्तव में चलाते रहते हैं

20 टेस्ट केस, साप्ताहिक रूप से replay किए जाते हैं, production के साथ विकसित होते रहते हैं। शिपिंग के लिए न्यूनतम आवश्यकता।

एक eval सूट वैकल्पिक नहीं है। यह वह सिस्टम है जो आपको बताता है कि आपका production AI अभी भी वही कर रहा है जो लॉन्च के दिन करता था। इसके बिना, आप एक शानदार डेमो ship करते हैं और उसे चुपचाप खराब होते देखते हैं। यह वह eval पैटर्न है जिसे हम हर engagement में बनाते हैं।

1. 20 मामलों से शुरुआत करें। 200 से नहीं।

20 हाथ से चुने गए cases 200 synthetic cases से बेहतर हैं। ये 20 happy path, common edge cases, और वे patterns को कवर करते हैं जिन्हें आप तोड़ने का जोखिम नहीं उठा सकते।

हम इन्हें वास्तविक वार्तालाप (गुमनाम), प्री-लॉन्च साक्षात्कार और टीम ब्रेनस्टॉर्मिंग से एकत्रित करते हैं। प्रत्येक केस में अपेक्षित आउटपुट ही नहीं, बल्कि अपेक्षित व्यवहार होता है।

2. जो मायने रखता है उसे स्कोर करें

हैलूसिनेशन दर (LLM-as-judge, ground truth के विरुद्ध)। अस्वीकृति शुद्धता (क्या agent ने तब मना किया जब उसे मना करना चाहिए था?)। Tool-call सटीकता। उद्धरण शुद्धता।

समग्र स्कोर उपयोगी होते हैं, लेकिन प्रति-केस स्कोरिंग उन मामलों को पकड़ती है जहां औसत वास्तविक विफलताओं को छिपा देते हैं।

3. साप्ताहिक चलाएं, रिलीज़ को गेट करें

हर प्रॉम्प्ट बदलाव पर CI में eval चलता है। eval फेल होने पर merge ब्लॉक हो जाता है। इंजीनियर्स को जल्दी पता चल जाता है कि प्रॉम्प्ट में रिग्रेशन रिस्क होता है।

CI के बाहर, हम प्रोडक्शन के विरुद्ध साप्ताहिक रूप से पूरा suite चलाते हैं। समय के साथ drift यहाँ उपयोगकर्ता शिकायतों में दिखने से पहले दिख जाता है।

4. प्रोडक्शन से suite को बढ़ाएं

प्रोडक्शन में आपको मिलने वाली हर failure mode एक स्थायी eval case बन जाती है। सक्रिय विकास में यह suite प्रति सप्ताह 2-5 cases बढ़ता है।

प्रोडक्शन केस जोड़ने से पहले आक्रामक रूप से गुमनाम करें — PII, नाम, खाता संख्याएं हटा दें।

5. LLM-as-judge, फिर करीबी मामलों पर मानव

एक मजबूत मॉडल से अपने मानदंडों के आधार पर आउटपुट्स को ग्रेड कराएं। 80%+ मामलों को स्वचालित रूप से स्कोर करें।

बारीक मामले और असफलताएं इंसानों के पास जाती हैं। वहीं आपका ट्यूनिंग निर्णय रहता है।

सामान्य विफलता मोड

मूल्यांकन को एकबारगी मानना। ये एक स्थायी प्रणाली हैं, लॉन्च चेकलिस्ट नहीं।

सामान्य छोड़ें

eval suite के लिए कोई owner न होना। बिना owner के यह हफ्तों में खराब हो जाता है।

Monthly briefing

One short email a month — what we shipped, what we learned, the patterns we'd recommend (and skip). No fluff.

Want this shipped for your team?

We bring this playbook to every engagement. 20-min call gets you a scope.