فيديو: التقييمات (Evals) المكسورة لا تزال أفضل من المشاعر: درس من Cline

في مؤتمر AI Dev 26، شاركت Ara Khan من Cline تجربة تحول جذري من رفض التقييمات إلى جعلها أساس تحسين وكلاء AI. تشرح إرشادات عملية لتفسير وتشغيل وإنشاء التقييمات، ولماذا حتى التقييمات المعيبة أفضل من الاعتماد على الانطباعات الذاتية.

إذا كنت تعمل على تطوير وكلاء يعملون بالذكاء الاصطناعي، فأنت تعرف المعاناة الحقيقية: كيف تقيس أداء وكيلك دون أن يخدعك الانطباع الشخصي؟ كلنا جربنا أن نشعر أن الوكيل يعمل بشكل رائع في اختباراتنا اليدوية، ثم يفشل فشلاً ذريعاً مع المستخدمين الحقيقيين. هذه الفجوة بين الشعور والواقع هي بالضبط ما تحدثت عنه Ara Khan، المهندسة في شركة Cline، خلال حديثها في مؤتمر AI Dev 26 في سان فرانسيسكو.

من رفض التقييمات إلى تبنيها كأساس

قد يكون من الصعب تصديق أن فريقاً يعمل على أداة مساعدة برمجية تعتمد على AI قد بدأ بموقف متشكك تماماً تجاه التقييمات (evals). البعض في الصناعة يعتبرها غير موثوقة، سريعة التلف، أو أنها لا تعكس الواقع. لكن Ara شرحت كيف انتقل فريق Cline من مقولة “التقييمات غير مجدية” إلى جعلها العنصر الأهم في دورة تحسين الوكلاء. التحول لم يحدث بين ليلة وضحاها، بل جاء بعد إدراك أن البديل — الاعتماد على المشاعر والاختبارات العشوائية — أسوأ بكثير.

لماذا التقييمات (حتى المعطلة) أفضل من لا شيء؟

المشكلة الأساسية في الاعتماد على “vibes” أو الانطباع الشخصي هي أنه مضلل. يمكنك أن تشعر أن وكيلك أفضل بعد تحديث ما، لكن هذا الشعور لا يخبرك أين يتحسن وأين يتراجع. التقييمات، حتى لو كانت غير كاملة، تمنحك نقاط بيانات موضوعية. Ara قدمت ثلاث نصائح عملية للتعامل مع التقييمات بذكاء:

التفسير الصحيح للنتائج: لا تركز على رقم واحد. انظر إلى الاتجاه عبر عدة جلسات تقييم. إذا كانت النتائج تتأرجح، فقد يكون ذلك بسبب عشوائية النموذج أو ضعف مجموعة الاختبار. المهم هو معرفة ما إذا كان التغيير الذي أدخلته يحسن الأداء بشكل ثابت.
تشغيل التقييمات بشكل منهجي: أتمتة تشغيل التقييمات وجدولتها بشكل دوري. لا تكتفي بتشغيلها مرة واحدة بعد كل تحديث كبير. التكرار يساعد في اكتشاف الانحدار (regression) في الأداء قبل أن يصل إلى المستخدمين.
إنشاء تقييمات جديدة بذكاء: ابدأ بالمهام الحقيقية التي يواجهها المستخدمون. لا تحاول تصميم تقييم مثالي منذ البداية. حدد معايير نجاح واضحة (مثل إكمال المهمة بنجاح، أو وقت الاستجابة) وابدأ بمجموعة صغيرة. يمكنك توسيعها لاحقاً.

أثر عملي على تطوير وكلاء AI

ما تقدمه Ara Khan ليس مجرد نظرية. شركة Cline تنتج أداة مساعدة برمجية تعمل مع نماذج اللغة الكبيرة في بيئة التطوير المتكاملة (IDE). وكلاؤها يتفاعلون مع الكود، وينفذون أوامر، ويقرؤون الملفات — وهذه مهام معقدة يصعب تقييمها بشكل تقليدي. باستخدام التقييمات كأداة تعلم وليس كحكم نهائي، استطاع الفريق تحسين أداء وكلائهم بشكل مطرد. الرسالة الأهم: لا تنتظر حتى يكون لديك تقييم مثالي؛ ابدأ بما لديك، ثم طوره تدريجياً.

خلاصة عملية للمطورين العرب

إذا كنت تعمل على وكيل ذكاء اصطناعي، سواء كان مساعد برمجة أو روبوت محادثة أو أداة أتمتة، فكر في تطبيق هذه المبادئ:

أنشئ مجموعة تقييم أولية من 10 إلى 20 مهمة حقيقية.
شغل التقييم آلياً بعد كل تغيير مهم في الكود أو النموذج.
لا تثق في نتيجة تقييم واحدة؛ اجمع النتائج من 3 إلى 5 جولات على الأقل.
استخدم التقييمات لاتخاذ قرارات – هل هذا الإصدار الجديد أفضل أم لا؟
حسّن مجموعة التقييم باستمرار بناءً على أخطاء المستخدمين الحقيقيين.

في النهاية، كما قالت Ara: “التقييمات مكسورة، لكن استخدمها على أي حال.” الأهم هو أن تبدأ، لأن البيانات — مهما كانت ناقصة — أفضل بكثير من التخمين.

مصدر المقطع

نشر المقطع على قناة DeepLearningAI في YouTube، وتم اختياره لأنه حديث ومرتبط بموضوعات عليها طلب في الذكاء الاصطناعي.