كيف تتوقف عن التخمين وتبدأ في قياس جودة وكلاء AI
شرح فريق Bitrix24 كيف انتقل خلال ستة أشهر من الاختبار اليدوي لوكيل AI الخاص به، مارتا، إلى نظام benchmarks مؤتمت. وهذه مشكلة تعرفها الصناعة كلها: فبعد كل…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
كل فريق أطلق وكيل ذكاء اصطناعي إلى الإنتاج يواجه في النهاية نفس الكابوس. يكتب المستخدم إلى الدعم: "روبوتك يتحدث هراء". يفتح المطور السجلات، ينظر إلى التعليمات، ينظر إلى الإجابة — ولا يستطيع تحديد ما الذي حدث بالضبط. هل هو انحدار بعد التزام الأمس؟ تأثير جانبي لتبديل النموذج؟ أم مجرد حالة حدية محظوظة كانت موجودة طوال الوقت؟ مرّ فريق Bitrix24 بجميع مراحل هذه العملية مع وكيل الذكاء الاصطناعي Martha — والآن يشاركون الدروس التي يجب على كل من يعمل مع نماذج اللغة الكبيرة في الإنتاج أن يتعلموها.
Martha هي مساعدة ذكاء اصطناعي داخل نظام Bitrix24 البيئي تتفاعل مع نظام إدارة العلاقات مع العملاء، وتدير المهام، وتجيب على أسئلة المستخدمين. في المراحل الأولى، بدا كل شيء بسيطاً: افتح الدردشة، اطرح سؤالاً، انظر إلى الإجابة بعينيك. الاختبار اليدوي الكلاسيكي، الذي يعمل طالما يمكن للوكيل القيام بعشرة أشياء. لكن بمجرد نمو وظائف Martha، بدأ هذا النهج في الانهيار. لا يستطيع مهندس واحد فقط تشغيل مائتي سيناريو بعد كل مراجعة موجهة. ومراجعات التعليمات في تطوير منتجات الذكاء الاصطناعي الحديث ليست استثناء — إنها روتين يومي.
المشكلة التي يصفها الفريق ذات طبيعة نظامية. هندسة التعليمات غير مستقرة بطبيعتها: أدنى تغيير في صيغة التعليمات يمكن أن يؤثر بشكل غير متوقع على سلوك النموذج في عشرات السياقات المختلفة. أضف إلى ذلك تغييرات إصدار النموذج الدورية من جانب المزودين، والتحديثات على التعليمات النظامية، وتوسيع مجموعة الأدوات المتاحة للوكيل — وستحصل على انفجار اندماجي لنقاط الفشل المحتملة. بدون التحكم الآلي بالجودة، يعمل الفريق فعلياً بتعمية، مستجيباً للمشاكل بعد وقوعها بدلاً من منعها.
كان الحل الذي توصلت إليه Bitrix24 هو بناء نظام معايير كامل. جوهر النهج هو صياغة التوقعات من وكيل الذكاء الاصطناعي على أنها مجموعة من سيناريوهات الاختبار بمعايير نجاح قابلة للقياس. هذه ليست اختبارات وحدات بالمعنى الكلاسيكي: استجابات نموذج اللغة غير حتمية، والتحقق من تطابقها بالضبط لا معنى له. بدلاً من ذلك، يتم استخدام مقاييس تقيّم الصلة والاكتمال وصحة استدعاء الأدوات والتوافق مع نبرة الاتصال. في الأساس، يبني الفريق نظير تلقائي لتقييم الخبراء الذي يمكن تشغيله بعد كل تغيير.
استغرق الطريق من الفكرة إلى نظام عامل حوالي ستة أشهر — وهذا رقم صادق يقول الكثير عن نضج الأدوات في هذا المجال. الحلول الجاهزة التي يمكنك شراؤها وتوصيلها بأي وكيل ذكاء اصطناعي عملياً لا توجد. يجب على كل فريق أن يحدد بشكل مستقل المقاييس التي تعكس جودة منتجهم المحدد، وكيفية إنشاء والحفاظ على مجموعات بيانات الاختبار محدثة، وكيفية تفسير النتائج ودمج المعايير في خط أنابيب CI/CD. تؤكد Bitrix24 أن نهجهم غير مرتبط بمكدس معين — وهذا ربما يكون الجزء الأكثر قيمة من تجربتهم.
تعكس قصة Martha اتجاهاً أوسع في الصناعة. مع انتقال وكلاء الذكاء الاصطناعي من فئة التجارب إلى فئة الأدوات الحرجة للأعمال، تنمو متطلبات موثوقيتهم بشكل أسي. تستثمر شركات مثل Anthropic و OpenAI و Google في أنظمة تقييم النماذج على مستوى المنصات، لكن على مستوى المنتجات المحددة، تبقى المسؤولية عن الجودة مع فرق التطوير. تتفاقم المشكلة بحقيقة أن المستخدمين يفقدون بسرعة الثقة بمساعد الذكاء الاصطناعي بعد عدة إجابات فاشلة، واستعادة هذه الثقة أصعب بكثير من فقدانها.
يستحق الانتباه الخاص التحول الثقافي الذي يقف وراء هذا الانتقال. الاختبار اليدوي لوكلاء الذكاء الاصطناعي ليس مجرد ممارسة غير فعالة — إنها إحساس كاذب بالتحكم. يميل المهندس الذي اختبر عشرين سيناريو من مائتين إلى الاعتقاد بأن النظام يعمل بشكل صحيح، في حين أنه في الواقع اختبر فقط عشرة بالمئة من السطح. لا تزيل المعايير الآلية عدم اليقين تماماً، لكنها تجعله مرئياً وقابلاً للقياس. وما يمكن قياسه يمكن تحسينه.
تجربة Bitrix24 هي إشارة لصناعة تطوير الذكاء الاصطناعي الناطقة بالروسية بأكملها. عصر إطلاق وكيل ذكاء اصطناعي إلى الإنتاج بكلمات "يبدو أنه يعمل" يقترب من نهايته. يسبقنا عصر المقاييس والمعايير والتحكم المستمر بالجودة. والفرق التي تتقن هذه الممارسات أولاً ستحصل على ميزة حاسمة في الكفاح من أجل ثقة المستخدم.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.