Hugging Face Blog→ المصدر

قدمت ServiceNow EVA — إطار عمل جديد لتقييم وكلاء AI الصوتيين

أطلقت ServiceNow EVA — وهو إطار عمل جديد لتقييم وكلاء AI الصوتيين. يقيس أمرين في آن واحد: مدى قدرة الوكيل على إنجاز المهمة ومدى راحة التحدث معه بالنسبة…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
قدمت ServiceNow EVA — إطار عمل جديد لتقييم وكلاء AI الصوتيين
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت ServiceNow إطار عمل EVA — نظام لتقييم شامل من البداية إلى النهاية لوكلاء الذكاء الاصطناعي الصوتية، والذي يحاول قياس ليس فقط ما إذا تم إكمال المهمة، بل أيضاً مدى توافق المحادثة للمستخدم. تم نشر المشروع على مدونة Hugging Face في 24 مارس 2026، إلى جانب مجموعة بيانات مفتوحة وكود ونتائج أولية لـ 20 نظام.

لماذا الاختبارات الحالية غير كافية

تختبر معظم المعايير الحالية للذكاء الاصطناعي الصوتي مكونات فردية من النظام واحداً تلو الآخر: التعرف على الكلام، جودة التوليف، توقيت الرد، أو القدرة على استدعاء الأدوات. في الممارسة العملية، هذا غير كافٍ. لا يتفاعل المستخدمون مع STT أو TTS أو LLM بشكل منفصل — بل يتحدثون مع وكيل واحد يجب أن يفهم الطلب ويحافظ على السياق ويستدعي الأدوات بشكل صحيح وينهي المهمة دون التباس في حوار مباشر.

لهذا السبب يقترح مؤلفو EVA تقييم وكيل صوتي كمنتج كامل. في سيناريو هاتفي، حتى الخطأ الصغير يفسد سريعاً الخبرة بالكامل: كود تأكيد لم يُسمع بشكل صحيح يجعل منطق النموذج الجيد عديم الفائدة، وقائمة طويلة من الخيارات يصعب فهمها عند التحدث بها، وفترة صمت إضافية تجعل المستخدم يطلب توضيحاً أو يتخلى عن المكالمة. غالباً ما تفشل المقاييس القديمة في اكتشاف هذه الأخطاء لأنها تقيّم المكونات بشكل منعزل وخارج سياق المستخدم العام.

كيفية عمل EVA

تم بناء EVA كفحص شامل من البداية إلى النهاية لمحادثة متعددة الأدوار في الصوت. يحاكي النظام مكالمة هاتفية حقيقية بين وكيل صوتي وروبوت مستخدم يتصرف وفقاً لهدف ودور محددين. يجب على الوكيل استخدام الأدوات، واتباع قواعد السيناريو، والوصول إلى حالة نهائية قابلة للتحقق. في الإصدار الأولي، نشر المؤلفون مجموعة بيانات طيران اصطناعية تضم 50 سيناريو و 15 أداة: من إعادة حجز الرحلات إلى الإلغاءات والقوائم الانتظار والقسائم للركاب.

  • محاكي المستخدم يحدد الهدف والسلوك وأسلوب الكلام للمتصل
  • وكيل الصوت يجتاز الاختبار في تدفق صوتي حقيقي
  • منفذ الأدوات يعيد استجابات حتمية ويغير حالة قاعدة بيانات السيناريو
  • المدققون يستبعدون التشغيلات منخفضة الجودة بدون تعليق يدوي
  • مجموعة من المقاييس تحلل تسجيل المحادثة والنصخة المكتوبة وسجلات استدعاءات الأدوات

يحتوي EVA على درجتين رئيسيتين مجمعتين. EVA-A تقيس الدقة: هل وصل الوكيل إلى النتيجة الصحيحة، هل اختلق سياسات، هل حرّف كيانات مهمة مثل أرقام الرحلات أو المبالغ؟ EVA-X تقيس تجربة المستخدم: هل كانت الإجابة قصيرة كفاية للقناة الصوتية، هل تقدمت المحادثة للأمام بدون تكرار، هل تحدث الوكيل في الوقت المناسب؟ يحسب المؤلفون أيضاً pass@3 و pass^3 لرؤية ليس فقط أفضل تشغيل بل أيضاً استقرار السلوك عبر محاولات متعددة في نفس السيناريو.

ما أظهرته الاختبارات

قام الفريق بتشغيل 20 نظاماً عبر EVA — ملكية وذات مصدر مفتوح، متسلسلة وأصلية صوتياً — وتوصلوا إلى استنتاج رئيسي: يوجد مقايضة مستمرة بين الدقة وجودة المحادثة. لا توجد أي إعدادات تهيمن على كلا المحورين في نفس الوقت. بعض الوكلاء ينهون المهمة بشكل أفضل لكنهم يجعلون المحادثة أقل توافقاً؛ وآخرون يبدون أكثر طبيعية لكنهم يرتكبون المزيد من الأخطاء في الخطوات الحرجة وفي السيناريوهات الطويلة متعددة الأدوار. هذا يجعل مقارنة النماذج أكثر صراحة بكثير من البسيط pass/fail الثنائي.

"الوكلاء الذين هم أفضل في إكمال المهام غالباً يوفرون تجربة مستخدم

أسوأ، والعكس صحيح."

فشل ملحوظ آخر يتعلق بالكيانات المسماة. حرف واحد لم يُسمع بشكل صحيح في كود التأكيد أو رقم الرحلة يمكن أن يكسر المصادقة ويهدم السيناريو بالكامل. يلاحظ المؤلفون أيضاً أن العمليات متعددة الخطوات أثبتت أنها صعبة بشكل خاص — على سبيل المثال، عندما تحتاج إلى إعادة حجز رحلة مع الحفاظ على الخدمات الإضافية مثل الأمتعة واختيار المقاعد. في نفس الوقت، اتضح أن الفجوة بين pass@3 و pass^3 كبيرة لعدد من الأنظمة: يمكن للوكيل أن يحل مهمة مرة واحدة لكن لا يفعلها باستمرار. من المهم أيضاً أن الإصدار الحالي لا يزال محصوراً بسيناريوهات باللغة الإنجليزية في الطيران، لذا فإن التوسعات القادمة ستشمل الظروف الصاخبة والهجنات وللغات أخرى ومجالات جديدة.

ما يعنيه هذا

يتحول سوق الوكلاء الصوتيين من العروض التوضيحية الرائعة إلى تقييم هندسي أكثر صرامة. إذا التزم EVA أو أطر عمل مماثلة، فإن الفائزين لن يكونوا الأنظمة التي تبدو طبيعية فقط، بل تلك التي تكون دقيقة وموجزة وتحمل المحادثات بموثوقية إلى النتائج في سيناريوهات حقيقية، وليس فقط في التشغيلات الفردية المحظوظة. بالنسبة للنشرات الموجهة للمؤسسات، هذا تحول مهم بشكل خاص.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…