NVIDIA Developer Blog→ المصدر

إنفيديا تتصدر معيار الأداء الصناعي الأول لوكلاء الذكاء الاصطناعي AA-AgentPerf

قدمت Artificial Analysis معيار AA-AgentPerf — أول معيار مفتوح في الصناعة يقيس أداء أنظمة الاستدلال في مهام البرمجة الوكيلية الفعلية. بخلاف الاختبارات…

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
إنفيديا تتصدر معيار الأداء الصناعي الأول لوكلاء الذكاء الاصطناعي AA-AgentPerf
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.
◐ استمع للمقال

احتلت NVIDIA للمرة الأولى الموضع الريادي في معيار AA-AgentPerf — وهو أول معيار موحد مفتوح متعدد البائعين يقيس أداء أنظمة الاستدلال في مهام الترميز الحقيقية لوكلاء الذكاء الاصطناعي. يغيّر ظهوره المحادثة حول أداء الاستدلال: فلا توجد الآن أداة موضوعية صناعية بدلاً من ادعاءات البائعين غير القابلة للمقارنة.

لماذا لا تعمل المعايير القديمة

وكلاء الذكاء الاصطناعي يغيرون ليس فقط ما تؤديه الأنظمة، بل وكيفية تحميل البنية التحتية. تقيس الاختبارات المعيارية القياسية سرعة الاستجابة لاستعلام واحد — الرموز في الثانية أو الوقت حتى أول رمز. بالنسبة لروبوت المحادثة، هذا كافٍ. بالنسبة للوكيل — إنه بشكل أساسي غير كافٍ.

عندما يحل الوكيل مهمة ترميز، يمر بعشرات التكرارات: يكتب دالة، ويستدعي أداة لتشغيل الكود، ويقرأ رسالة الخطأ، ويحللها، ويعيد كتابتها — وهكذا في حلقة مستمرة حتى تُحل المهمة. تنشئ كل خطوة طلباً منفصلاً إلى نظام الاستدلال. يؤثر الكمون الكلي للمسار بأكمله بشكل حرج على إنتاجية الوكيل، واختبارات الاستعلام الواحد الاصطناعية ببساطة لا تستطيع قياسه.

قبل ظهور AA-AgentPerf، اضطرت الشركات التي تنشر أنظمة الوكلاء في بيئة الإنتاج إلى الاعتماد على مقاييس داخلية غير قابلة للمقارنة من البائعين. قررت Artificial Analysis سد هذه الفجوة وأطلقت أول معيار موحد مفتوح لمجمل الصناعة.

كيفية عمل AA-AgentPerf

AA-AgentPerf (Artificial Analysis AgentPerf) — أول معيار قياسي مفتوح متعدد البائعين في الصناعة، تم تطويره خصيصاً لأعباء عمل الوكلاء. بدلاً من الاستعلامات الاصطناعية، فإنه يحلل المسارات الكاملة لتنفيذ المهام، الأقرب قدر الإمكان من الترميز الحقيقي للوكلاء — من بيان المهمة الأولي إلى النتيجة النهائية. يقيّم المعيار مجموعة معقدة من المعاملات الحرجة خاصة بسيناريوهات الوكلاء:

  • كمون الرمز الأول في التفاعلات متعددة الخطوات
  • الإنتاجية أثناء المسارات الطويلة للوكلاء
  • استقرار الأداء تحت الطلبات المتوازية
  • كفاءة التفاعل مع الأدوات وتنفيذ الكود
  • الوقت الإجمالي لحل مهام الترميز الحقيقية

يعتبر انفتاح المعيار ذا أهمية بالغة: يمكن لأي بائع اختبار نظامه ونشر النتائج القابلة للتكرار. وهذا يحول المحادثة حول أداء الاستدلال من التسويق إلى الهندسة.

موقف NVIDIA وما يقف خلفه

أظهرت NVIDIA أداءً رائداً عبر المقاييس الرئيسية للمعيار الجديد. يقف وراء هذه النتيجة سنوات من استثمار الشركة في التحسين خاصة لسيناريوهات الوكلاء. تم تصميم معمارية خدمات NIM الدقيقة وكومة TensorRT-LLM المحسّنة مع فهم بأن أعباء عمل الوكلاء تتطلب كموناً منخفضاً مستقراً لكامل تسلسل التفاعلات، وليس فقط لاستجابة واحدة.

« غيّر وكلاء الذكاء الاصطناعي بشكل جوهري تعقيد أحمال الاستدلال »، —

مدونة NVIDIA للمطورين.

من الجدير بالملاحظة أيضاً أن NVIDIA شاركت في AA-AgentPerf منذ الإصدار الأول من المعيار. هذا يرسل إشارة إلى السوق: تثق الشركة في القدرة التنافسية لبنيتها التحتية في المقارنة المفتوحة مع البائعين الآخرين.

ما يعنيه هذا

يعيد أول معيار للوكلاء تعريف مفهوم « نظام الاستدلال عالي الأداء »: الآن ما يهم ليس سرعة استجابة واحدة، بل كفاءة السلسلة الكاملة للوكيل من المهمة إلى النتيجة. بالنسبة لفرق الهندسة التي تبني أنظمة الوكلاء في بيئة الإنتاج، يصبح AA-AgentPerf الأداة الأولى للاختيار الموضوعي للبنية التحتية. بالنسبة للبائعين — حافزاً للتحسين من أجل السيناريوهات الحقيقية، وليس الاصطناعية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…