Together AI Blog→ المصدر

تفوقت Together AI على TensorRT-LLM بنسبة 31% في اختبارات الأداء لوكلاء البرمجة

نشرت Together AI أول اختبارات أداء عادلة لأحمال الإنتاج الخاصة بوكلاء البرمجة. وتفوق Together Inference Engine على TensorRT-LLM بنسبة 31% في عدد tokens في…

معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
تفوقت Together AI على TensorRT-LLM بنسبة 31% في اختبارات الأداء لوكلاء البرمجة
المصدر: Together AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت Together AI أول معايير استدلال موجهة للإنتاج لعملاء الترميز — والنتائج تطعن في معظم الاختبارات التقليدية في الصناعة.

لماذا المعايير القياسية عديمة الفائدة

يقيس المعيار الاستدلالي الكلاسيكي مستخدماً واحداً على خادم مخصص. الأرقام تبدو مثيرة للإعجاب — ولا تكشف شيئاً عن ظروف العمل الحقيقية. في الإنتاج، تتنافس عشرات ومئات الطلبات في نفس الوقت على ذاكرة تخزين مؤقتة KV واحدة وعرض نطاق الذاكرة ودورات GPU. كلما زاد حجم حركة المرور، زاد الوقت حتى الرمز الأول (TTFT). في مرحلة ما، يصبح النظام غير مفيد قبل الفشل الرسمي. تصل محركات مختلفة إلى هذه النقطة عند مستويات حمل مختلفة تماماً — وهذا بالضبط ما يحتاج إلى قياسه.

صممت Together AI الاختبار بالضبط لهذا السيناريو: حمل عملاء الترميز، السياق الطويل، التنافس العالي، وعدم التسامح مطلقاً مع تدهور الكمون.

ما الذي يجعل عملاء الترميز عبئاً خاصاً

تحمل طلبات عملاء الترميز سياقاً ضخماً: الملف المحرر، الكود المحيط، سجل الحوار، الأجزاء من البحث المتجه. تراوحت طول الرمز المدخل بين 45 و 200 ألف — محاكاة النمو الحقيقي للجلسة أثناء التطوير. كان متوسط طول الإجابة حوالي 450 رمزاً: الوكيل يكتب دالة، وليس رواية.

يخلق هذا النوع من الحمل ثلاث مشاكل تفتقدها الاختبارات القياسية:

  • حساسية TTFT. يرى المطور شاشة فارغة حتى وصول الرمز الأول. في هذه الفترة — بين الإرسال وبدء البث — يُفقد الثقة بالأداة. سرعة الإنشاء ثانوية: بمجرد أن تبدأ الرموز بالتدفق، تشعر التجربة بأنها سريعة.
  • السياق الطويل المتزامن. يملأ عشرات المطورين الذين يملكون طلبات بـ 80+ ألف رمز ذاكرة التخزين المؤقتة KV في نفس الوقت. يفقد المُجدول قدرته على المناورة، يتسلق TTFT — والنظام يتدهور قبل وقت طويل من الفشل الرسمي.
  • ملف التعريف الموجه للملء المسبق. الحمل هنا في المقام الأول على prefill، وليس على decode. المحركات المحسنة للإنشاء الطويل لا تحصل على ميزتها المعتادة.

تم تشغيل الاختبار على 4× NVIDIA B200 لكل محرك.

نتائج Together Inference Engine

تمت مقارنة Together Inference Engine مع TensorRT-LLM وغيره من المحركات OSS الرائدة على أجهزة متطابقة. على حمل الإنتاج لعملاء الترميز، كانت النتائج:

  • +31% رمز في الثانية (TPS) مقارنة بأقرب منافس OSS
  • TTFT أفضل بمرتين عند تشبع حركة المرور
  • تكلفة أقل بـ 76% مقارنة بـ Claude Opus 4 من Anthropic
  • كمون مستقر تحت التنافس العالي — حيث يتدهور المنافسون بالفعل

جاءت المكاسب من تحسين full-stack: تقنية ThunderMLA وأنوية CUDA المخصصة المعاد كتابتها والتشكيل الجانبي end-to-end على حركة المرور الحقيقية.

"تقيس معظم المعايير مستخدماً واحداً على خادم مخصص. الأرقام تبدو رائعة. إنها عديمة الفائدة تماماً للتفكير في الإنتاج"، كما يقول مدونة

Together AI.

ماذا يعني هذا

الفجوة بين محركات الاستدلال ضخمة بالضبط تحت الحمل الحقيقي — لا تراها في الاختبارات الاصطناعية. بالنسبة للفرق التي تبني مساعدين ذكي الصناعة الاصطناعية للمطورين، يؤثر اختيار المزود بشكل مباشر على عدد المستخدمين الذين يحصلون على إجابة سريعة في نفس الوقت — وكم منهم يرون شاشة فارغة. الاستدلال ذو جودة الإنتاج لم يعد فارقاً تقنياً، بل ميزة تنافسية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…