تفوقت Together AI على TensorRT-LLM بنسبة 31% في اختبارات الأداء لوكلاء البرمجة
نشرت Together AI أول اختبارات أداء عادلة لأحمال الإنتاج الخاصة بوكلاء البرمجة. وتفوق Together Inference Engine على TensorRT-LLM بنسبة 31% في عدد tokens في…
معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
نشرت Together AI أول معايير استدلال موجهة للإنتاج لعملاء الترميز — والنتائج تطعن في معظم الاختبارات التقليدية في الصناعة.
لماذا المعايير القياسية عديمة الفائدة
يقيس المعيار الاستدلالي الكلاسيكي مستخدماً واحداً على خادم مخصص. الأرقام تبدو مثيرة للإعجاب — ولا تكشف شيئاً عن ظروف العمل الحقيقية. في الإنتاج، تتنافس عشرات ومئات الطلبات في نفس الوقت على ذاكرة تخزين مؤقتة KV واحدة وعرض نطاق الذاكرة ودورات GPU. كلما زاد حجم حركة المرور، زاد الوقت حتى الرمز الأول (TTFT). في مرحلة ما، يصبح النظام غير مفيد قبل الفشل الرسمي. تصل محركات مختلفة إلى هذه النقطة عند مستويات حمل مختلفة تماماً — وهذا بالضبط ما يحتاج إلى قياسه.
صممت Together AI الاختبار بالضبط لهذا السيناريو: حمل عملاء الترميز، السياق الطويل، التنافس العالي، وعدم التسامح مطلقاً مع تدهور الكمون.
ما الذي يجعل عملاء الترميز عبئاً خاصاً
تحمل طلبات عملاء الترميز سياقاً ضخماً: الملف المحرر، الكود المحيط، سجل الحوار، الأجزاء من البحث المتجه. تراوحت طول الرمز المدخل بين 45 و 200 ألف — محاكاة النمو الحقيقي للجلسة أثناء التطوير. كان متوسط طول الإجابة حوالي 450 رمزاً: الوكيل يكتب دالة، وليس رواية.
يخلق هذا النوع من الحمل ثلاث مشاكل تفتقدها الاختبارات القياسية:
- حساسية TTFT. يرى المطور شاشة فارغة حتى وصول الرمز الأول. في هذه الفترة — بين الإرسال وبدء البث — يُفقد الثقة بالأداة. سرعة الإنشاء ثانوية: بمجرد أن تبدأ الرموز بالتدفق، تشعر التجربة بأنها سريعة.
- السياق الطويل المتزامن. يملأ عشرات المطورين الذين يملكون طلبات بـ 80+ ألف رمز ذاكرة التخزين المؤقتة KV في نفس الوقت. يفقد المُجدول قدرته على المناورة، يتسلق TTFT — والنظام يتدهور قبل وقت طويل من الفشل الرسمي.
- ملف التعريف الموجه للملء المسبق. الحمل هنا في المقام الأول على prefill، وليس على decode. المحركات المحسنة للإنشاء الطويل لا تحصل على ميزتها المعتادة.
تم تشغيل الاختبار على 4× NVIDIA B200 لكل محرك.
نتائج Together Inference Engine
تمت مقارنة Together Inference Engine مع TensorRT-LLM وغيره من المحركات OSS الرائدة على أجهزة متطابقة. على حمل الإنتاج لعملاء الترميز، كانت النتائج:
- +31% رمز في الثانية (TPS) مقارنة بأقرب منافس OSS
- TTFT أفضل بمرتين عند تشبع حركة المرور
- تكلفة أقل بـ 76% مقارنة بـ Claude Opus 4 من Anthropic
- كمون مستقر تحت التنافس العالي — حيث يتدهور المنافسون بالفعل
جاءت المكاسب من تحسين full-stack: تقنية ThunderMLA وأنوية CUDA المخصصة المعاد كتابتها والتشكيل الجانبي end-to-end على حركة المرور الحقيقية.
"تقيس معظم المعايير مستخدماً واحداً على خادم مخصص. الأرقام تبدو رائعة. إنها عديمة الفائدة تماماً للتفكير في الإنتاج"، كما يقول مدونة
Together AI.
ماذا يعني هذا
الفجوة بين محركات الاستدلال ضخمة بالضبط تحت الحمل الحقيقي — لا تراها في الاختبارات الاصطناعية. بالنسبة للفرق التي تبني مساعدين ذكي الصناعة الاصطناعية للمطورين، يؤثر اختيار المزود بشكل مباشر على عدد المستخدمين الذين يحصلون على إجابة سريعة في نفس الوقت — وكم منهم يرون شاشة فارغة. الاستدلال ذو جودة الإنتاج لم يعد فارقاً تقنياً، بل ميزة تنافسية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.