أطلقت Together AI نظام ATLAS: مسرّع تخمين يسرّع نماذج اللغة الكبيرة 4 مرات
أطلقت Together AI نظام ATLAS — وهو مسرّع تخمين قابل للتكيف يعتمد على التعلم الآلي ويسرّع استدلال نماذج اللغة الكبيرة 4 مرات دون الحاجة لضبط يدوي. يتعلم النظام ت
معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
أطلقت Together AI نظام ATLAS (نظام مسرّع التخمين القابل للتعلم التكيفي) — تقنية ثورية لتسريع استدلال نماذج اللغة الكبيرة، تتحسن تلقائياً مع الاستخدام. يحقق النظام 500 رمز في الثانية على DeepSeek-V3.1 و460 على Kimi-K2 — وهو تسريع يقارب 4x دون الحاجة لضبط يدوي. تم الحصول على النتائج على معدات NVIDIA HGX B200 باستخدام حركة مرور حقيقية من معيار Arena Hard.
ما هو فك التشفير التخميني؟
فك التشفير التخميني هو أحد أقوى الطرق لتسريع توليد النصوص في نماذج اللغة الكبيرة. بدلاً من الطريقة القياسية، حيث تولد النموذج رمزاً واحداً في كل مرة عبر عمليات متتالية، يستخدم النظام مسرّعاً أسرع (نموذج مسودة) يقترح عدة رموز مرة واحدة. بعد ذلك، يتحقق النموذج الرئيسي (الهدف) من جميعها بالتوازي في عملية انتشار أمامية واحدة. تبقى جودة المخرجات متطابقة مع فك التشفير العادي (مضمونة رياضياً)، لكن السرعة تزداد بشكل كبير. إذا تخمّن المسرّع بشكل صحيح (معامل قبول عالٍ α)، يعالج النظام عدة رموز دفعة واحدة بدلاً من رمزة واحدة. في الممارسة العملية، يعني هذا تقليلاً كبيراً في زمن الرمزة الأولى وتسريع التوليد بأكمله.
كيف يختلف ATLAS عن الحلول الأخرى؟
تتدرب مسرّعات التخمين القياسية مرة واحدة على حمل عمل عام وتعمل بنفس الطريقة في كل مكان. أما مسرّعات التخمين المتخصصة فتُدرّب على بيانات محددة للشركة، لكن فقط في لحظة زمنية واحدة. عندما يتطور حمل العمل — تنمو قاعدة الأكواد، تتغير أنماط حركة المرور، ينزاح توزيع الطلبات، تظهر أنواع مستخدمين جدد — حتى مسرّعات التخمين المحسّنة بشدة تبدأ في التخلف. يحل ATLAS هذه المشكلة بطريقة مختلفة تماماً. يتعلم النظام بشكل مستمر (التعلم المستمر) كلما تم استخدامه، متكيفاً مع حركة المرور الحقيقية وسلوك النموذج الهدف في الوقت الفعلي. كلما عملت مع الخدمة لفترة أطول، كان تنبؤ ATLAS أفضل للإجراءات التالية للنموذج الرئيسي، وارتفع معامل القبول. هذا ينشئ حلقة تعليقات إيجابية: كل طلب جديد هو مثال تدريبي يحسّن مسرّع التخمين.
النتائج على أرض الواقع
أطلقت Together AI النتائج على معدات NVIDIA HGX B200 الصناعية مع حركة المرور الحقيقية:
- DeepSeek-V3.1: 500 رمز في الثانية — أسرع 2.65 مرة من فك التشفير القياسي
- Kimi-K2-0905: 460 رمز في الثانية — أيضاً مكسب كبير
- المقارنة مع Groq: يتفوق ATLAS في الوضع المتكيف بالكامل على أداء معدات Groq المتخصصة
- تسريع 4x مقارنة بالحل الأساسي بدون تحسين
يتم تحقيق الكفاءة من خلال موازنة معاملين رئيسيين: معامل القبول (α) — مؤشر لعدد مرات موافقة النموذج الرئيسي على اقتراحات مسرّع التخمين — والكمون النسبي (c) بين سرعة مسرّع التخمين والنموذج الهدف. يجد ATLAS تلقائياً النقطة المثالية، حيث يعمل مسرّع التخمين بسرعة عالية جداً، لكن تنبؤاته دقيقة بما يكفي لضمان قبول عالٍ.
التكامل مع Together Turbo
يتم دمج ATLAS في Together Turbo — مجموعة حلول هندسية لتسريع نماذج اللغة الكبيرة من Together AI. يعمل بالتوازي مع مسرّع التخمين الملكي ويدعم استخدام مسرّعات تخمين مخصصة. الفرق الرئيسي: لا يتطلب ATLAS أي ضبط يدوي للمعاملات. يحصل المستخدمون على تحسينات أداء تلقائية ببساطة من خلال استخدام المنصة. هذا حاسم بشكل خاص للفرق المتنامية، حيث لا يكون حمل العمل ثابتاً. في مرحلة النمو، عندما تأتي الطلبات من أنواع مستخدمين مختلفة، تتطور منطق الأعمال باستمرار، وتتغير متطلبات النماذج، غالباً ما تصبح التحسينات القديمة غير ذات صلة في غضون أسابيع أو أشهر. يتحدّث ATLAS نفسه باستمرار.
ماذا يعني هذا؟
يتحول تسريع استدلال نماذج اللغة الكبيرة من مجال مهام هندسية لمرة واحدة إلى ميزة حية مدمجة في الخدمة. يحصل المطورون والمستخدمون على إجابات أسرع فأسرع ببساطة من خلال استخدام المنصة، دون أي تدخل يدوي. بالنسبة للشركات الناشئة والوكالات والشركات، يعني هذا انخفاضاً حقيقياً في تكاليف معالجة الطلبات إلى النماذج الكبيرة في الإنتاج.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.