Together AI Blog→ المصدر

رفعت Together AI حدود Batch Inference API بمقدار 3000 مرة وخفضت الأسعار بنسبة 50%

حدّثت Together AI خدمة Batch Inference API لمعالجة أحجام هائلة من البيانات من دون اختناقات. زادت الحدود 3000 مرة لتصل إلى 30 مليار توكن لكل مهمة. وانخفض السعر إ

رفعت Together AI حدود Batch Inference API بمقدار 3000 مرة وخفضت الأسعار بنسبة 50%
المصدر: Together AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

قامت شركة Together AI بتحديث خدمة Batch Inference API — الخدمة المخصصة لمعالجة أحجام كبيرة من الطلبات الموجهة لنماذج LLM مع التنفيذ المؤجل. أعلنت الشركة عن ثلاث تحسينات رئيسية: زيادة الحدود بمقدار 3000 مرة، وخفض الأسعار بنسبة 50%، وإعادة تصميم الواجهة لتبسيط سير العمل.

القابلية للتوسع بدون اختناقات

التغيير الرئيسي تأثر بالحدود. في السابق، كان الحد الأقصى 10 ملايين رمز لكل مستخدم لكل نموذج؛ الآن هو 30 مليار. هذا ليس مجرد رقم — بل هو حل لمشكلة معمارية تواجهها الشركات التي تعالج مجموعات بيانات ضخمة.

في السابق، كانت الفرق التي تتعامل مع أحجام عمل كبيرة تتعاملها بهذه الطريقة: تقسيم مجموعة البيانات إلى أجزاء، وإنشاء العديد من مهام الدفعات الصغيرة، ومتابعة كل منها بشكل منفصل، وتنسيق النتائج. كان هذا غير مريح وبطيء وباهظ التكلفة. الآن يمكنك تحميل مجموعة بيانات كاملة في عملية واحدة والحصول على النتائج خلال 24 ساعة SLA — غالباً بسرعة أكبر بكثير.

تم تحديث التسعير بشكل متوازٍ. معالجة الدفعات تكلف الآن تقريباً نصف سعر واجهة برمجة التطبيقات الفعلية للحجم نفسه من الحسابات. عندما نتحدث عن مليارات الرموز، يصبح فارق السعر كبيراً بالنسبة لميزانيات المشاريع.

أي نموذج واجهة بسيطة

تعمل واجهة برمجة التطبيقات الآن مع جميع الـ 40+ نموذج على منصة Together، بما في ذلك النشر الخاص. في السابق، كان الاختيار مقتصراً على عدد قليل من النماذج، مما خلق مشاكل للفرق التي تريد تجربة واختبار نماذج مختلفة في وضع الدفعات. تم إعادة تصميم الواجهة بالكامل. في السابق، كان عليك كتابة استدعاءات واجهة برمجة التطبيقات وفهم الوثائق وتصحيح الأخطاء في الكود. الآن يتم كل شيء من خلال تطبيق ويب: إنشاء المهام ومراقبة التقدم وتنزيل النتائج. بضع نقرات فقط — وانتهى. هذا يقلل من حاجز الدخول للفرق التي لا تريد أن تشتت انتباهها بكتابة الأكواد لكل طلب دفعة.

من يحتاج إلى هذا

  • تحليل المشاعر وتصنيف النصوص على ملايين الوثائق
  • الكشف عن المعاملات الاحتيالية — فحص ملايين المدفوعات والعمليات
  • توليد البيانات الاصطناعية لتدريب النماذج الجديدة
  • تحويل مجموعات نصية كبيرة إلى متجهات (توليد embedding)
  • الإشراف على المحتوى في الشبكات الاجتماعية والمنصات التي تحتوي على UGC
  • اختبارات المقارنة لتقييم ومقارنة جودة النماذج

مثال ملموس: يستخدم Inception Labs بالفعل واجهة برمجة التطبيقات للدفعات كأساس لسير عمله في الإنتاج. وفقاً لقول الشريك المؤسس فلاديمير كوليشوف:

«نعتمد على

Batch Inference API لمعالجة أحجام كبيرة جداً من الطلبات. تسمح لنا الحدود العالية بتشغيل تجارب ضخمة بدون اختناقات. تكتمل المهام بسرعة أكبر بكثير من SLA لمدة 24 ساعة، غالباً في غضون ساعات قليلة.»

ماذا يعني هذا للصناعة

خدمة Batch Inference تخرج من متخصصي المجال إلى فئة الأدوات الموجهة للجماهير. في السابق، كانت التكاليف العالية والتعقيد التقني بمثابة عوائق جدية. كان بإمكان فقط المختبرات البحثية الكبيرة والمشاريع الحكومية والشركات الكبيرة تحمل تكاليف استخدام معالجة الدفعات. الآن تتمتع الشركات الناشئة والفرق ذات الحجم المتوسط بإمكانية الوصول إلى نفس الأدوات. يؤدي خفض الأسعار بنسبة 50% وزيادة الحدود بمقدار 3000 مرة إلى القضاء على العوائق الرئيسية أمام التبني على نطاق واسع. في عام 2025، نتوقع قفزة في استخدام الاستدلال الدفعي في تطبيقات الإنتاج — من الإشراف على المحتوى على النطاق الواسع إلى توليف أحجام كبيرة من بيانات التدريب لضبط نماذجك الخاصة بدقة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…