MarkTechPost→ المصدر

أطلقت Zyphra نموذج Zamba2-VL: نماذج بصرية أسرع بـ 10 مرات

أطلقت Zyphra عائلة من نماذج متعددة الأنماط المفتوحة Zamba2-VL — ثلاثة متغيرات: 1.2B و2.7B و7B معاملات، رخصة Apache 2.0. معمارية هجينة: تتناوب كتل Mamba2 مع…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Zyphra نموذج Zamba2-VL: نماذج بصرية أسرع بـ 10 مرات
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Zyphra عائلة مفتوحة من نماذج الرؤية واللغة، Zamba2-VL، بمتغيرات بحجم 1.2B و 2.7B و 7B معاملات. في الأساس توجد بنية هجينة تجمع بين كتل Mamba2 و Transformer. النتيجة الرئيسية: يتم تقليل وقت الحصول على الرمز الأول بحوالي 10 مرات مقارنة بنماذج VLM من نوع Transformer النقي بحجم مماثل.

ثلاثة أحجام وترخيص واحدة

تتضمن العائلة ثلاثة متغيرات: 1.2B و 2.7B و 7B معاملات. تم إطلاق الثلاثة جميعاً تحت رخصة Apache 2.0، مما يعني الاستخدام التجاري المجاني بدون قيود على التضمين أو التعديل أو إعادة التوزيع — حرية كاملة للمشاريع التجارية والبحثية.

Zamba2-VL هي نماذج رؤية ولغة كاملة. تقوم بمعالجة الصور والنصوص بشكل مشترك، مما يفتح تطبيقات عبر مجموعة واسعة من المهام: وصف الصور والصور الفوتوغرافية، الإجابة على الأسئلة البصرية، تحليل المستندات بالرسوم التوضيحية، تحليل لقطات شاشة واجهات المستخدم، العمل مع الصور الطبية.

على عكس نماذج اللغة الكبيرة ذات النصوص البحتة، يمكن لـ VLM الإجابة على أسئلة حول ما هو موجود في الصورة والجمع بين السياق البصري والنصي في طلب واحد.

من حيث الجودة على المعايير القياسية، يحافظ Zamba2-VL على نفس مستوى نماذج VLM من نوع Transformer النقي بحجم مماثل. الانتقال إلى البنية الهجينة لا يتطلب التضحية بالدقة من أجل السرعة — تبقى كلا المقياسين تنافسيين.

كيف تعمل العمود الفقري الهجين

تم بناء معظم نماذج اللغة والوسائط المتعددة الحديثة على بنية Transformer النقية. فيها، يقوم كل رمز تم إنشاؤه حديثاً "بفحص" السلسلة السابقة بأكملها من خلال آلية الانتباه (attention). هذا هو نهج قوي، لكنه مكلف حسابياً: مع السياقات الطويلة، يزداد حجم العمل تربيعياً. هنا يظهر اختناق الأداء — بما في ذلك وقت طويل للحصول على الرمز الأول.

Mamba2 هي بنية قائمة على نماذج فضاء الحالة (SSM). بدلاً من فحص السجل بشكل شامل، فإنها تضغط السياق السابق في "حالة" مدمجة يتم تحديثها خطياً مع معالجة الرموز الجديدة.

يتناوب Zamba2-VL كتل Mamba2 مع طبقات Transformer العادية: توفر كتل SSM السرعة والكفاءة، وتضيف طبقات Transformer المرونة عند التعامل مع التبعيات المعقدة.

النتيجة:

  • يتم تقليل وقت الحصول على الرمز الأول بحوالي 10 مرات
  • تبقى الجودة تنافسية مع نماذج VLM من نوع Transformer النقي
  • بصمة حسابية أصغر أثناء الاستدلال
  • تحسين التوسع على السياقات الطويلة
  • القدرة على النشر على أجهزة أقل قوة دون فقدان الاستجابة

لماذا يعتبر TTFT مهماً

الوقت حتى الرمز الأول (time-to-first-token، TTFT) هو الفاصل الزمني بين إرسال طلب وظهور الحرف الأول من الردّ. وهذا يحدد الشعور بـ "الحياة" في الأنظمة التفاعلية: روبوتات الدردشة، مساعدات الصوت، خدمات API، حيث تكون سرعة الاستجابة مهمة. بينما يفكر النموذج — ينتظر المستخدم. يشعر TTFT العالي مثل "التجميد"، حتى لو كان الرد النهائي عالي الجودة.

تقليل TTFT بمعامل 10 مرات هو مكسب عملي كبير. مع نفس موارد الأجهزة، هذا يعني إما خدمة أكثر استجابة بكثير أو القدرة على التعامل مع طلبات أكثر بكثير بشكل متزامن. بالنسبة للشركات التي تدفع مقابل وقت GPU، يؤثر الخياران مباشرة على اقتصادية الوحدة للمنتج.

النماذج المفتوحة بسرعة استجابة مثل هذه تتيح بناء منتجات حيث كانت كمون

الاستجابة تجعل فئة كاملة من الحلول غير قابلة للتطبيق في السابق.

ماذا يعني هذا

تستمر البنى الهجينة SSM + Transformer في الانتقال من الأوراق الأكاديمية إلى المنتجات العملية. يغطي إطلاق Zamba2-VL كعائلة من ثلاثة نماذج — من الحجم المدمج 1.2B إلى الحجم الكامل 7B — سيناريوهات نشر مختلفة: من الأجهزة ذات الموارد المحدودة إلى مزارع الخوادم. يقلل الترخيص المفتوح بموجب Apache 2.0 من عائق الدخول: يمكن للفرق استخدام نموذج متعدد وسائط سريع جاهز بدون الاعتماد على واجهات برمجية تجارية — مع جميع أسعارهم وحدود معدل التحويل وخطر التغييرات المفاجئة في الشروط.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…