أطلقت IBM Granite 4.0 1B Speech — نموذجًا صوتيًا متعدد اللغات ومضغوطًا لـ edge AI
أطلقت IBM Granite 4.0 1B Speech، وهو نموذج مضغوط لـ ASR متعدد اللغات والترجمة ثنائية الاتجاه للكلام. ويضم نصف عدد المعلمات مقارنةً بـ Granite Speech 3.3 2B،…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت IBM نموذج Granite 4.0 1B Speech — وهو نموذج مدمج للكلام واللغة للتعرف على الكلام متعدد اللغات والترجمة ثنائية الاتجاه. ما يهم في هذا الخبر ليس مجرد إصدار جديد، بل رهان IBM على سيناريوهات الإنتاج حيث الذاكرة والكمون وتكلفة الاستدلال حرجة مثل جودة المعايير.
ما الذي تغير
يحل Granite 4.0 1B Speech محل التكوينات الأثقل في سطر منتجات Granite Speech ويركز على الكفاءة. وفقاً لـ IBM، يحتوي النموذج على نصف معاملات granite-speech-3.
3-2b، مع تحقيق دقة محسّنة في ASR للغة الإنجليزية ودعم التعرف على الكلام باللغة اليابانية وانحياز قائمة الكلمات الرئيسية والاستدلال الأسرع من خلال الضبط الدقيق للمرمز وفك التشفير التخميني. الفكرة بسيطة: عدم زيادة الحجم بأي ثمن، بل إزالة الوزن الزائد دون فقدان القدرات الأساسية التي تحتاجها الفرق في الإنتاج الحقيقي. تؤكد IBM على منهج التدريب بشكل منفصل.
النموذج مبني على granite-4.0-1b-base، الذي تم ضبطه الدقيق على مهام الكلام من خلال محاذاة الطريقة. تضمن مزيج التدريب مجموعات بيانات ASR و AST مفتوحة المصدر، بالإضافة إلى مجموعات بيانات اصطناعية للغة اليابانية و ASR منحاز بالكلمات الرئيسية وترجمة الكلام.
بالنسبة للمطورين، هذا إشارة مهمة: IBM لا تبني مكدس كلام مغلق فقط للسحابة، بل تطور نموذج مفتوح يمكن تكييفه مع خطوط الأنابيب والأجهزة الخاصة بك.
اللغات والمهام
تم تصميم Granite 4.0 1B Speech لسيناريوهات المؤسسات حيث يكون كل من النسخ والترجمة ثنائية الاتجاه للكلام ضروريين. تتضمن مجموعة اللغات المدخلة المدعومة الأساسية اللغة الإنجليزية والفرنسية والألمانية والإسبانية والبرتغالية واليابانية. بالنسبة للترجمة، تضع IBM النموذج كأداة لتحويل الكلام إلى نص وترجمة الكلام من والى اللغة الإنجليزية لهذه اللغات، وتحدد بشكل منفصل سيناريوهات إنجليزي-إيطالي وإنجليزي-ماندرين. هذا يجعل الإصدار مفيداً ليس فقط لمراكز الاتصالات وواجهات الصوت، بل أيضاً لخطوط أنابيب الترجمة الداخلية.
- التعرف على الكلام باللغة الإنجليزية والفرنسية والألمانية والإسبانية والبرتغالية واليابانية
- ترجمة الكلام ثنائية الاتجاه لأزواج اللغات مع الإنجليزية
- سيناريوهات منفصلة للترجمة من الإنجليزية للإيطالية والإنجليزية للماندرين
- الانحياز حسب قائمة الكلمات الرئيسية للأسماء والعلامات التجارية والاختصارات
- التشغيل في السيناريوهات حيث تكون الكمون المنخفض والذاكرة المحدودة حرجة
ميزة عملية أخرى هي الترخيص Apache 2.0. بالنسبة لفرق المؤسسات، هذا يقلل الاحتكاك في مرحلة التجربة والتقييم القانوني: يمكن نشر النموذج محلياً وتضمينه في مكدسك الخاص وعدم الارتباط بإمكانية الوصول عبر API فقط في المرحلة المبكرة. في مقابل سوق حيث تتاح العديد من أنظمة الكلام فقط كخدمة سحابية مع قيود تجارية، توفر هذه الصيغة مزيداً من الحرية للتخصيص والنشر بلا اتصال والتحكم في البيانات.
النشر والمقاييس
وفقاً لبطاقة النموذج، احتل Granite 4.0 1B Speech بالفعل المرتبة الأولى في قائمة OpenASR مع متوسط WER يبلغ 5.52 و RTFx يبلغ 280.
02. في توزيع مجموعات البيانات، تعرض IBM على سبيل المثال 1.42 على LibriSpeech Clean و 2.
85 على LibriSpeech Other و 3.10 على Tedlium. لمثل هذه الإصدارات، هذه حجة مهمة: يتم وضع النموذج ليس فقط كـ "صغير ورخيص"، بل كنظام مدمج يحافظ على مستوى قوي جداً على الاختبارات العامة القياسية.
من ناحية النشر، حاولت IBM إزالة الحواجز غير الضرورية. النموذج مدعوم في **transformers 4.52.
1+، يعمل عبر vLLM، ويحتوي على مسار منفصل لـ mlx-audio** على Apple Silicon. يستخدم خط الأنابيب المرجعي صوتاً أحادياً بسرعة 16 كيلوهرتز، يتم تشكيل الطلب عبر البادئة `<|audio|>`، ويمكن إضافة انحياز الكلمات الرئيسية مباشرة إلى المطالبة. معمارياً، يبقى Granite Speech نظاماً بمرتين: أولاً يحول النموذج الصوت إلى نص، ثم إذا لزم الأمر استدعاء نموذج لغة منفصل يعالج النسخة.
للإنتاج، هذا مريح لأن التعرف والمنطق اللاحق يمكن توسيعهما وضبطهما بشكل مستقل.
ما يعنيه هذا
IBM تراهن على قطاع ذكاء اصطناعي الكلام حيث النموذج الفائز ليس الأكبر، بل الذي يمكنه بالفعل أن يعمل على موارد محدودة دون فقدان الجودة. إذا استقر Granite 4.0 1B Speech في عمليات النشر الإنتاجية، فسيحصل السوق على خيار قوي آخر مفتوح المصدر للنسخ المحلي وترجمة الكلام وخدمات الحافة بدون اعتماد ثقيل على السحابة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.