ربط Whisper وGemma 3 بالتعلّم التبايني لإضافة إدخال صوتي منخفض التكلفة إلى LLMs

اتضح أن إضافة الصوت إلى LLM بتكلفة منخفضة أصعب مما توحي به الأوراق البحثية. ربط المؤلف Whisper Medium وGemma 3 4B عبر مسقِط MLP، وجرّب teacher forcing وLoRA وquantization ومجموعة من أساليب regularization، لكن التقدم العملي لم يأتِ إلا مع InfoNCE التبايني. وانتهى أول تشغيل ناجح عند WER بلغ 35%: ما يزال ذلك بعيدًا عن ASR للإنتاج، لكن النموذج بات يتعرف على الكلام وتأتي أخطاؤه منطقية صوتيًا.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Habr AI

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

ربط Whisper وGemma 3 بالتعلّم التبايني لإضافة إدخال صوتي منخفض التكلفة إلى LLMs — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

إضافة إدخال صوتي إلى نموذج لغة كبير بطريقة اقتصادية أثبتت أنها أكثر تعقيداً مما تعد به الأوراق البحثية عن التعددية. حاول مؤلف التجربة ربط مشفر الصوت Whisper ونموذج اللغة Gemma 3 من خلال منصة مدمجة، وبعد سلسلة من الفشل توصل إلى تكوين فعال باستخدام التعلم التبايني.

كيفية بناء المكدس

الفكرة كانت بسيطة: بدلاً من تدريب نظام متعدد الأنماط مكلف من الصفر، خذ مشفر صوت جاهز ونموذج لغة جاهز وربطهما بـ "مترجم" بين فضاءات التضمين. تم اختيار Whisper Medium كمشفر لأن تمثيلاته الداخلية معايرة بشكل أفضل لتحقيق الكلام من البدائل ذاتية الإشراف. على جانب النص، استخدموا Gemma 3 4B، وقامت منصة MLP ثنائية الطبقة بدور الجسر، حيث تضغط وتترجم متجهات الصوت إلى فضاء التضمين لنموذج اللغة.

لتجنب تدريب النموذج فقط على اللغة الإنجليزية النظيفة من الاستوديو، تم تجميع تدفق التدريب من عدة مجموعات بيانات ومزجها بشكل ديناميكي. سمح هذا للنظام بالتعامل فوراً مع خطاب مختلف من حيث الجودة واللغة وأسلوب النطق. تؤكد الورقة بشكل منفصل أن هذا المزج ضروري ليس للإحصائيات الجميلة، بل حتى لا يعتاد النظام على بيئة صوتية واحدة ولغة واحدة من الحقب الأولى. وإلا فإن أي انحراف - ضجيج أو توقف أو جزء باللغة الروسية - سيكسر الاعتراف على الفور.

LibriSpeech train.360 كأساس المجموعة
LibriSpeech train.100 كلغة إنجليزية نظيفة إضافية
Russian LibriSpeech للخطاب الروسي
DisfluencySpeech مع التوقفات والهفوات والتأتأة

لماذا انهار كل شيء

اعتمدت المحاولة الأولى على الوصفة الأكثر وضوحاً: فرض المعلم والـ cross-entropy القياسي على النسخ. تلقى نموذج اللغة كمدخل تعليمات ومتجهات صوتية والنص الصحيح، مع حساب الخسارة فقط على رموز الإجابة. في الممارسة العملية، كان النظام يسمع بالكاد التسجيل: أنتج النموذج أجزاء غير متماسكة، وقد تعثر WER حول 300%. حتى بعد إضافة LoRA، أصبح من الواضح أن المشكلة أعمق - كانت المنصة لا تجلب الإشارة الصوتية إلى حيث يمكن لنموذج اللغة قراءتها. احتفظ Gemma بأولوية قوية جداً بالهندسة المألوفة لرموز النص.

ثم جاءت سلسلة من الإصلاحات المستهدفة. أضاف المؤلف مرحلة الصفر حيث تعلمت Gemma في البداية ببساطة إعادة كتابة النص باتباع التعليمات، لأنه تم استخدام إصدار غير معايير للتعليمات. تلت ذلك تجارب مع التكميم والتنظيم: كان التزام الخسارة يجب أن يبقي مخرجات المنصة قريبة من التضمينات المعروفة، SWD لمحاذاة توزيعات متجهات الصوت والنص، وخسارة الإنتروبيا لفرض النظام على استخدام رموز أكثر، و VICReg لمنع انهيار الإحداثيات الفردية.

ساعدت تصورات t-SNE في تحديد مشكلتين رئيسيتين: انهيار التمثيل والفجوة الهندسية بين فضاءات الصوت والنص. لكن كل تعديل جديد عالج عرضاً واحداً فقط. حسّن SWD شكل التوزيع دون تحسين المحتوى. وسعت خسارة الإنتروبيا استخدام الرموز ولكن بطريقة تعسفية. زادت VICReg التباين، لكن تفرقت المتجهات بفوضى. وجد النظام مراراً وتكراراً طريقة بديلة حيث بدت المقاييس محلياً أفضل بينما لم يظهر الاعتراف الحقيقي.

أصبح هذا الدرس الرئيسي لمرحلة التنظيم: مع إشارة أساسية ضعيفة، يحسّن النموذج الرياضيات وليس المعنى.

ما الذي نجح فعلاً

كانت نقطة التحول هي التخلي عن فكرة أن المحاذاة يمكن تحقيقها من خلال العقوبات غير المباشرة وحدها. جعل المؤلف التعلم التبايني الإشارة الأساسية وانتقل إلى InfoNCE المتماثل: يجب أن يكون متجه الصوت أقرب إلى نسخته الصوتية من جميع النصوص الأخرى في الدفعة، والعكس صحيح. بخلاف المنظمين السابقين، لا تحدد هذه الخسارة الإحصائيات العامة بل علاقات محددة على مستوى الأزواج.

مع دفعة كبيرة عمل هذا بشكل ملحوظ أفضل: انخفضت منحنى الخسارة بسلاسة بدون قفزات حادة، وانخفض WER إلى 35%. لا تزال النتيجة لا ترقى إلى أنظمة الكلام التجاري، لكنها لم تعد ضجيجاً عشوائياً. في السجلات، بدأ النموذج في الخطأ بطريقة معقولة صوتياً: التقط أصوات الكلمات وأساء الفهم بشكل أشبه بشخص ضعيف السمع من جهاز كسر. بالنسبة للممر الأول، هذا يهم أكثر من رقم WER المطلق: توقف النظام عن محاكاة الإجابات وبدأ فعلاً في استخدام الصوت.

هذا ما يعتبره المؤلف العلامة الرئيسية للتقدم.

«لكن الشيء الرئيسي هو أنها تسمع بالفعل.»

ماذا يعني هذا

توضح هذه الحالة بشكل جيد أن الصيغة الصوتية الرخيصة لنماذج اللغات المحلية ممكنة، لكن ليس من خلال منصة MLP "السحرية" من الأوراق. يبدأ الاقتران البسيط لمشفر جاهز ونموذج لغة في العمل فقط عندما تظهر إشارة محاذاة قوية بينهما. بالنسبة للمطورين، هذا استنتاج مهم: إذا كنت تريد إضافة الصوت إلى نموذجك الخاص دون تدريب مكلف من الصفر، فقد تثبت المرحلة التباينية أنها ليست خياراً بل أساساً إلزامياً.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →