أطلقت Hugging Face وCerebras نموذج Gemma 4 للـ AI الصوتي في الوقت الفعلي
في 1 يوليو 2026، قدمت Hugging Face وCerebras pipeline صوتيًا مفتوحًا قائمًا على Gemma 4 من Google DeepMind (31 مليار معلمة). ويتكون pipeline من أربعة مكونات…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
أطلقت Hugging Face و Cerebras خط أنابيب مفتوح من الكلام إلى الكلام برجة كمون متوقعة في 1 يوليو 2026، مبني على نموذج اللغة Gemma 4 من Google DeepMind بـ 31 مليار معامل. هذه هي المكدسة المعمارية المفتوحة الأولى المتاحة للجمهور لبرنامج الذكاء الاصطناعي الصوتي، حيث يضع المطورون استقرار كمون البيانات على قدم المساواة مع جودة الاستجابة.
معمارية النظام
تتكون المعمارية من أربعة مكونات مستقلة، يمكن استبدال كل منها دون إعادة تصميم الأخرى:
- التعرف على الكلام — Nvidia Parakeet
- نموذج اللغة — Gemma 4 من Google DeepMind (31 مليار معامل)
- منصة الاستدلال — Cerebras
- تركيب الكلام — Qwen3TTS من Alibaba
يختلف هذا النهج بشكل أساسي عن خطوط الأنابيب الصوتية الموحدة: عندما يتم إطلاق نموذج التعرف على الكلام (ASR) أكثر دقة أو محرك تركيب الكلام (TTS) أسرع، يمكن استبداله في خط الأنابيب دون إيقاف النظام بأكمله. هذا مهم بشكل خاص في مجال نماذج الكلام المفتوحة سريع التطور.
للمطورين، تتوفر نسخة توضيحية تفاعلية في Hugging Face Space "HF Realtime Voice" والكود المصدري الكامل في مستودع huggingface/speech-to-speech على GitHub. يمكن نسخ أي من الطبقات الأربع وتكييفها لمهام محددة — من المساعدين الآليين إلى مراكز الاتصالات المؤسسية.
الشراكة بين Hugging Face و Cerebras جزء من اتجاه أوسع: أصبحت سرعة الاستدلال ميزة تنافسية بقدر ما هي جودة النموذج الأساسي. بالنسبة لنظام المصدر المفتوح، هذا يعني أن الكمون المنخفض لم يعد امتياز حصري لواجهات برمجة التطبيقات المغلقة.
لماذا الكمون في النسبة المئوية 95 مهم؟
طالما كان الكمون الوسيط مقياساً لجودة: تتسع معظم الأنظمة الصوتية التجارية إلى 300-500 ميلي ثانية مقبولة في المتوسط. المشكلة الحقيقية هي النسبة المئوية 95 (P95): هنا حيث تظهر فترات توقف متعددة الثواني يشعر المستخدمون بأنها "تجميد" المحاور.
يتفاقم الوضع في الحوارات متعددة الأدوار — عندما تحتاج النماذج إلى استدعاء أدوات خارجية أو معالجة الصور أو تجميع عدة أجزاء سياقية. تضاعف كل خطوة إضافية الكمون، وتصبح P95 نقطة ضعف في المعمارية. يسرع Cerebras استدلال Gemma 4 بحيث تصبح فترات التأخير اللاحقة قابلة للتنبؤ — يمكن بناء النظام بضمانات استجابة صارمة.
يدعم حجم النشر في العالم الحقيقي هذا: يعمل أكثر من 9000 روبوت Reachy Mini بالفعل في الإنتاج على خط أنابيب الكلام إلى الكلام من Hugging Face. هذه هي بالضبط النشرات الصناعية التي تكشف الفجوة بين قيم الأداء المعملية والأداء الفعلية للكمون التشغيلي.
ماذا يعني هذا
يقلل مكدسة البرامج المفتوحة على Gemma 4 مع استدلال Cerebras من حاجز الدخول للفرق التي تحتاج إلى برنامج ذكاء اصطناعي صوتي بدون تبعيات احتكارية. تحافظ المعمارية على المرونة طويلة الأجل: يتم تحديث كل من الطبقات الأربع بشكل مستقل مع إطلاق نماذج أفضل — لا حاجة لإعادة كتابة خط الأنابيب بأكمله من أجل تحسين واحد. تحول النسخة التوضيحية العامة والمستودع المفتوح المفهوم إلى قالب مجرب في الواقع للمطورين في الروبوتيات والأجهزة الذكية والواجهات الصوتية.
الأسئلة الشائعة
كم عدد المعاملات التي يمتلكها Gemma 4 في خط الأنابيب هذا؟
يتم استخدام إصدار Gemma 4 من Google DeepMind بـ 31 مليار معامل؛ يتم تشغيل الاستدلال على منصة Cerebras، مما يضمن كمون متوقع حتى في النسبة المئوية 95 من الحمل.
أين يمكنني تجربة النظام؟
تتوفر نسخة توضيحية في Hugging Face Space "HF Realtime Voice"، مع فتح الكود المصدري الكامل في مستودع huggingface/speech-to-speech على GitHub.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.