أطلقت Google نموذج Gemini 3.1 Flash Live لوكلاء الذكاء الاصطناعي الصوتيين والحوار متعدد الأنماط

أطلقت Google نموذج Gemini 3.1 Flash Live في معاينة عبر واجهة برمجة تطبيقات Gemini Live في AI Studio. إنه نموذج متعدد الأنماط لوكلاء الصوت والبصري يستجيب بشكل أسرع ويفهم الكلام بشكل أفضل في الضوضاء ويدعم استدعاء الأدوات في الوقت الفعلي. تسلط Google الضوء بشكل منفصل على إيقاع الحوار الأكثر طبيعية ودعم 90+ لغة والملاءمة للمهام المعقدة متعددة الخطوات.

Khamidun Zhemal

رصد الذكاء الاصطناعي · MarkTechPost

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News

أطلقت Google نموذج Gemini 3.1 Flash Live لوكلاء الذكاء الاصطناعي الصوتيين والحوار متعدد الأنماط — المصدر: MarkTechPost. كولاج: Hamidun News.

◐ استمع للمقال

أطلقت Google في 26 مارس 2026 Gemini 3.1 Flash Live، حيث فتحت الوصول المعاين لنموذج جديد لوكلاء الذكاء الاصطناعي الصوتيين في الوقت الفعلي. الهدف هو القضاء على التأخيرات غير الضرورية في المحادثة، وفهم النبرة بشكل أفضل، والعمل فوراً ليس فقط مع الصوت، بل أيضاً مع الفيديو والنص والأدوات الخارجية.

لماذا هذا مهم

المشكلة الرئيسية للأنظمة الصوتية القديمة لم تكن في جودة الإجابات، بل في الفواصل بين التبادلات. أولاً كان النظام ينتظر الصمت، ثم يحول الكلام إلى نص، ثم يرسل طلباً إلى نموذج اللغة الكبير وعندها فقط يولد الصوت. تهاجم Google هذه السلسلة بشكل مباشر وتنقل معالجة الصوت داخل النموذج نفسه.

يعمل Gemini 3.1 Flash Live مع الفروقات الصوتية بشكل مباشر، وليس فقط من خلال نسخ صوتية، لذا يجب أن تشعر المحادثة بأنها أقرب للإيقاع البشري العادي. تضع Google تركيزاً خاصاً على العمل في البيئات الصاخبة.

يفصل النموذج الكلام المفيد بشكل أفضل عن الأصوات الخلفية مثل حركة المرور والتلفاز أو المحادثات القريبة، ويتعرف بدقة أكبر على النبرة والإيقاع والإشارات العاطفية من المتحدث. في السيناريوهات الكبيرة هذا مهم بقدر السرعة: يجب على وكيل صوتي أن لا يجيب فقط، بل يفهم أن المستخدم محبط أو مرتبك أو قاطع النظام في منتصف الجملة. بالنسبة للمساعدات المحمولة ومراكز الاتصال، هذا أحد أكثر التحديثات عملياً في نطاق Gemini.

ما الذي تستطيع Live API فعله

من وجهة نظر تقنية، تمنح Google المطورين واجهة بث ثنائية الاتجاه وحالتية فوق WebSockets. هذا ليس API REST نموذجياً برسائل وإجابات منفصلة، بل اتصال دائم يتبادل خلاله العميل والنموذج البيانات في الاتجاهين. بفضل هذا، يمكن للوكيل الاستماع للمستخدم ومراقبة السياق البصري الوارد واستدعاء الأدوات وإرجاع إجابة صوتية فوراً. هناك أيضاً barge-in: إذا قاطع الشخص النموذج، يستطيع النظام إيقاف توليد الصوت وقبول بيان جديد دون تأخير ملحوظ.

الصوت الوارد: PCM خام 16-بت، 16 كيلوهرتز، little-endian
الصوت الصادر: PCM خام دون خطوة TTS منفصلة
السياق البصري: إطارات JPEG أو PNG بحوالي 1 FPS
الأدوات: function calling، tool use، إدارة الجلسات الطويلة و ephemeral tokens

وفقاً لـ Google، حقق النموذج 90.8% على ComplexFuncBench Audio — مقياس لاستدعاءات الدوال متعددة الخطوات عبر الصوت. على Audio MultiChallenge من Scale AI حقق 36.1% مع تفعيل وضع thinking، الذي يختبر التعليمات المعقدة وآفاق التفكير الطويلة والفواصل والمقاطعات النموذجية للكلام المباشر. التفصيل العملي الآخر هو دعم أكثر من 90 لغة للتواصل المتعدد الأنماط في الوقت الفعلي. أي أن Google تروج لـ Flash Live ليس كعرض توضيحي لمحادثات جميلة، بل كطبقة أساسية للسيناريوهات الإنتاجية.

حيث سيكون النموذج مفيداً

تعرض Google بالفعل ليس سيناريوهات ترويجية مجردة، بل حالات استخدام عملية. في Stitch يمكنك مناقشة التصميم بالصوت: يرى الوكيل اللوحة والشاشات المختارة ويعلق على القرارات ويقترح متغيرات. يعتمد جهاز Ato للمستخدمين الكبار في السن على دعم النموذج متعدد اللغات لتحويل المحادثات اليومية إلى اتصال أكثر طبيعية.

وتستخدم فريق Weekend Flash Live لنسق RPG، حيث يجب على مضيف الذكاء الاصطناعي ليس الإجابة بسرعة فقط، بل الحفاظ على الشخصية والإيقاع والتسليم المسرحي دون فجوات بين التبادلات. من المهم أيضاً أن Google لا تبقي النموذج محصوراً في AI Studio. بالنسبة للمطورين متاح في preview عبر Gemini Live API، للسيناريوهات enterprise في Gemini Enterprise for Customer Experience، وللمستخدمين العاديين يتم تضمينه بالفعل في Gemini Live و Search Live.

تؤكد الشركة أنه في Gemini Live أصبحت الإجابات أسرع وتم الحفاظ على خيط المحادثة لمدة أطول بحوالي الضعف. بالتوازي، يتم طرح Search Live في أكثر من 200 دولة وإقليم. تعلم Google جميع مخرجات الصوت المولدة بعلامة مائية SynthID لتسهيل كشف الصوت الاصطناعي.

ماذا يعني هذا

تحاول Google احتلال طبقة حيث يتواصل الذكاء الاصطناعي ليس برسائل بل بحوار مستمر ويعمل فوراً عبر الأدوات. إذا حافظ Flash Live حقاً على زمن كمون منخفض ومتانة في الضوضاء وجودة function calling في الإنتاج، فسوف يتحول سوق وكلاء الصوت بسرعة من "روبوتات محادثة ناطقة" بسيطة إلى أنظمة يمكن تضمينها في الدعم والواجهات والبحث والمساعدات اليومية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية