قدّمت Google نموذج Gemini 3.1 Flash TTS — نموذج كلام مع التحكم والحوارات و70+ لغة
أطلقت Google نموذج Gemini 3.1 Flash TTS — نموذج TTS جديد في معاينة يركز على الطبيعية والتحكم. يدعم 70+ لغة، وينتج حوارات طبيعية بين متحدثين، ويسمح بتعديل…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Google نموذج Gemini 3.1 Flash TTS في مرحلة المعاينة — وهو نموذج جديد لتوليف الكلام يركز ليس فقط على قراءة النص الصوتية، بل على إدارة توجيه الصوت. الفرق الرئيسي للإصدار هو أن المطورين يمكنهم تحديد التنغيم والسرعة واللهجة وحتى التحولات العاطفية مباشرة في موجه النص، بدلاً من اختيار النتيجة عمياء من خلال مجموعة من المعاملات الثابتة.
بالنسبة لسوق الذكاء الاصطناعي الصوتي، هذا تحول ملحوظ: تركيب النص إلى كلام يبدو بشكل متزايد أقل مثل صندوق أسود وأكثر مثل أداة إخراج. الإصدار قيد الطرح بالفعل في وضع المعاينة للمطورين عبر Gemini API وGoogle AI Studio، للعملاء الشركات عبر Vertex AI، وللمستخدمين في Workspace عبر Google Vids. وفقاً لـ Google، حققت Gemini 3.
1 Flash TTS 1211 نقطة Elo في تصنيف Artificial Analysis TTS، الذي يعتمد على مقارنات عمياء لجودة الكلام من المستخدمين. تسمي الشركة النموذج الأكثر طبيعية وتعبيراً في مجموعة TTS الخاصة بها. تؤكد Google أيضاً على مزيج من الجودة العالية والتكلفة المنخفضة نسبياً، أي أن النموذج يستهدف ليس فقط سيناريوهات العروض التوضيحية بل أيضاً حالات الاستخدام الحالية للمنتجات الشاملة.
الميزة الرئيسية للتحديث هي audio tags — أوامر نصية مدمجة تسمح بالتحكم الدقيق في كيفية نطق العبارة. يمكن للمطورين وصف مشهد وإسناد ملف صوتي إلى شخصية وإضافة تعليمات إخراج حول النبرة والسرعة، ثم تنقيح سطور فردية أو حتى أجزاء من سطر واحد من خلال علامات مضمنة بين قوسين معقوفين. بعبارة أخرى، يمكن أن تبدو العبارة نفسها هادئة أو مستاءة أو مهمسة أو معجلة دون التبديل إلى خط أنابيب مختلف. في Google AI Studio، أضافوا عناصر تحكم قابلة للتكوين لهذا الغرض، ويمكن تصدير الإعدادات الجاهزة إلى رمز Gemini API للحفاظ على صوت متسق عبر المشاريع والمنصات.
التركيز الثاني الرئيسي هو النطاق العالمي. يدعم Gemini 3.1 Flash TTS أكثر من 70 لغة ويراهن ليس فقط على التحويل الرسمي للنص إلى صوت، بل أيضاً على خصائص الكلام المحلية: اللهجات والفروقات اللهجاتية وسرعة التسليم. بالنسبة لفرق المنتجات، هذا مهم بشكل خاص في سيناريوهات التوطين والمزامنة والمساعد الصوتي والبودكاست ومقاطع الفيديو التعليمية والكتب الصوتية. فرق آخر ملحوظ هو وضع متعدد المتحدثين الأصلي. يمكن للنموذج إنشاء حوار بين متحدثين في طلب واحد دون تقسيم المحادثة إلى استدعاءات API منفصلة. يجب أن يوفر هذا إيقاعاً أكثر طبيعية وتسقياً متسقاً للأسطر مقارنة بالمخطط الكلاسيكي، حيث يتم دمج كل صوت بشكل منفصل ثم يتم لصقه على جانب التطبيق.
قامت Google أيضاً بدمج علامات مائية SynthID في جميع تدفقات الصوت المُنتج. لا يجب أن تكون ملحوظة للمستمع، لكنها تسمح بتحديد ما إذا كان التسجيل قد تم إنشاؤه بواسطة الذكاء الاصطناعي بشكل موثوق. في ضوء نمو جودة الكلام الاصطناعي، هذا لم يعد خياراً إضافياً بل عنصر أمان أساسي: كلما كان الصوت أكثر إقناعاً، كلما كانت القدرة على التحقق الآلي من أصله أكثر أهمية.
في الوقت نفسه، النموذج حالياً في مرحلة المعاينة وله قيود. في التوثيق، تلاحظ Google أن TTS هنا لا يدعم البث، قد تفقد الردود الطويلة على مدى عدة دقائق الاستقرار والجودة، وفي حالات نادرة يعيد الخدمة رموز نصية بدلاً من الصوت، مما يسبب فشل الطلب مع الخطأ 500. فارق آخر يتعلق بالموجهات: إذا كانت التعليمات غامضة، قد يرفض النموذج الطلب أو ينطق حرفياً ملاحظات التوجيه الخدمية.
الخلاصة هنا بسيطة: تحاول Google تحويل توليف الكلام من أداة API ضيقة إلى جزء من منصة Gemini متعددة الأنماط كاملة. Gemini 3.1 Flash TTS مثيرة للاهتمام ليس فقط لأنها تبدو أفضل من الإصدارات السابقة، بل أيضاً لأنها تعطي المطورين واجهة أوضح وأكثر قابلية للإدارة للعمل مع الصوت. إذا استقرت الشركة بسرعة الأجيال الطويلة والحفاظ على التوازن بين السعر والجودة، فلديها فرص جيدة للتأسيس ليس فقط في طبقة البنية التحتية بل أيضاً في المنتجات الصوتية الإبداعية، حيث هيمنت خدمات TTS المتخصصة حتى الآن.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.