النماذج

تحويل النص إلى كلام (Text-to-Speech)

تحويل النص إلى كلام (TTS) هو تقنية تحول النص المكتوب إلى صوت مكلوم مُخلَّق، باستخدام نماذج ذكاء اصطناعي مدربة على تسجيلات الكلام البشري لإنتاج مخرجات صوتية طبيعية البدو.

تحويل النص إلى كلام (TTS) هو خط أنابيب تعلم الآلة يحول النص المكتوب إلى موجات صوتية تمثل اللغة المكلومة. يجب على أنظمة TTS الحديثة التعامل مع النطق والموسيقى (الإيقاع والضغط والنغمة) وسرعة الكلام وهوية الصوت في نفس الوقت، مستهدفة مخرجات تبدو طبيعية ومناسبة للسياق. التباين مع الأنظمة الأقدم القائمة على القواعد والتجميع الاندماجي—التي أنتجت كلاماً يبدو آلياً—كبير بما يكفي لأن المستمعين غالباً لا يستطيعون التعرف بموثوقية على مخرجات neural TTS كصورة اصطناعية.

تجمع معماريات TTS المعاصرة عادة بين ثلاثة مكونات: مشفر نص يوحد المدخلات ويحول الأحرف أو الفونيمات إلى تضمينات؛ نموذج صوتي (عادة ما يكون محول أو نموذج انتشار) يتنبأ بـ mel-spectrograms أو تمثيلات صوتية كامنة مستمرة؛ و neural vocoder مثل HiFi-GAN أو EnCodec يحول هذه التمثيلات إلى موجات صوتية خام. يضيف استنساخ الصوت خطوة تكييف المتحدث: بالنظر إلى عينة صوتية مرجعية قصيرة—عدد قليل من الثواني في الأنظمة الرائدة—يتكيف النموذج مخرجاته لمطابقة تلوين الصوت واللهجة وأسلوب الكلام للمتحدث المستهدف. يتطلب التدريب مجموعات كبيرة من الكلام النظيف مقترن بنصوص دقيقة.

يعتبر TTS أساسياً لأدوات إمكانية الوصول مثل قارئات الشاشة والأجهزة المساعدة للمكفوفين، ومساعدات الصوت، وإنتاج الكتب الصوتية والبودكاست، وأنظمة IVR لخدمة العملاء، وتوطين المحتوى عبر اللغات. أتاحت الجودة القريبة من الجودة الإنسانية لـ neural TTS الحديث إنتاج محتوى صوتي طويل الشكل بأحجام وسرعات مستحيلة مع محكيين بشريين وحدهم.

اعتباراً من منتصف 2025، اشتملت أنظمة TTS الرائدة على ElevenLabs (معروفة بجودة استنساخ الصوت والتعبير العاطفي) و OpenAI TTS (متاحة عبر API) و Google Cloud Text-to-Speech (عائلات أصوات WaveNet و Chirp) و Microsoft Azure Neural TTS و Cartesia (تركز على البث بكمون فائق منخفض). كانت الخيارات مفتوحة المصدر مثل Kokoro و XTTS-v2 قد وصلت إلى جودة قريبة من التجارية. تم تحقيق البث TTS مع كمون صوت أول أقل من 300 ميلي ثانية من قبل عدة موفري خدمة، مما يتيح النشر في وكلاء ذكاء اصطناعي محادثة فورية.

مثال

يستخدم ناشر ElevenLabs لاستنساخ صوت المؤلف من تسجيل استوديو مدته 30 دقيقة، ثم ينتج تلقائياً سرد كتاب صوتي كامل مدته 10 ساعات من نص المخطوطة، حيث ينتج صوتاً يطابق الإيقاع واللهجة للمؤلف دون جلسات تسجيل إضافية.

مصطلحات مرتبطة

التعرف على الكلام (Speech Recognition)نموذج متعدد الأنماط (Multimodal Model)Deepfake

آخر الأخبار حول الموضوع

نماذج تحويل النص إلى كلام في 2026: مقارنة بين التجارية والمفتوحة2026-05-31

← المسرد