Habr AI→ المصدر

مقارنة Yandex SpeechKit وCosyVoice في مهام البوتات الصوتية والبودكاستات الصوتية

أصدرت Raft الجزء الثاني من مراجعتها لنماذج TTS وقارنت CosyVoice مع Yandex SpeechKit في سيناريوهين للأعمال: بوت realtime وأداء صوتي طويل للبودكاستات. نال…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
مقارنة Yandex SpeechKit وCosyVoice في مهام البوتات الصوتية والبودكاستات الصوتية
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Raft الجزء الثاني من مراجعة نماذج TTS وهذه المرة قارنت ليس فقط الحلول مفتوحة المصدر بل أيضاً الخدمات الاحتكارية. في محور الاهتمام سيناريوهان عمليان: روبوت صوتي يرد بشكل فوري وتحويل نصوص طويلة إلى صوت لبودكاست صوتي.

كيف قارنوا

احتفظ المؤلف بنفس إطار التقييم من الجزء الأول من المراجعة ليتسنى مقارنة النتائج بشكل مباشر. دخل نموذجان الاختبار: CosyVoice 3-0.5B من Alibaba و Yandex SpeechKit. تم اختبارهما ليس على عروض تجريدية بل على مهام حيث يكون مهماً للعمل ليس فقط جودة الصوت بل أيضاً الكمون والاستقرار والقابلية للتحكم وسهولة التكامل. يجعل هذا الشكل المقارنة مفيدة ليس للاهتمام البحثي بل لاختيار أداة معينة للمنتج.

  • الكمون في التوليد على CPU و GPU
  • طبيعية الكلام: الرنين والسلاسة والإيقاع والتنغيم
  • التعبيرية: الانفعالات والتكيف مع السياق
  • سهولة التكامل: التوثيق والتشغيل والضبط

للسيناريو الروبوت الصوتي، تم تشغيل النماذج عبر حوار طبي قصير يحتوي على اختصارات روسية معقدة مثل ОМС، СНИЛС، ИБС، ЭКГ و ЭХО-КГ. لسيناريو البودكاست، استخدموا مقطعاً أدبياً من القصة "رجل من سان فرانسيسكو" بحجم 4868 حرف و 728 كلمة. يكشف هذا الاختبار بسرعة مشاكل TTS النموذجية: أخطاء في التشديد وأعطال في التنغيم وفترات راحة غير طبيعية وقطع أثرية تكون واضحة بشكل خاص على مسافة طويلة.

CosyVoice قيد التنفيذ

يعمل CosyVoice في هذه المراجعة كمرشح قوي مفتوح المصدر للغة الروسية. اختبر المؤلف الإصدار 3-0.5B واستخدم لنشره المحلي نسخة محسنة باللغة الروسية FastCosyVoice.

في سيناريو المساعد الصوتي، نطق النموذج بثقة الاختصارات الطبية، لم يظهر لهجة ملحوظة وبشكل عام بدا طبيعياً. بالنسبة للفرق التي تريد الاحتفاظ بحلقة TTS داخل بنيتها التحتية الخاصة وعدم الاعتماد على API خارجي، هذا ميزة مهمة جداً. بمقاييس السرعة كانت النتيجة توازناً لكنه متوقع لنموذج محلي.

على جملة اختبار قصيرة تستمر حوالي 10-15 ثانية، أظهرت CosyVoice كموناً قدره 12.25 ثانية على CPU و 3.49 ثانية على GPU.

بالنسبة للإنتاج هذا يعني أن بدون بطاقة رسومات جيدة، الاعتماد على استجابة سريعة سيكون صعباً. لكن بالدرجات الذاتية حصل النموذج على 5 نقاط للطبيعية و 5 للتعبيرية، وهذا بالفعل حجة قوية للمهام حيث يجب أن يبدو الصوت حياً بدلاً من أن يبدو مثل الرد الآلي الكلاسيكي. عند توليد نص طويل، بدت CosyVoice أيضاً واثقة: خرجت الكلام نظيفة ومتسقة وشبيهة جداً بصوت المتحدث المرجعي.

لكن لم تكن تماماً بدون تحفظات — في أماكن كانت هناك تشديدات غير دقيقة وأخطاء تنغيم عرضية. لبودكاست صوتي هذا ليس عيباً حرجاً لكنه يعني أنه قبل النشر النهائي للتعليق الصوتي، تحتاج بعد لشخص يراجع بسرعة النتيجة ويصحح النقاط الخلافية.

"...إظهار كيفية تصرف هذه الحلول في سيناريوهات منتجات حقيقية".

نقاط القوة في SpeechKit

يبدو Yandex SpeechKit في المراجعة كأداة إنتاج أكثر نضجاً. الخدمة لديها توثيق واضح وعدد كبير من الأصوات الروسية وعدة شخصيات صوتية وسيناريوهات مصممة للتكامل السريع. في اختبار روبوت الصوت، تعامل النموذج بنفس الثقة مع العبارات التي تحتوي على اختصارات وفي النص الطويل قدم نطقاً وتشديداً أكثر استقراراً.

التوازن الرئيسي في مكان آخر: الصوت يبدو أكثر روبوتية قليلاً من أفضل TTS الحديث، خاصة إذا قارنت بالطبيعية فقط. بالنسبة للعمل شيء آخر أكثر أهمية: يغطي SpeechKit بالفعل تقريباً جميع الدائرة التطبيقية حول تجميع الكلام ويقلل من حجم المراجعة اليدوية بعد التكامل. إنه ليس فقط محرك التجميع نفسه بل مجموعة من قدرات الخدمة التي تكون ذات قيمة خاصة في روبوت ومركز اتصالات وأي سيناريوهات حيث تحتاج لإطلاق تدفقات صوتية جديدة بسرعة بدون إعداد هندسي مطول.

  • التجميع المتزامن وغير المتزامن والبث
  • Realtime API للروبوتات الصوتية
  • حزمة STT و TTS في واجهة واحدة
  • أدوات لتحديد التشديدات والفترات والنطق
  • القدرة على إنشاء صوتك الخاص من التسجيلات المحددة

على جملة قصيرة، أظهر SpeechKit كموناً قدره 1.81 ثانية، وحصل على 4 نقاط للطبيعية و 5 للتعبيرية و 5 لسهولة التكامل. تحلل المراجعة أيضاً السعر بشكل منفصل: يكلف API v1 1342 روبل لكل مليون حرف شهرياً و API v3 يحسب الطلبات في كتل بمقدار 250 حرف. مثال من المقالة: تجميع 900 حرف في v3 سيكلف حوالي 0.65 روبل. بالنسبة للفرق هذا نموذج مريح لأن تكلفة قناة الصوت وحمل الخادم يمكن حسابها مقدماً، حتى قبل الإطلاق الكامل.

ما يعنيه هذا

تظهر المقارنة صورة واضحة تماماً لسوق TTS باللغة الروسية. إذا كان يهمك فريق السيطرة على المكدس والترخيص مفتوح المصدر والصوت الأكثر حيوية، تبدو CosyVoice خياراً قوياً خاصة مع وجود GPU متاح والرغبة في التعامل مع البنية التحتية. إذا كنت بحاجة إلى إطلاق سريع وتكامل متوقع وأدوات جاهزة لمركز اتصالات أو مساعد صوتي، يبدو Yandex SpeechKit أكثر عملية. اختيار TTS الآن منطقي ليس بالجودة التجريدية بل بكيفية تصرف النموذج في منتج محدد وتحت حمل محدد.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…