MarkTechPost→ المصدر

StepFun تطلق نموذج صوتي StepAudio 2.5 Realtime مع دعم تمثيل الأدوار

أطلقت StepFun نموذج صوتي جديد StepAudio 2.5 Realtime مع شخصيات قابلة للتخصيص بالكامل. يفهم النموذج علم اللغة الملحوظة (التنغيم والعواطف)، ويدعم اللغة الصينية…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
StepFun تطلق نموذج صوتي StepAudio 2.5 Realtime مع دعم تمثيل الأدوار
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت StepFun نموذج صوتي من الجيل الجديد StepAudio 2.5 Realtime. يعمل النموذج من البداية إلى النهاية (end-to-end)، ويعيد إنتاج الكلام في الوقت الفعلي ويمكنه تكييف الصوت مع أي سيناريو من خلال شخصيات قابلة للتخصيص بالكامل.

كيفية عمل النموذج

StepAudio 2.5 Realtime عبارة عن نظام متكامل للعمل مع الصوت، يجمع بين التعرف على الكلام وتوليف الكلام. يتصل النموذج عبر WebSocket API ويدعم كلاً من اللغة الصينية والإنجليزية. تعني المعالجة في الوقت الفعلي أن الاستجابة تأتي بأقل تأخير، وهو أمر حاسم للتطبيقات التفاعلية والمساعدات الصوتية.

الميزة الرئيسية لـ StepAudio هي شخصيات قابلة للتخصيص بالكامل دون الحاجة إلى إعادة التدريب. لا يتعلق الأمر بمجرد تغيير الصوت، بل يتعلق بالتكيف الكامل مع السياق: يغير النموذج النبرة وأسلوب الكلام بل وحتى اللهجة اعتماداً على من أو ما يجب عليه تصويته. هذا مهم بشكل خاص لتصويت الشخصيات وإنشاء مساعدات صوتية مخصصة.

علم اللغة الملحوظة والطبيعية

تم تدريب النموذج على التعلم المعزز الخاص (RLHF) لفهم علم اللغة الملحوظة - كل شيء يتجاوز خط الكلام العادي: التنغيم والإيقاع والتلوين العاطفي والمعنى في المكان المناسب. غالباً ما تبدو أنظمة الصوت القياسية رتيبة وغير طبيعية. يحل StepAudio 2.5 Realtime هذه المشكلة، مما يجعل الكلام أكثر حيوية وتعبيراً.

من بين خصائص النموذج:

  • تخصيص كامل للشخصيات دون إعادة التدريب
  • فهم عميق لعلم اللغة الملحوظة (التنغيم والنبض والعواطف)
  • توليف في الوقت الفعلي عبر WebSocket API
  • دعم اللغة الصينية والإنجليزية
  • RLHF خاص لتمثيل الأدوار والتصويت

نتائج المقاييس

في أبريل 2026، خضعت StepAudio 2.5 Realtime لاختبار مستقل وفقاً لخمسة معايير واحتلت المرتبة الأولى في جميعها. كانت النتيجة الأكثر إثارة للإعجاب 80.41 نقطة في التقييم البشري، مما يعني أن الناس يعتبرون هذا النموذج قريباً جداً من الكلام الطبيعي. من حيث فهم علم اللغة الملحوظة، حصل النموذج على 82.18 نقطة. هذا يعني أن النموذج لا يقتصر على توليد الصوت فحسب، بل يفهم بالفعل المعاني والعواطف التي تكمن وراء الكلمات. بالنسبة للمساعدات الصوتية، هذا أمر حاسم - يجب أن تبدو مثل محادثة حقيقية وليس مثل روبوت يكرر النص.

ما هو المقصود بذلك

StepAudio 2.5 Realtime خطوة نحو أنظمة صوتية أكثر طبيعية تنافس OpenAI Voice و ElevenLabs. بالنسبة للمطورين، هذا يعني ظهور أداة قوية لإنشاء تطبيقات بواجهة صوتية وعاطفية حقيقية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…