StepFun تطلق نموذج صوتي StepAudio 2.5 Realtime مع دعم تمثيل الأدوار

Q: ما هو المصدر؟

نُشر أصلاً على MarkTechPost. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

25 مايو 2026. وقت القراءة: 3 دقيقة.

أطلقت StepFun نموذج صوتي جديد StepAudio 2.5 Realtime مع شخصيات قابلة للتخصيص بالكامل. يفهم النموذج علم اللغة الملحوظة (التنغيم والعواطف)، ويدعم اللغة الصينية…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · MarkTechPost

25 مايو 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News

StepFun تطلق نموذج صوتي StepAudio 2.5 Realtime مع دعم تمثيل الأدوار — المصدر: MarkTechPost. كولاج: Hamidun News.

◐ استمع للمقال

أطلقت StepFun نموذج صوتي من الجيل الجديد StepAudio 2.5 Realtime. يعمل النموذج من البداية إلى النهاية (end-to-end)، ويعيد إنتاج الكلام في الوقت الفعلي ويمكنه تكييف الصوت مع أي سيناريو من خلال شخصيات قابلة للتخصيص بالكامل.

كيفية عمل النموذج

StepAudio 2.5 Realtime عبارة عن نظام متكامل للعمل مع الصوت، يجمع بين التعرف على الكلام وتوليف الكلام. يتصل النموذج عبر WebSocket API ويدعم كلاً من اللغة الصينية والإنجليزية. تعني المعالجة في الوقت الفعلي أن الاستجابة تأتي بأقل تأخير، وهو أمر حاسم للتطبيقات التفاعلية والمساعدات الصوتية.

الميزة الرئيسية لـ StepAudio هي شخصيات قابلة للتخصيص بالكامل دون الحاجة إلى إعادة التدريب. لا يتعلق الأمر بمجرد تغيير الصوت، بل يتعلق بالتكيف الكامل مع السياق: يغير النموذج النبرة وأسلوب الكلام بل وحتى اللهجة اعتماداً على من أو ما يجب عليه تصويته. هذا مهم بشكل خاص لتصويت الشخصيات وإنشاء مساعدات صوتية مخصصة.

علم اللغة الملحوظة والطبيعية

تم تدريب النموذج على التعلم المعزز الخاص (RLHF) لفهم علم اللغة الملحوظة - كل شيء يتجاوز خط الكلام العادي: التنغيم والإيقاع والتلوين العاطفي والمعنى في المكان المناسب. غالباً ما تبدو أنظمة الصوت القياسية رتيبة وغير طبيعية. يحل StepAudio 2.5 Realtime هذه المشكلة، مما يجعل الكلام أكثر حيوية وتعبيراً.

من بين خصائص النموذج:

تخصيص كامل للشخصيات دون إعادة التدريب
فهم عميق لعلم اللغة الملحوظة (التنغيم والنبض والعواطف)
توليف في الوقت الفعلي عبر WebSocket API
دعم اللغة الصينية والإنجليزية
RLHF خاص لتمثيل الأدوار والتصويت

نتائج المقاييس

في أبريل 2026، خضعت StepAudio 2.5 Realtime لاختبار مستقل وفقاً لخمسة معايير واحتلت المرتبة الأولى في جميعها. كانت النتيجة الأكثر إثارة للإعجاب 80.41 نقطة في التقييم البشري، مما يعني أن الناس يعتبرون هذا النموذج قريباً جداً من الكلام الطبيعي. من حيث فهم علم اللغة الملحوظة، حصل النموذج على 82.18 نقطة. هذا يعني أن النموذج لا يقتصر على توليد الصوت فحسب، بل يفهم بالفعل المعاني والعواطف التي تكمن وراء الكلمات. بالنسبة للمساعدات الصوتية، هذا أمر حاسم - يجب أن تبدو مثل محادثة حقيقية وليس مثل روبوت يكرر النص.

ما هو المقصود بذلك

StepAudio 2.5 Realtime خطوة نحو أنظمة صوتية أكثر طبيعية تنافس OpenAI Voice و ElevenLabs. بالنسبة للمطورين، هذا يعني ظهور أداة قوية لإنشاء تطبيقات بواجهة صوتية وعاطفية حقيقية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية