MarkTechPost→ original

StepFun lance StepAudio 2.5 Realtime, un modèle vocal en temps réel avec support du roleplay

StepFun a lancé StepAudio 2.5 Realtime, un modèle vocal avec des personas entièrement personnalisables. Le modèle comprend la paralinguistique (intonation…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
StepFun lance StepAudio 2.5 Realtime, un modèle vocal en temps réel avec support du roleplay
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

StepFun a lancé StepAudio 2.5 Realtime, un modèle vocal de nouvelle génération. Le modèle fonctionne end-to-end, reproduit la parole en temps réel et peut adapter la voix à n'importe quel scénario grâce à des personas entièrement personnalisables.

Comment fonctionne le modèle

StepAudio 2.5 Realtime est un système holistique pour le traitement vocal, combinant la reconnaissance et la synthèse vocales. Le modèle se connecte via API WebSocket et supporte à la fois le chinois et l'anglais.

Le traitement en temps réel signifie que la réponse arrive avec un délai minimal, ce qui est critique pour les applications interactives et les assistants vocaux. La caractéristique clé de StepAudio est les personas entièrement personnalisables sans réapprentissage. Ce n'est pas simplement un changement de voix, mais une adaptation complète au contexte : le modèle modifie le ton, le style de parole, et même l'accent en fonction de ce qu'il doit exprimer ou incarner.

Ceci est particulièrement important pour le doublage de personnages et la création d'assistants personnalisés.

Paralinguistique et naturalité

Le modèle est entraîné avec un apprentissage par renforcement spécifique (RLHF) pour comprendre la paralinguistique — tout ce qui va au-delà du simple discours : intonation, rythme, coloration émotionnelle, pauses au bon endroit. Les systèmes vocaux standard sonnent souvent de manière monotone et peu naturelle. StepAudio 2.5 Realtime résout ce problème en rendant la parole plus vivante et expressive. Les caractéristiques du modèle incluent :

  • Personnalisation complète des personas sans réapprentissage
  • Compréhension approfondie de la paralinguistique (intonation, tempo, émotions)
  • Synthèse en temps réel via API WebSocket
  • Support du chinois et de l'anglais
  • RLHF spécialisé pour le roleplay et le doublage

Résultats des benchmarks

En avril 2026, StepAudio 2.5 Realtime a subi des tests indépendants sur cinq paramètres et s'est classée première sur tous. Le résultat le plus impressionnant est 80.41 points dans l'évaluation humaine, ce qui signifie que les gens considèrent ce modèle comme très proche de la parole naturelle. En termes de compréhension paralinguistique, le modèle a obtenu 82.18 points. Cela signifie que le modèle non seulement génère du son, mais comprend vraiment les sens et les émotions qui se cachent derrière les paroles. Pour les assistants vocaux, c'est critique — ils doivent sonner comme un vrai interlocuteur, et non comme un robot récitant du texte.

Qu'est-ce que cela signifie

StepAudio 2.5 Realtime est une étape vers des systèmes vocaux plus naturels qui concurrencent OpenAI Voice et ElevenLabs. Pour les développeurs, cela signifie l'émergence d'un outil puissant pour créer des applications avec interface vocale et une véritable émotion.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…