StepFun lanzó StepAudio 2.5 Realtime, un modelo de voz con soporte para roleplay
StepFun lanzó el modelo de voz StepAudio 2.5 Realtime con personas completamente personalizables. El modelo entiende paralingüística (entonación, emociones)…
Procesado por IA desde MarkTechPost; editado por Hamidun News
StepFun lanzó el modelo de voz de nueva generación StepAudio 2.5 Realtime. El modelo funciona end-to-end, reproduce el habla en tiempo real y puede adaptar la voz a cualquier escenario mediante personas completamente personalizables.
Cómo funciona el modelo
StepAudio 2.5 Realtime es un sistema integral para trabajar con voz, que combina el reconocimiento y síntesis de habla. El modelo se conecta a través de la API WebSocket y soporta tanto chino como inglés.
El procesamiento en tiempo real significa que la respuesta llega con una latencia mínima, lo cual es crítico para aplicaciones interactivas y asistentes de voz. La característica clave de StepAudio es el soporte de personas completamente personalizables sin reentrenamiento. No es solo un cambio de voz, sino una adaptación completa al contexto: el modelo cambia el tono, el estilo de habla, incluso el acento dependiendo de a quién o qué debe dar voz.
Esto es particularmente importante para la narrativa de personajes y la creación de asistentes personalizados.
Paralingüística y naturalidad
El modelo se entrenó con aprendizaje por refuerzo especial (RLHF) para entender la paralingüística: todo lo que va más allá del habla ordinaria, incluida la entonación, el ritmo, la coloración emocional y las pausas en el lugar adecuado. Los sistemas de voz estándar a menudo suenan monótonos e innaturales. StepAudio 2.5 Realtime resuelve este problema haciendo que el habla suene más viva y expresiva.
Las características del modelo son:
- Personalización completa de personas sin reentrenamiento
- Comprensión profunda de la paralingüística (entonación, tempo, emociones)
- Síntesis en tiempo real a través de la API WebSocket
- Soporte para chino e inglés
- RLHF especial para roleplay y narrativa de voz
Resultados en los benchmarks
En abril de 2026, StepAudio 2.5 Realtime pasó pruebas independientes en cinco parámetros y ocupó el primer lugar en todos ellos. El resultado más impresionante fue 80.41 puntos en evaluación humana, lo que significa que la gente considera que este modelo está muy cerca del habla natural. En cuanto a la comprensión de paralingüística, el modelo obtuvo 82.18 puntos. Esto significa que el modelo no solo genera sonido, sino que realmente «entiende» los significados y emociones detrás de las palabras. Para los asistentes de voz, esto es crítico: deben sonar como un interlocutor real, no como un robot que repite texto.
Qué significa
StepAudio 2.5 Realtime es un paso hacia sistemas de voz más naturales que compiten con OpenAI Voice y ElevenLabs. Para los desarrolladores, significa la aparición de una herramienta poderosa para crear aplicaciones con interfaz de voz y emotividad real.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.