StepFun lanzó StepAudio 2.5 Realtime, un modelo de voz con soporte para roleplay

Q: ¿Cuál es la fuente?

Publicado originalmente en MarkTechPost. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

25 may 2026. Tiempo de lectura: 3 min.

StepFun lanzó el modelo de voz StepAudio 2.5 Realtime con personas completamente personalizables. El modelo entiende paralingüística (entonación, emociones)…

Redacción de Hamidun News

Monitoreo de AI · MarkTechPost

25 may 2026· 2 min

Procesado por IA desde MarkTechPost; editado por Hamidun News

StepFun lanzó StepAudio 2.5 Realtime, un modelo de voz con soporte para roleplay — Fuente: MarkTechPost. Collage: Hamidun News.

◐ Escuchar artículo

StepFun lanzó el modelo de voz de nueva generación StepAudio 2.5 Realtime. El modelo funciona end-to-end, reproduce el habla en tiempo real y puede adaptar la voz a cualquier escenario mediante personas completamente personalizables.

Cómo funciona el modelo

StepAudio 2.5 Realtime es un sistema integral para trabajar con voz, que combina el reconocimiento y síntesis de habla. El modelo se conecta a través de la API WebSocket y soporta tanto chino como inglés.

El procesamiento en tiempo real significa que la respuesta llega con una latencia mínima, lo cual es crítico para aplicaciones interactivas y asistentes de voz. La característica clave de StepAudio es el soporte de personas completamente personalizables sin reentrenamiento. No es solo un cambio de voz, sino una adaptación completa al contexto: el modelo cambia el tono, el estilo de habla, incluso el acento dependiendo de a quién o qué debe dar voz.

Esto es particularmente importante para la narrativa de personajes y la creación de asistentes personalizados.

Paralingüística y naturalidad

El modelo se entrenó con aprendizaje por refuerzo especial (RLHF) para entender la paralingüística: todo lo que va más allá del habla ordinaria, incluida la entonación, el ritmo, la coloración emocional y las pausas en el lugar adecuado. Los sistemas de voz estándar a menudo suenan monótonos e innaturales. StepAudio 2.5 Realtime resuelve este problema haciendo que el habla suene más viva y expresiva.

Las características del modelo son:

Personalización completa de personas sin reentrenamiento
Comprensión profunda de la paralingüística (entonación, tempo, emociones)
Síntesis en tiempo real a través de la API WebSocket
Soporte para chino e inglés
RLHF especial para roleplay y narrativa de voz

Resultados en los benchmarks

En abril de 2026, StepAudio 2.5 Realtime pasó pruebas independientes en cinco parámetros y ocupó el primer lugar en todos ellos. El resultado más impresionante fue 80.41 puntos en evaluación humana, lo que significa que la gente considera que este modelo está muy cerca del habla natural. En cuanto a la comprensión de paralingüística, el modelo obtuvo 82.18 puntos. Esto significa que el modelo no solo genera sonido, sino que realmente «entiende» los significados y emociones detrás de las palabras. Para los asistentes de voz, esto es crítico: deben sonar como un interlocutor real, no como un robot que repite texto.

Qué significa

StepAudio 2.5 Realtime es un paso hacia sistemas de voz más naturales que compiten con OpenAI Voice y ElevenLabs. Para los desarrolladores, significa la aparición de una herramienta poderosa para crear aplicaciones con interfaz de voz y emotividad real.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita