StepFun lança modelo de voz StepAudio 2.5 Realtime com suporte a roleplay
StepFun lançou o modelo de voz StepAudio 2.5 Realtime com personas completamente personalizáveis. O modelo compreende paralinguística (entonação, emoções)…
Processado por IA de MarkTechPost; editado por Hamidun News
StepFun lançou o modelo de voz de nova geração StepAudio 2.5 Realtime. O modelo funciona end-to-end, reproduz fala em tempo real e pode adaptar a voz para qualquer cenário através de personas completamente personalizáveis.
Como o modelo funciona
O StepAudio 2.5 Realtime é um sistema integrado para trabalhar com voz, combinando reconhecimento e síntese de fala. O modelo se conecta via API WebSocket e suporta tanto chinês quanto inglês. O processamento em tempo real significa que a resposta chega com latência mínima, o que é crítico para aplicativos interativos e assistentes de voz. O principal destaque do StepAudio são personas completamente personalizáveis sem retreinamento. Não é simplesmente uma mudança de voz, mas uma adaptação completa ao contexto: o modelo altera o tom, estilo de fala, até o sotaque dependendo de quem ou o que ele deve dublar. Isso é especialmente importante para dublar personagens e criar assistentes personalizados.
Paralinguística e naturalidade
O modelo foi treinado com reinforcement learning especial (RLHF) para compreender a paralinguística — tudo o que vai além da fala comum: entonação, ritmo, carga emocional, pausa no lugar certo. Os sistemas de voz padrão frequentemente soam monótonos e artificiais. O StepAudio 2.5 Realtime resolve esse problema, tornando a fala mais viva e expressiva. Os destaques do modelo incluem:
- Personalização completa de personas sem retreinamento
- Compreensão profunda da paralinguística (entonação, tempo, emoções)
- Síntese em tempo real via API WebSocket
- Suporte para chinês e inglês
- RLHF especial para roleplay e dubagem
Resultados nos benchmarks
Em abril de 2026, o StepAudio 2.5 Realtime passou por testes independentes em cinco parâmetros e ficou em primeiro lugar em todos. O resultado mais impressionante é 80,41 pontos na avaliação humana, o que significa que as pessoas consideram este modelo muito próximo da fala natural. Na compreensão da paralinguística, o modelo obteve 82,18 pontos. Isso significa que o modelo não apenas gera som, mas realmente 'compreende' os significados e emoções por trás das palavras. Para assistentes de voz, isso é crítico — eles devem soar como um interlocutor real, não como um robô repetindo texto.
O que isso significa
O StepAudio 2.5 Realtime é um passo em direção a sistemas de voz mais naturais que competem com OpenAI Voice e ElevenLabs. Para desenvolvedores, isso significa o surgimento de uma ferramenta poderosa para criar aplicativos com interface de voz e emotividade real.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.