MarkTechPost→ original

StepFun lança modelo de voz StepAudio 2.5 Realtime com suporte a roleplay

StepFun lançou o modelo de voz StepAudio 2.5 Realtime com personas completamente personalizáveis. O modelo compreende paralinguística (entonação, emoções)…

Processado por IA de MarkTechPost; editado por Hamidun News
StepFun lança modelo de voz StepAudio 2.5 Realtime com suporte a roleplay
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

StepFun lançou o modelo de voz de nova geração StepAudio 2.5 Realtime. O modelo funciona end-to-end, reproduz fala em tempo real e pode adaptar a voz para qualquer cenário através de personas completamente personalizáveis.

Como o modelo funciona

O StepAudio 2.5 Realtime é um sistema integrado para trabalhar com voz, combinando reconhecimento e síntese de fala. O modelo se conecta via API WebSocket e suporta tanto chinês quanto inglês. O processamento em tempo real significa que a resposta chega com latência mínima, o que é crítico para aplicativos interativos e assistentes de voz. O principal destaque do StepAudio são personas completamente personalizáveis sem retreinamento. Não é simplesmente uma mudança de voz, mas uma adaptação completa ao contexto: o modelo altera o tom, estilo de fala, até o sotaque dependendo de quem ou o que ele deve dublar. Isso é especialmente importante para dublar personagens e criar assistentes personalizados.

Paralinguística e naturalidade

O modelo foi treinado com reinforcement learning especial (RLHF) para compreender a paralinguística — tudo o que vai além da fala comum: entonação, ritmo, carga emocional, pausa no lugar certo. Os sistemas de voz padrão frequentemente soam monótonos e artificiais. O StepAudio 2.5 Realtime resolve esse problema, tornando a fala mais viva e expressiva. Os destaques do modelo incluem:

  • Personalização completa de personas sem retreinamento
  • Compreensão profunda da paralinguística (entonação, tempo, emoções)
  • Síntese em tempo real via API WebSocket
  • Suporte para chinês e inglês
  • RLHF especial para roleplay e dubagem

Resultados nos benchmarks

Em abril de 2026, o StepAudio 2.5 Realtime passou por testes independentes em cinco parâmetros e ficou em primeiro lugar em todos. O resultado mais impressionante é 80,41 pontos na avaliação humana, o que significa que as pessoas consideram este modelo muito próximo da fala natural. Na compreensão da paralinguística, o modelo obteve 82,18 pontos. Isso significa que o modelo não apenas gera som, mas realmente 'compreende' os significados e emoções por trás das palavras. Para assistentes de voz, isso é crítico — eles devem soar como um interlocutor real, não como um robô repetindo texto.

O que isso significa

O StepAudio 2.5 Realtime é um passo em direção a sistemas de voz mais naturais que competem com OpenAI Voice e ElevenLabs. Para desenvolvedores, isso significa o surgimento de uma ferramenta poderosa para criar aplicativos com interface de voz e emotividade real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…