AWS Machine Learning Blog→ original

Loka criou um agente de voz no Amazon Nova 2 Sonic com latência inferior a um segundo

A Loka publicou a arquitetura de um agente de voz baseado no Amazon Nova 2 Sonic — modelo de fala da AWS que contorna a cadeia clássica ASR→LLM→TTS e…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Loka criou um agente de voz no Amazon Nova 2 Sonic com latência inferior a um segundo
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Loka publicou um detalhamento arquitetônico da forma como criou um agente de voz baseado no Amazon Nova 2 Sonic — modelo de fala de próxima geração da AWS. O desafio era direto: construir um bot que os clientes não desligarão após alguns segundos de espera.

O Problema a Ser Resolvido

Voz robótica em bots telefônicos não é apenas uma irritação estética. Para negócios, significa perdas diretas: o cliente desliga, liga para falar com um operador humano ou muda para um concorrente. A reputação da marca sofre, custos de suporte aumentam.

Sistemas de voz clássicos funcionam através de uma longa cadeia: reconhecimento de fala (ASR) → conversão de texto → modelo de linguagem → geração de resposta → síntese de fala (TTS). A latência se acumula em cada etapa. Como resultado, a pausa entre a pergunta do cliente e a resposta do bot é de 2 a 5 segundos.

Nesse tempo, uma pessoa decide que o sistema não está funcionando e desliga ou exige um operador humano. A Loka se propôs a quebrar essa cadeia e criar um agente que responda dentro da pausa natural da conversa, como um interlocutor humano. A solução foi o Amazon Nova 2 Sonic.

O Que Nova 2 Sonic Faz Diferente

Nova 2 Sonic é um modelo speech-to-speech multimodal da AWS que funciona diretamente com áudio, contornando as etapas separadas de transcrição ASR e síntese TTS. Ele recebe um fluxo de áudio como entrada e gera um fluxo de áudio como saída, sem conversão intermediária para texto. Isso muda fundamentalmente o perfil de latência:

  • Respostas começam dentro de 300–500 ms após a pausa do usuário
  • O modelo compreende interrupções naturais na fala e responde corretamente a elas
  • O sistema ouve entonação e contexto emocional — e adapta o tom da resposta
  • A sensação de "o sistema está processando" desaparece completamente do diálogo
  • Integração com lógica de negócios por function calling não interrompe o fluxo da conversa

Nova 2 Sonic está disponível através do Amazon Bedrock, permitindo que empresas na AWS o integrem sem trocar de provedor ou reconstruir completamente sua infraestrutura.

Arquitetura em Produção

A Loka implementou transmissão de áudio em tempo real com buffer mínimo. O sistema não espera pela declaração completa do usuário — ele começa o processamento imediatamente, permitindo que Nova 2 Sonic responda precisamente no momento da pausa natural, não após silêncio prolongado.

"Voz robótica é o principal motivo pelo qual os clientes desligam.

Não é um problema técnico — é um problema de confiança", nota a equipe Loka.

Para acessar dados comerciais em tempo real — status de pedido, histórico do cliente, disponibilidade de estoque — o agente usa function calling em tempo real. Para o cliente, isso parece uma resposta instantânea, não uma pausa perceptível esperando resultados. Em produção, o sistema demonstra resiliência a interrupções, mudanças de assunto e pausas não padronizadas — cenários onde sistemas ASR clássicos frequentemente falham.

O Que Isso Significa

Modelos speech-to-speech removem a principal barreira para adoção em massa de bots de voz — a latência perceptível que destrói a ilusão de conversa ao vivo. Se a latência é imperceptível e a voz soa natural, a fronteira entre agente e operador se dissolve. Para negócios, este é um caminho direto para automação de call center sem prejudicar NPS. Após Nova 2 Sonic, modelos similares de outros provedores entrarão no mercado — a competição no segmento voice AI está apenas começando.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…