Loka criou um agente de voz no Amazon Nova 2 Sonic com latência inferior a um segundo
A Loka publicou a arquitetura de um agente de voz baseado no Amazon Nova 2 Sonic — modelo de fala da AWS que contorna a cadeia clássica ASR→LLM→TTS e…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A Loka publicou um detalhamento arquitetônico da forma como criou um agente de voz baseado no Amazon Nova 2 Sonic — modelo de fala de próxima geração da AWS. O desafio era direto: construir um bot que os clientes não desligarão após alguns segundos de espera.
O Problema a Ser Resolvido
Voz robótica em bots telefônicos não é apenas uma irritação estética. Para negócios, significa perdas diretas: o cliente desliga, liga para falar com um operador humano ou muda para um concorrente. A reputação da marca sofre, custos de suporte aumentam.
Sistemas de voz clássicos funcionam através de uma longa cadeia: reconhecimento de fala (ASR) → conversão de texto → modelo de linguagem → geração de resposta → síntese de fala (TTS). A latência se acumula em cada etapa. Como resultado, a pausa entre a pergunta do cliente e a resposta do bot é de 2 a 5 segundos.
Nesse tempo, uma pessoa decide que o sistema não está funcionando e desliga ou exige um operador humano. A Loka se propôs a quebrar essa cadeia e criar um agente que responda dentro da pausa natural da conversa, como um interlocutor humano. A solução foi o Amazon Nova 2 Sonic.
O Que Nova 2 Sonic Faz Diferente
Nova 2 Sonic é um modelo speech-to-speech multimodal da AWS que funciona diretamente com áudio, contornando as etapas separadas de transcrição ASR e síntese TTS. Ele recebe um fluxo de áudio como entrada e gera um fluxo de áudio como saída, sem conversão intermediária para texto. Isso muda fundamentalmente o perfil de latência:
- Respostas começam dentro de 300–500 ms após a pausa do usuário
- O modelo compreende interrupções naturais na fala e responde corretamente a elas
- O sistema ouve entonação e contexto emocional — e adapta o tom da resposta
- A sensação de "o sistema está processando" desaparece completamente do diálogo
- Integração com lógica de negócios por function calling não interrompe o fluxo da conversa
Nova 2 Sonic está disponível através do Amazon Bedrock, permitindo que empresas na AWS o integrem sem trocar de provedor ou reconstruir completamente sua infraestrutura.
Arquitetura em Produção
A Loka implementou transmissão de áudio em tempo real com buffer mínimo. O sistema não espera pela declaração completa do usuário — ele começa o processamento imediatamente, permitindo que Nova 2 Sonic responda precisamente no momento da pausa natural, não após silêncio prolongado.
"Voz robótica é o principal motivo pelo qual os clientes desligam.
Não é um problema técnico — é um problema de confiança", nota a equipe Loka.
Para acessar dados comerciais em tempo real — status de pedido, histórico do cliente, disponibilidade de estoque — o agente usa function calling em tempo real. Para o cliente, isso parece uma resposta instantânea, não uma pausa perceptível esperando resultados. Em produção, o sistema demonstra resiliência a interrupções, mudanças de assunto e pausas não padronizadas — cenários onde sistemas ASR clássicos frequentemente falham.
O Que Isso Significa
Modelos speech-to-speech removem a principal barreira para adoção em massa de bots de voz — a latência perceptível que destrói a ilusão de conversa ao vivo. Se a latência é imperceptível e a voz soa natural, a fronteira entre agente e operador se dissolve. Para negócios, este é um caminho direto para automação de call center sem prejudicar NPS. Após Nova 2 Sonic, modelos similares de outros provedores entrarão no mercado — a competição no segmento voice AI está apenas começando.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.