Amazon Nova Sonic: três arquiteturas para agentes de voz
A AWS publicou um guia para construir agentes de voz escaláveis com Amazon Nova Sonic. O artigo aborda três padrões arquiteturais para processamento de áudio, f

A AWS compartilhou recomendações para construir agentes de voz escaláveis usando Amazon Nova Sonic. Este é um modelo moderno para processar fala natural em cenários em tempo real — desde atendimento ao cliente e suporte técnico até agendamento de compromissos e assistentes pessoais. O blog da AWS analisa três padrões arquiteturais populares, maneiras de minimizar latência e práticas para integrar sistemas multi-agente.
Amazon Nova Sonic: um modelo para diálogo
Amazon Nova Sonic é um modelo compacto mas poderoso para interação por voz, disponível através da API Amazon Bedrock. Ao contrário dos grandes modelos de fundação, Sonic é otimizado especificamente para respostas de baixa latência e processamento de fluxo de áudio em tempo real. Pode funcionar tanto diretamente com áudio quanto com transcrição textual, dependendo da arquitetura.
A vantagem-chave é a integração com ferramentas e APIs externas. Um agente não pode apenas responder uma pergunta, mas também invocar uma função: verificar status do pedido, reservar uma mesa em um restaurante, obter previsão do tempo. Tudo isso acontece dentro de uma conversa, sem trocar entre aplicativos.
Três padrões arquiteturais
A AWS descreve três abordagens principais, cada uma com diferentes trade-offs entre simplicidade e funcionalidade.
Single-turn agentless — o padrão mais simples. Um usuário fala uma frase, o modelo responde. Nenhuma memória de estado, nenhuma gestão de sessão. Funciona bem para bots FAQ e sistemas de referência simples. Rápido e confiável, mas não adequado para processos complexos que exigem múltiplas etapas.
Multi-turn with state — o agente lembra o contexto da conversa e pode conduzir diálogos com múltiplas etapas. Por exemplo, reserva de hotel: "Quais datas?" → "Para quantas pessoas?" → "Tem preferências de localização?". Aqui você precisa gerenciar a sessão, salvar variáveis de diálogo, rastrear qual etapa foi concluída. Bedrock AgentCore ajuda com isso.
Multi-agent orchestration — vários agentes especializados trabalham juntos. Por exemplo, um agente lida com perguntas sobre tarifas, outro com suporte técnico, um terceiro com cobrança. O orquestrador principal decide a quem passar a solicitação. Strands BidiAgent fornece fluxo bidirecional limpo — não apenas síntese de voz em resposta, mas processamento de um fluxo ao vivo do usuário.
Minimizando latência: prática
O principal desafio para agentes de voz é o tempo de resposta. Os usuários notam até 200 ms de atraso entre o fim de sua pergunta e o início da resposta. O cérebro interpreta isso como não natural, e o agente começa a parecer lento ou travado. A AWS recomenda várias técnicas:
- Streaming API em vez de batch — não espere a resposta completa do modelo, envie os primeiros tokens de voz imediatamente
- Cache de chamadas de ferramentas — solicitações repetidas retornam o resultado em cache
- Session segmentation — o sistema determina automaticamente os limites de blocos de conversas lógicas
- Edge deployment — coloque o modelo mais próximo do usuário final
O que isso significa
Interfaces de voz estão se tornando o padrão para interação: de alto-falantes inteligentes a call centers corporativos. Anteriormente, as empresas tinham que montar esses sistemas a partir de peças separadas. Agora a AWS fornece uma solução pronta: modelo + ferramentas + orquestração. Se você está construindo um bot de atendimento ao cliente ou um assistente de IA — este é um guia prático de experiência de primeira mão.