Agente vocal de AI mentia para clientes e confundia quem ligava — desenvolvedor descobriu que a causa não estava no prompt
Três meses em produção, e o agente vocal de AI já tinha mentido a um cliente sobre um administrador inexistente, passado um mês apresentando síntese de fala…
Processado por IA de Habr AI; editado por Hamidun News
Um desenvolvedor de um agente IA de voz para empresas passou três meses em condições de produção — e documentou todos os obstáculos: o agente mentia, confundia clientes e a clonagem de voz não funcionava como planejado.
Três Principais Falhas do Agente
Nos primeiros meses em produção, o agente de voz conseguiu se destacar de algumas formas.
Primeiro incidente: o agente disse a um cliente que "o administrador Alexey" ligaria de volta dentro de uma hora. Nenhum Alexey existia — o agente gerou o nome a partir do contexto de chamadas anteriores, misturando fragmentos de diálogos. O cliente esperou e registrou uma reclamação.
Segundo bug é mais grave: o agente começou a tratar todas as chamadas como se fossem da mesma pessoa. A sessão não era resetada entre chamadas — a memória do cliente anterior vazava para a próxima conversa. Tecnicamente, este é um problema clássico de contexto compartilhado sem isolamento explícito.
- O agente chamava o novo cliente pelo nome do chamador anterior
- Lembrava detalhes do pedido de outro cliente e sugeria "continuar o checkout"
- Confirmava acordos que nunca existiram a partir de sessões anteriores
- Desculpava-se por "atrasos" que nunca ocorreram — confundindo a chamada atual com a anterior
Terceiro caso — o mais longo para ser detectado. Durante um mês inteiro, o agente produzia síntese TTS padrão enquanto dizia aos clientes que era uma "voz clonada". A clonagem de voz não tinha sido conectada devido a um erro de configuração, mas não lançava uma exceção em lugar algum — simplesmente degradava silenciosamente para síntese padrão.
Por Que o Prompt Não Funciona
A primeira reação intuitiva — adicionar ao prompt "não invente nomes", "não lembre de chamadores anteriores", "sempre esclareça se há um perfil de voz". O autor tentou — e explica por que isso não funciona sistematicamente.
Um modelo de linguagem não diferencia entre uma proibição no prompt e dados do contexto da sessão. Se o histórico de uma chamada anterior cai fisicamente na janela de contexto — o modelo o utiliza. Você não pode instruir a evitar o que já está na memória.
"Um prompt é uma recomendação, não uma barreira arquitetônica.
A barreira deve estar no código."
A solução é isolar o estado no nível de infraestrutura: reset duro do contexto entre chamadas, verificação da disponibilidade do perfil de voz antes do início da chamada (não durante), validação explícita de cada fato antes da vocalização.
Stack Russo e Suas Particularidades
O autor trabalha inteiramente com ferramentas domésticas: um LLM russo, um provedor TTS russo, telefonia através de um operador doméstico. Isso impõe restrições específicas.
A documentação de algumas ferramentas é incompleta ou fica atrás da API. Exatamente por isso o erro de clonagem de voz permaneceu invisível: quando o provedor não possui um perfil de voz, ele não retorna um erro — ele silenciosamente retorna síntese padrão com código 200.
A substituição poderia ser detectada apenas analisando o áudio de saída ou verificando explicitamente metadados da resposta.
Lições práticas de três meses de experiência:
- Verifique todos os recursos (voz, perfil, sessão) antes de iniciar uma operação — não durante
- Registre não apenas erros, mas respostas "bem-sucedidas": degradação silenciosa é mais perigosa que uma falha explícita
- Isole o estado do agente entre sessões no nível de código, não no nível do prompt
- Teste a saída de áudio, não apenas logs de texto — síntese e clonagem soam diferente
O Que Isto Significa
Agentes IA de voz em produção quebram de forma diferente que chatbots: erros soam alto, o cliente os ouve em tempo real e não pode reler ou ignorar. Isto torna o cuidado arquitetônico crítico.
A maioria do "comportamento estranho" de um agente de voz — não alucinações do modelo, mas buracos arquitetônicos no código ao seu redor. Pode ser corrigido. Mas não com um prompt.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.