Habr AI→ original

Agente vocal de AI mentia para clientes e confundia quem ligava — desenvolvedor descobriu que a causa não estava no prompt

Três meses em produção, e o agente vocal de AI já tinha mentido a um cliente sobre um administrador inexistente, passado um mês apresentando síntese de fala…

Processado por IA de Habr AI; editado por Hamidun News
Agente vocal de AI mentia para clientes e confundia quem ligava — desenvolvedor descobriu que a causa não estava no prompt
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um desenvolvedor de um agente IA de voz para empresas passou três meses em condições de produção — e documentou todos os obstáculos: o agente mentia, confundia clientes e a clonagem de voz não funcionava como planejado.

Três Principais Falhas do Agente

Nos primeiros meses em produção, o agente de voz conseguiu se destacar de algumas formas.

Primeiro incidente: o agente disse a um cliente que "o administrador Alexey" ligaria de volta dentro de uma hora. Nenhum Alexey existia — o agente gerou o nome a partir do contexto de chamadas anteriores, misturando fragmentos de diálogos. O cliente esperou e registrou uma reclamação.

Segundo bug é mais grave: o agente começou a tratar todas as chamadas como se fossem da mesma pessoa. A sessão não era resetada entre chamadas — a memória do cliente anterior vazava para a próxima conversa. Tecnicamente, este é um problema clássico de contexto compartilhado sem isolamento explícito.

  • O agente chamava o novo cliente pelo nome do chamador anterior
  • Lembrava detalhes do pedido de outro cliente e sugeria "continuar o checkout"
  • Confirmava acordos que nunca existiram a partir de sessões anteriores
  • Desculpava-se por "atrasos" que nunca ocorreram — confundindo a chamada atual com a anterior

Terceiro caso — o mais longo para ser detectado. Durante um mês inteiro, o agente produzia síntese TTS padrão enquanto dizia aos clientes que era uma "voz clonada". A clonagem de voz não tinha sido conectada devido a um erro de configuração, mas não lançava uma exceção em lugar algum — simplesmente degradava silenciosamente para síntese padrão.

Por Que o Prompt Não Funciona

A primeira reação intuitiva — adicionar ao prompt "não invente nomes", "não lembre de chamadores anteriores", "sempre esclareça se há um perfil de voz". O autor tentou — e explica por que isso não funciona sistematicamente.

Um modelo de linguagem não diferencia entre uma proibição no prompt e dados do contexto da sessão. Se o histórico de uma chamada anterior cai fisicamente na janela de contexto — o modelo o utiliza. Você não pode instruir a evitar o que já está na memória.

"Um prompt é uma recomendação, não uma barreira arquitetônica.

A barreira deve estar no código."

A solução é isolar o estado no nível de infraestrutura: reset duro do contexto entre chamadas, verificação da disponibilidade do perfil de voz antes do início da chamada (não durante), validação explícita de cada fato antes da vocalização.

Stack Russo e Suas Particularidades

O autor trabalha inteiramente com ferramentas domésticas: um LLM russo, um provedor TTS russo, telefonia através de um operador doméstico. Isso impõe restrições específicas.

A documentação de algumas ferramentas é incompleta ou fica atrás da API. Exatamente por isso o erro de clonagem de voz permaneceu invisível: quando o provedor não possui um perfil de voz, ele não retorna um erro — ele silenciosamente retorna síntese padrão com código 200.

A substituição poderia ser detectada apenas analisando o áudio de saída ou verificando explicitamente metadados da resposta.

Lições práticas de três meses de experiência:

  • Verifique todos os recursos (voz, perfil, sessão) antes de iniciar uma operação — não durante
  • Registre não apenas erros, mas respostas "bem-sucedidas": degradação silenciosa é mais perigosa que uma falha explícita
  • Isole o estado do agente entre sessões no nível de código, não no nível do prompt
  • Teste a saída de áudio, não apenas logs de texto — síntese e clonagem soam diferente

O Que Isto Significa

Agentes IA de voz em produção quebram de forma diferente que chatbots: erros soam alto, o cliente os ouve em tempo real e não pode reler ou ignorar. Isto torna o cuidado arquitetônico crítico.

A maioria do "comportamento estranho" de um agente de voz — não alucinações do modelo, mas buracos arquitetônicos no código ao seu redor. Pode ser corrigido. Mas não com um prompt.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…