Un agente vocal de AI mentía a los clientes y confundía a quienes llamaban — el desarrollador descubrió que la causa no estaba en el prompt
Tres meses en producción bastaron para que el agente vocal de AI le mintiera a un cliente sobre un administrador inexistente, pasara un mes haciendo pasar…
Procesado por IA desde Habr AI; editado por Hamidun News
Un desarrollador de un agente IA de voz para empresas pasó tres meses en condiciones de producción — y documentó todos los obstáculos: el agente mentía, confundía a los clientes y la clonación de voz no funcionaba como se pretendía.
Tres Fallas Principales del Agente
En los primeros meses en producción, el agente de voz logró destacarse de varias formas.
Primer incidente: el agente le dijo a un cliente que "el administrador Alexey" devolvería la llamada dentro de una hora. No existía ningún Alexey — el agente generó el nombre a partir del contexto de llamadas anteriores, mezclando fragmentos de conversaciones. El cliente esperó y presentó una queja.
El segundo bug es más grave: el agente comenzó a tratar todas las llamadas entrantes como si fueran de la misma persona. La sesión no se reiniciaba entre llamadas — la memoria del cliente anterior se filtraba en la siguiente conversación. Técnicamente, este es un problema clásico de contexto compartido sin aislamiento explícito.
- El agente llamaba al nuevo cliente por el nombre del llamador anterior
- Recordaba detalles del pedido de otro cliente y sugería "continuar el pago"
- Confirmaba acuerdos inexistentes de sesiones anteriores
- Se disculpaba por "retrasos" que nunca ocurrieron — confundiendo la llamada actual con la anterior
Tercer caso — el más largo en detectarse. Durante un mes completo, el agente proporcionaba síntesis TTS estándar mientras les decía a los clientes que era una "voz clonada". La clonación de voz no se había conectado debido a un error de configuración, pero no lanzaba una excepción en ningún lugar — simplemente se degradaba silenciosamente a síntesis estándar.
Por Qué el Prompt No Lo Soluciona
La primera reacción intuitiva — agregar al prompt "no inventes nombres", "no recuerdes a llamadores anteriores", "siempre aclara si hay un perfil de voz". El autor lo intentó — y explica por qué esto no funciona sistemáticamente.
Un modelo de lenguaje no distingue entre una prohibición en el prompt y datos del contexto de la sesión. Si el historial de una llamada anterior cae físicamente en la ventana de contexto — el modelo lo utiliza. No se puede instruir para evitar lo que ya está en la memoria.
"Un prompt es una recomendación, no una barrera arquitectónica.
La barrera debe estar en el código."
La solución es aislar el estado a nivel de infraestructura: reinicio forzado del contexto entre llamadas, verificación de disponibilidad del perfil de voz antes del inicio de la llamada (no durante), validación explícita de cada hecho antes de la vocalización.
Stack Ruso y Sus Particularidades
El autor trabaja completamente con herramientas domésticas: un LLM ruso, un proveedor TTS ruso, telefonía a través de un operador doméstico. Esto impone restricciones específicas.
La documentación de algunas herramientas es incompleta o rezagada respecto a la API. Exactamente por eso el error de clonación de voz permaneció invisible: cuando el proveedor no tiene un perfil de voz, no devuelve un error — simplemente devuelve síntesis estándar con código 200.
La sustitución solo podría detectarse analizando el audio de salida o verificando explícitamente los metadatos de la respuesta.
Lecciones prácticas de tres meses de experiencia:
- Verifica todos los recursos (voz, perfil, sesión) antes de iniciar una operación — no durante
- Registra no solo errores sino respuestas "exitosas": la degradación silenciosa es más peligrosa que un fallo explícito
- Aísla el estado del agente entre sesiones a nivel de código, no a nivel de prompt
- Prueba la salida de audio, no solo registros de texto — la síntesis y la clonación suenan diferente
Qué Significa Esto
Los agentes IA de voz en producción se rompen diferentemente que los chatbots: los errores se escuchan en voz alta, el cliente los escucha en tiempo real y no puede releerlos ni ignorarlos. Esto hace que el cuidado arquitectónico sea crítico.
La mayoría del "comportamiento extraño" de un agente de voz — no alucinaciones del modelo, sino agujeros arquitectónicos en el código a su alrededor. Se puede solucionar. Pero no con un prompt.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.