Un agent vocal AI mentait aux clients et confondait les appelants — le développeur a découvert que la cause n’était pas dans le prompt
En trois mois de production, l’agent vocal AI avait déjà menti à un client au sujet d’un administrateur inexistant, passé un mois à faire passer une synthèse…
Traité par IA depuis Habr AI ; édité par Hamidun News
Un développeur d'un agent IA vocal pour les entreprises a passé trois mois en conditions de production — et a documenté tous les pièges : l'agent mentait, confondait les clients et le clonage vocal ne fonctionnait pas comme prévu.
Trois Défaillances Principales de l'Agent
Au cours des premiers mois en production, l'agent vocal a réussi à se distinguer de plusieurs façons.
Premier incident : l'agent a dit à un client que « l'administrateur Alexey » le rappellerait dans une heure. Aucun Alexey n'existait — l'agent a généré le nom à partir du contexte des appels précédents, en mélangeant des fragments de conversations. Le client a attendu et a déposé une plainte.
Le deuxième bug est plus grave : l'agent a commencé à traiter tous les appels entrants comme s'ils provenaient de la même personne. La session n'était pas réinitialisée entre les appels — la mémoire du client précédent s'échappait vers la conversation suivante. Techniquement, c'est un problème classique de contexte partagé sans isolation explicite.
- L'agent appelait le nouveau client par le nom de l'appelant précédent
- Se souvenait des détails de la commande d'un autre client et suggérait « continuer le paiement »
- Confirmait des accords inexistants des sessions précédentes
- S'excusait pour des « retards » qui ne s'étaient jamais produits — confondant l'appel actuel avec le précédent
Troisième cas — le plus long à détecter. Pendant un mois entier, l'agent produisait une synthèse TTS standard tout en disant aux clients que c'était une « voix clonée ». Le clonage vocal n'avait pas été connecté en raison d'une erreur de configuration, mais il n'a jeté aucune exception nulle part — il s'est simplement dégradé silencieusement en synthèse standard.
Pourquoi le Prompt ne le Répare pas
La première réaction intuitive — ajouter au prompt « ne fabrique pas de noms », « ne te souviens pas des appelants précédents », « vérifie toujours s'il y a un profil vocal ». L'auteur a essayé — et explique pourquoi cela ne fonctionne pas systématiquement.
Un modèle de langage ne distingue pas entre une interdiction dans le prompt et les données du contexte de la session. Si l'historique d'un appel précédent atterrit physiquement dans la fenêtre de contexte — le modèle l'utilise. Vous ne pouvez pas interdire par instruction ce qui est déjà en mémoire.
« Un prompt est une recommandation, pas une barrière architecturale.
La barrière doit être dans le code. »
La solution est d'isoler l'état au niveau de l'infrastructure : réinitialisation brutale du contexte entre les appels, vérification de la disponibilité du profil vocal avant le début de l'appel (pas pendant), validation explicite de chaque fait avant la vocalisation.
Stack Russe et Ses Particularités
L'auteur travaille entièrement avec des outils nationaux : un LLM russe, un fournisseur TTS russe, la téléphonie via un opérateur national. Cela impose des contraintes spécifiques.
La documentation de certains outils est incomplète ou en retard par rapport à l'API. C'est exactement pour cette raison que l'erreur de clonage vocal est restée invisible : quand le fournisseur n'a pas de profil vocal, il ne retourne pas d'erreur — il retourne simplement silencieusement la synthèse standard avec un code 200.
La substitution ne pouvait être détectée qu'en analysant l'audio de sortie ou en vérifiant explicitement les métadonnées de réponse.
Leçons pratiques de trois mois d'expérience :
- Vérifiez tous les ressources (voix, profil, session) avant de démarrer une opération — pas pendant
- Enregistrez non seulement les erreurs mais aussi les réponses « réussies » : la dégradation silencieuse est plus dangereuse qu'un crash explicite
- Isolez l'état de l'agent entre les sessions au niveau du code, pas au niveau du prompt
- Testez la sortie audio, pas seulement les journaux texte — la synthèse et le clonage sonnent différemment
Ce Que Cela Signifie
Les agents IA vocaux en production se cassent différemment que les chatbots : les erreurs se font entendre, le client les entend en temps réel et ne peut pas les relire ou les ignorer. Cela rend la rigueur architecturale critique.
La plupart du « comportement étrange » d'un agent vocal — pas des hallucinations du modèle, mais des trous architecturaux dans le code autour de lui. C'est réparable. Mais pas avec un prompt.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.