Un agent vocal AI mentait aux clients et confondait les appelants — le développeur a découvert que la cause n’était pas dans le prompt

En trois mois de production, l’agent vocal AI avait déjà menti à un client au sujet d’un administrateur inexistant, passé un mois à faire passer une synthèse…

Rédaction de Hamidun News

Veille IA · Habr AI

30 juin 2026· 3 min

Traité par IA depuis Habr AI ; édité par Hamidun News

Un agent vocal AI mentait aux clients et confondait les appelants — le développeur a découvert que la cause n’était pas dans le prompt — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

Un développeur d'un agent IA vocal pour les entreprises a passé trois mois en conditions de production — et a documenté tous les pièges : l'agent mentait, confondait les clients et le clonage vocal ne fonctionnait pas comme prévu.

Trois Défaillances Principales de l'Agent

Au cours des premiers mois en production, l'agent vocal a réussi à se distinguer de plusieurs façons.

Premier incident : l'agent a dit à un client que « l'administrateur Alexey » le rappellerait dans une heure. Aucun Alexey n'existait — l'agent a généré le nom à partir du contexte des appels précédents, en mélangeant des fragments de conversations. Le client a attendu et a déposé une plainte.

Le deuxième bug est plus grave : l'agent a commencé à traiter tous les appels entrants comme s'ils provenaient de la même personne. La session n'était pas réinitialisée entre les appels — la mémoire du client précédent s'échappait vers la conversation suivante. Techniquement, c'est un problème classique de contexte partagé sans isolation explicite.

L'agent appelait le nouveau client par le nom de l'appelant précédent
Se souvenait des détails de la commande d'un autre client et suggérait « continuer le paiement »
Confirmait des accords inexistants des sessions précédentes
S'excusait pour des « retards » qui ne s'étaient jamais produits — confondant l'appel actuel avec le précédent

Troisième cas — le plus long à détecter. Pendant un mois entier, l'agent produisait une synthèse TTS standard tout en disant aux clients que c'était une « voix clonée ». Le clonage vocal n'avait pas été connecté en raison d'une erreur de configuration, mais il n'a jeté aucune exception nulle part — il s'est simplement dégradé silencieusement en synthèse standard.

Pourquoi le Prompt ne le Répare pas

La première réaction intuitive — ajouter au prompt « ne fabrique pas de noms », « ne te souviens pas des appelants précédents », « vérifie toujours s'il y a un profil vocal ». L'auteur a essayé — et explique pourquoi cela ne fonctionne pas systématiquement.

Un modèle de langage ne distingue pas entre une interdiction dans le prompt et les données du contexte de la session. Si l'historique d'un appel précédent atterrit physiquement dans la fenêtre de contexte — le modèle l'utilise. Vous ne pouvez pas interdire par instruction ce qui est déjà en mémoire.

« Un prompt est une recommandation, pas une barrière architecturale.

La barrière doit être dans le code. »

La solution est d'isoler l'état au niveau de l'infrastructure : réinitialisation brutale du contexte entre les appels, vérification de la disponibilité du profil vocal avant le début de l'appel (pas pendant), validation explicite de chaque fait avant la vocalisation.

Stack Russe et Ses Particularités

L'auteur travaille entièrement avec des outils nationaux : un LLM russe, un fournisseur TTS russe, la téléphonie via un opérateur national. Cela impose des contraintes spécifiques.

La documentation de certains outils est incomplète ou en retard par rapport à l'API. C'est exactement pour cette raison que l'erreur de clonage vocal est restée invisible : quand le fournisseur n'a pas de profil vocal, il ne retourne pas d'erreur — il retourne simplement silencieusement la synthèse standard avec un code 200.

La substitution ne pouvait être détectée qu'en analysant l'audio de sortie ou en vérifiant explicitement les métadonnées de réponse.

Leçons pratiques de trois mois d'expérience :

Vérifiez tous les ressources (voix, profil, session) avant de démarrer une opération — pas pendant
Enregistrez non seulement les erreurs mais aussi les réponses « réussies » : la dégradation silencieuse est plus dangereuse qu'un crash explicite
Isolez l'état de l'agent entre les sessions au niveau du code, pas au niveau du prompt
Testez la sortie audio, pas seulement les journaux texte — la synthèse et le clonage sonnent différemment

Ce Que Cela Signifie

Les agents IA vocaux en production se cassent différemment que les chatbots : les erreurs se font entendre, le client les entend en temps réel et ne peut pas les relire ou les ignorer. Cela rend la rigueur architecturale critique.

La plupart du « comportement étrange » d'un agent vocal — pas des hallucinations du modèle, mais des trous architecturaux dans le code autour de lui. C'est réparable. Mais pas avec un prompt.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Réserver une consultation gratuite →