Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI

Q: Quelle est la source ?

Publication originale sur Hugging Face Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2026-06-11. Temps de lecture : 3 min.

Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко

Rédaction de Hamidun News

Veille IA · Hugging Face Blog

2026-06-11· 3 min

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News

Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI — Source : Hugging Face Blog. Collage: Hamidun News.

◐ Écouter l'article

Les agents vocaux fonctionnent mal avec les clients bilingues. Cela a été démontré par une recherche de l'équipe ServiceNow-AI, qui a testé sept systèmes populaires de reconnaissance vocale sur des exemples de code-switching — lorsque les gens passent en douceur d'une langue à une autre dans un seul énoncé, entrelaçant les mots et les phrases.

Le problème reste aigu

Plus de la moitié de la population mondiale parle deux langues ou plus. Pour eux, il est naturel de mélanger les langues dans le discours — particulièrement lorsqu'on discute de termes spécialisés ou dans des environnements informels. Cependant, les assistants vocaux et les agents sont entraînés principalement sur des données monolingues et ne comprennent souvent pas lorsqu'un client bascule entre les langues. Cela devient un problème critique pour les entreprises servant des marchés multilingues par le biais d'interfaces vocales. Les services d'assistance, les réservations, les consultations — tout fonctionne moins bien si le client a l'habitude de parler deux langues simultanément. ServiceNow-AI a décidé de mesurer l'ampleur du problème et de déterminer quels systèmes fonctionnent mieux.

Comment et quoi a été testé

Les chercheurs ont créé un ensemble de données synthétique de 918 énoncés sur quatre paires linguistiques : espagnol-anglais, français-anglais (dialecte canadien), allemand-anglais. Les exemples ont été tirés de scénarios réels d'opérations RH et de support technique — des dialogues qui se produisent réellement dans les entreprises multilingues. Chacun des sept systèmes de reconnaissance automatique de la parole (ASR) a été évalué selon trois métriques :

WER — précision standard de transcription (Word Error Rate)
SWER — erreurs qui changent le sens d'un énoncé (Semantic WER)
AER — erreurs qui perturbent la compréhension du sens par le système (Answer Error Rate)

Cet ensemble de métriques aide à comprendre non seulement si le système commet des erreurs, mais aussi à quel point ces erreurs sont critiques.

Résultats : il y a des leaders

En termes de WER, deux leaders se sont démarqués : ElevenLabs Scribe V2 et AssemblyAI Universal-3 Pro. Google Gemini Flash 3 a pris la troisième place, démontrant un résultat solide. Pendant ce temps, OpenAI Whisper a montré des résultats faibles — le système par défaut ne transcrit pas la parole bilingue, mais la traduit, ce qui ne correspond pas à la tâche. Lorsque la transcription de la parole avec code-switching est nécessaire, Whisper devient peu utile. Fait intéressant, les meilleurs modèles montrent une dégradation minimale de la précision par rapport aux niveaux de base monolingues. Cela signifie que le code-switching n'est pas une catastrophe pour eux, mais simplement une tâche un peu plus complexe.

Modèle étrange d'erreurs

L'analyse des erreurs a révélé quelque chose d'inattendu : les mots de la langue anglaise intégrée ont commis plus d'erreurs que dans la langue de base (espagnol, français ou allemand). C'est paradoxal car l'anglais est normalement plus facile à reconnaître pour ces modèles dans un contexte monolingue. Les chercheurs suggèrent deux raisons. D'abord, cela pourrait être un problème lié au vocabulaire technique et spécialisé, qui est plus courant en anglais. Deuxièmement, les modèles éprouvent des difficultés à s'adapter lorsqu'ils changent de langue au milieu d'une phrase. Le « cerveau » du modèle, pour ainsi dire, est « distrait » par la nouvelle langue et perd les détails.

Ce que cela signifie

Les systèmes vocaux de la nouvelle génération s'améliorent, mais le bilinguisme reste un cas complexe. Pour les affaires, cela signifie deux choses. Premièrement, si vous utilisez des agents vocaux pour supporter des clients multilingues, le choix du système ASR est critique — la différence entre ElevenLabs et Whisper pourrait être de plusieurs dizaines de pour cent. Deuxièmement, c'est un domaine en développement actif, et dans les versions futures, les résultats s'amélioreront probablement.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite