Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-06-11. Tiempo de lectura: 3 min.

Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

2026-06-11· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

Los agentes de voz tienen un desempeño deficiente con clientes bilingües. Esto fue demostrado por una investigación del equipo ServiceNow-AI, que probó siete sistemas populares de reconocimiento de voz en ejemplos de code-switching — cuando las personas transicionan suavemente de un idioma a otro en un único enunciado, entrelazando palabras y frases.

El problema sigue siendo agudo

Más de la mitad de la población mundial habla dos o más idiomas. Para ellos, es natural mezclar idiomas en el habla — especialmente al discutir términos especializados o en ambientes informales. Sin embargo, los asistentes de voz y los agentes se entrenan principalmente con datos monolingües y a menudo no entienden cuando un cliente cambia entre idiomas. Esto se convierte en un problema crítico para las empresas que atienden mercados multilingües a través de interfaces de voz. Servicios de atención al cliente, reservas, consultoría — todo funciona peor si el cliente está acostumbrado a hablar en dos idiomas simultáneamente. ServiceNow-AI decidió medir la escala del problema y determinar qué sistemas funcionan mejor.

Cómo y qué se probó

Los investigadores crearon un conjunto de datos sintético de 918 enunciados en cuatro pares de idiomas: español-inglés, francés-inglés (dialecto canadiense), alemán-inglés. Los ejemplos se extrajeron de escenarios del mundo real de operaciones de RRHH y soporte técnico — diálogos que realmente ocurren en corporaciones multilingües. Cada uno de los siete sistemas de reconocimiento automático de voz (ASR) fue evaluado en tres métricas:

WER — precisión estándar de transcripción (Word Error Rate)
SWER — errores que cambian el significado de un enunciado (Semantic WER)
AER — errores que afectan la comprensión del significado por parte del sistema (Answer Error Rate)

Este conjunto de métricas ayuda a entender no solo si el sistema comete errores, sino qué tan críticos son esos errores.

Resultados: hay líderes

En términos de WER, dos líderes se destacaron: ElevenLabs Scribe V2 y AssemblyAI Universal-3 Pro. Google Gemini Flash 3 ocupó el tercer lugar, demostrando un resultado sólido. Mientras tanto, OpenAI Whisper mostró resultados débiles — el sistema por defecto no transcribe el habla bilingüe, sino que la traduce, lo que no se alinea con la tarea. Cuando se necesita la transcripción del habla con code-switching, Whisper se vuelve poco útil. Curiosamente, los mejores modelos muestran una degradación mínima de precisión en comparación con los niveles de línea de base monolingüe. Esto significa que el code-switching para ellos no es una catástrofe, sino simplemente una tarea algo más compleja.

Patrón extraño de errores

El análisis de errores reveló algo inesperado: las palabras en el idioma inglés incrustado cometieron más errores que en el idioma base (español, francés o alemán). Esto es paradójico porque el inglés normalmente es más fácil para que estos modelos lo reconozcan en un contexto monolingüe. Los investigadores sugieren dos razones. Primera, esto podría ser un problema con vocabulario técnico y especializado, que es más común en inglés. Segunda, los modelos experimentan dificultad para adaptarse cuando cambian de idioma en medio de una frase. El "cerebro" del modelo, por así decirlo, se "distrae" con el nuevo idioma y pierde detalles.

Lo que esto significa

Los sistemas de voz de la nueva generación están mejorando, pero el bilingüismo sigue siendo un caso complejo. Para los negocios, esto significa dos cosas. Primero, si utiliza agentes de voz para admitir clientes multilingües, la elección del sistema ASR es crítica — la diferencia entre ElevenLabs y Whisper podría estar en decenas de por ciento. Segundo, esta es un área de desarrollo activo, y en versiones posteriores, los resultados probablemente mejorarán.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita