Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-06-11. Время чтения: 3 мин.

Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-06-11· 3 мин

AI-обработка оригинала Hugging Face Blog; редакция Hamidun News

Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI — Источник: Hugging Face Blog. Коллаж: Hamidun News.

◐ Слушать статью

Голосовые агенты слабо справляются с двуязычными клиентами. Это показало исследование команды ServiceNow-AI, которая протестировала семь популярных систем распознавания речи на примерах code-switching — когда люди плавно переходят с одного языка на другой в одном высказывании, переплетая слова и фразы.

Проблема остаётся острой Более половины населения Земли говорит на двух и больше языках.

Для них естественно смешивать языки в речи — особенно когда говорят о специальных терминах или в неформальной обстановке. Однако голосовые ассистенты и агенты обучены в основном на монолингвальных данных и часто не понимают, когда клиент переключается между языками. Это становится критичной проблемой для компаний, которые обслуживают многоязычные рынки через голосовые интерфейсы. Служба поддержки, бронирование, консультации — всё это работает хуже, если клиент привык говорить на двух языках одновременно. ServiceNow-AI решили измерить масштаб проблемы и найти, какие системы справляются лучше.

Как и что тестировали

Исследователи создали синтетический набор данных из 918 высказываний на четырёх языковых парах: испанско-английский, франко-английский (канадский диалект), германско-английский. Примеры взяли из реальных сценариев работы HR-служб и IT-поддержки — диалоги, которые действительно происходят в многоязычных корпорациях. Каждую из семи систем автоматического распознавания речи (ASR) оценивали по трём метрикам: WER — стандартная точность транскрипции (Word Error Rate) SWER — ошибки, которые меняют смысл высказывания (Semantic WER) * AER — ошибки, ломающие понимание системой смысла (Answer Error Rate) Этот набор метрик помогает понять не просто, ошибается ли система, но насколько эти ошибки критичны.

Результаты: есть лидеры

По результатам WER два лидера вырвались в отрыв: ElevenLabs Scribe V2 и AssemblyAI Universal-3 Pro. Google Gemini Flash 3 занял третье место, демонстрируя солидный результат. А вот OpenAI Whisper показал слабый результат — система по умолчанию не транскрибирует двуязычную речь, а переводит её, что совсем не совпадает с задачей. Когда нужна транскрипция переключающейся между языками речи, Whisper становится малополезен. Интересно, что лучшие модели показывают минимальную деградацию точности по сравнению с монолингвальными базовыми уровнями. Это значит, что код-switching для них — не катастрофа, а просто немного более сложная задача.

Странный паттерн ошибок

Анализ ошибок открыл неожиданное: слова на встроенном английском языке ошибались чаще, чем на языке-основе (испанском, французском или немецком). Это парадоксально, потому что английский для этих моделей обычно проще распознавать в монолингвальном контексте. Исследователи предполагают две причины. Первая — это может быть проблема с техническим и специальным словарём, который чаще встречается на английском. Вторая — модели испытывают сложность с адаптацией при переключении языка посредине фразы. Мозг модели как бы «отвлекается» на новый язык и упускает детали.

Что это значит

Голасовые системы нового поколения становятся лучше, но двуязычие — всё ещё сложный случай. Для бизнеса это значит две вещи. Во-первых, если вы используете голосовых агентов для поддержки многоязычных клиентов, выбор системы ASR критичен — разница между ElevenLabs и Whisper может быть в десятки процентов. Во-вторых, это область активного развития, и в следующих версиях результаты, скорее всего, улучшатся.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация