Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI
Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко
AI-обработка оригинала Hugging Face Blog; редакция Hamidun News
Голосовые агенты слабо справляются с двуязычными клиентами. Это показало исследование команды ServiceNow-AI, которая протестировала семь популярных систем распознавания речи на примерах code-switching — когда люди плавно переходят с одного языка на другой в одном высказывании, переплетая слова и фразы.
Проблема остаётся острой Более половины населения Земли говорит на двух и больше языках.
Для них естественно смешивать языки в речи — особенно когда говорят о специальных терминах или в неформальной обстановке. Однако голосовые ассистенты и агенты обучены в основном на монолингвальных данных и часто не понимают, когда клиент переключается между языками. Это становится критичной проблемой для компаний, которые обслуживают многоязычные рынки через голосовые интерфейсы. Служба поддержки, бронирование, консультации — всё это работает хуже, если клиент привык говорить на двух языках одновременно. ServiceNow-AI решили измерить масштаб проблемы и найти, какие системы справляются лучше.
Как и что тестировали
Исследователи создали синтетический набор данных из 918 высказываний на четырёх языковых парах: испанско-английский, франко-английский (канадский диалект), германско-английский. Примеры взяли из реальных сценариев работы HR-служб и IT-поддержки — диалоги, которые действительно происходят в многоязычных корпорациях. Каждую из семи систем автоматического распознавания речи (ASR) оценивали по трём метрикам: WER — стандартная точность транскрипции (Word Error Rate) SWER — ошибки, которые меняют смысл высказывания (Semantic WER) * AER — ошибки, ломающие понимание системой смысла (Answer Error Rate) Этот набор метрик помогает понять не просто, ошибается ли система, но насколько эти ошибки критичны.
Результаты: есть лидеры
По результатам WER два лидера вырвались в отрыв: ElevenLabs Scribe V2 и AssemblyAI Universal-3 Pro. Google Gemini Flash 3 занял третье место, демонстрируя солидный результат. А вот OpenAI Whisper показал слабый результат — система по умолчанию не транскрибирует двуязычную речь, а переводит её, что совсем не совпадает с задачей. Когда нужна транскрипция переключающейся между языками речи, Whisper становится малополезен. Интересно, что лучшие модели показывают минимальную деградацию точности по сравнению с монолингвальными базовыми уровнями. Это значит, что код-switching для них — не катастрофа, а просто немного более сложная задача.
Странный паттерн ошибок
Анализ ошибок открыл неожиданное: слова на встроенном английском языке ошибались чаще, чем на языке-основе (испанском, французском или немецком). Это парадоксально, потому что английский для этих моделей обычно проще распознавать в монолингвальном контексте. Исследователи предполагают две причины. Первая — это может быть проблема с техническим и специальным словарём, который чаще встречается на английском. Вторая — модели испытывают сложность с адаптацией при переключении языка посредине фразы. Мозг модели как бы «отвлекается» на новый язык и упускает детали.
Что это значит
Голасовые системы нового поколения становятся лучше, но двуязычие — всё ещё сложный случай. Для бизнеса это значит две вещи. Во-первых, если вы используете голосовых агентов для поддержки многоязычных клиентов, выбор системы ASR критичен — разница между ElevenLabs и Whisper может быть в десятки процентов. Во-вторых, это область активного развития, и в следующих версиях результаты, скорее всего, улучшатся.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.