Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2026-06-11. Tempo de leitura: 3 min.

Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

2026-06-11· 3 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

Agentes de voz têm desempenho ruim com clientes bilíngues. Isso foi demonstrado por uma pesquisa da equipe ServiceNow-AI, que testou sete sistemas populares de reconhecimento de fala em exemplos de code-switching — quando pessoas transitam suavemente de um idioma para outro em um único enunciado, entrelaçando palavras e frases.

O problema continua agudo

Mais da metade da população mundial fala dois ou mais idiomas. Para eles, é natural misturar idiomas na fala — especialmente ao discutir termos especializados ou em ambientes informais. Porém, assistentes de voz e agentes são treinados principalmente com dados monolíngues e frequentemente não entendem quando um cliente muda entre idiomas. Isso se torna um problema crítico para empresas que atendem mercados multilíngues por meio de interfaces de voz. Serviços de suporte, reservas, consultorias — tudo funciona pior se o cliente está acostumado a falar dois idiomas simultaneamente. A ServiceNow-AI resolveu medir a escala do problema e descobrir quais sistemas funcionam melhor.

Como e o que foi testado

Pesquisadores criaram um conjunto de dados sintético com 918 enunciados em quatro pares de idiomas: espanhol-inglês, francês-inglês (dialeto canadense), alemão-inglês. Os exemplos foram extraídos de cenários reais de operações de RH e suporte técnico — diálogos que realmente ocorrem em corporações multilíngues. Cada um dos sete sistemas de reconhecimento automático de fala (ASR) foi avaliado em três métricas:

WER — precisão padrão de transcrição (Word Error Rate)
SWER — erros que alteram o significado de um enunciado (Semantic WER)
AER — erros que prejudicam a compreensão do significado pelo sistema (Answer Error Rate)

Este conjunto de métricas ajuda a entender não apenas se o sistema comete erros, mas o quão críticos são esses erros.

Resultados: há líderes

Em termos de WER, dois líderes se destacaram: ElevenLabs Scribe V2 e AssemblyAI Universal-3 Pro. Google Gemini Flash 3 ficou em terceiro lugar, demonstrando um resultado sólido. Enquanto isso, OpenAI Whisper apresentou resultados fracos — o sistema por padrão não transcreve fala bilíngue, mas a traduz, o que não corresponde à tarefa. Quando é necessária a transcrição de fala com code-switching, o Whisper se torna pouco útil. Curiosamente, os melhores modelos mostram degradação mínima de precisão comparado aos níveis de baseline monolíngues. Isso significa que code-switching para eles não é uma catástrofe, mas simplesmente uma tarefa um pouco mais complexa.

Padrão estranho de erros

A análise de erros revelou algo inesperado: palavras no idioma inglês incorporado cometeram mais erros do que no idioma base (espanhol, francês ou alemão). Isso é paradoxal porque o inglês normalmente é mais fácil para esses modelos reconhecerem em um contexto monolíngue. Pesquisadores sugerem duas razões. Primeira, isso poderia ser um problema com vocabulário técnico e especializado, que é mais comum em inglês. Segunda, modelos experimentam dificuldade em se adaptar quando trocam de idioma no meio da frase. O "cérebro" do modelo, por assim dizer, fica "distraído" pelo novo idioma e perde detalhes.

O que isso significa

Sistemas de voz da nova geração estão melhorando, mas bilinguismo ainda é um caso complexo. Para os negócios, isso significa duas coisas. Primeiro, se você usa agentes de voz para suportar clientes multilíngues, a escolha do sistema ASR é crítica — a diferença entre ElevenLabs e Whisper pode estar na casa de dezenas de por cento. Segunda, essa é uma área de desenvolvimento ativo, e nas próximas versões, os resultados provavelmente melhorarão.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis