MIT propôs uma métrica que detecta erros confiantes e alucinações de LLM
MIT apresentou uma nova forma de verificar quando um modelo de linguagem soa confiante, mas mesmo assim erra. Em vez de apenas autoconsistência, os…
Processado por IA de MIT News; editado por Hamidun News
Pesquisadores do MIT propuseram uma nova forma de medir a incerteza em grandes modelos de linguagem e detectar com mais precisão situações quando uma IA responde com confiança mas erra. A ideia é simples: os usuários precisam ver não apenas uma resposta polida, mas também um sinal de quanto essa confiança pode realmente ser confiável, especialmente quando se trata de tarefas onde erros têm consequências reais.
Por Que as Métricas Antigas Falham
Hoje, uma das formas populares de verificar a confiabilidade de um LLM é fazer a mesma pergunta várias vezes e ver se o modelo responde consistentemente. Se as respostas coincidem, isso é frequentemente interpretado como alta confiança. O problema é que essa verificação mede apenas a consistência interna do modelo.
Ela mostra quão confiante o modelo é em si mesmo, mas não diz se ele está realmente certo. Para uma interface, esse é um sinal conveniente, mas nem sempre útil. É aqui que surge um cenário perigoso: o modelo pode repetidamente produzir a mesma resposta incorreta mantendo a aparência de confiabilidade.
Para os usuários, isso é especialmente arriscado em tarefas onde erros custam caro—por exemplo, em medicina, finanças ou análise aplicada. Em tais casos, uma alucinação confiante parece mais convincente do que uma resposta cautelosa, mas honesta, com ressalvas. Por isso, os pesquisadores decidiram medir não apenas a autoconfiança do modelo, mas também a probabilidade de ele ser a escolha certa para a pergunta dada.
Como o Novo Método Funciona
A equipe do MIT aumentou a métrica familiar de autoconsistência com outro sinal—discordância entre modelos. Em vez de fazer a mesma pergunta múltiplas vezes para um LLM, os pesquisadores comparam a resposta do modelo alvo com respostas de um pequeno grupo de modelos similares de escala comparável e classe arquitetônica. Se tais modelos começam a divergir significativamente em significado, isso se torna um indicador importante de que a resposta original pode ser pouco confiável, mesmo que o modelo alvo soe muito confiante.
Um ponto importante é que a comparação mede não apenas a correspondência de palavras literais, mas a proximidade semântica das respostas. Essa abordagem reflete melhor acordo ou desacordo genuíno entre modelos do que simples comparação palavra por palavra.
Segundo os pesquisadores, na prática, uma variante inesperadamente simples funcionou melhor: usar modelos criados por diferentes empresas. Esquemas mais complexos de seleção de ensemble foram testados, mas não ofereceram vantagem sobre essa estratégia direta e transparente.
- Primeiro, seleciona-se o modelo alvo cuja resposta precisa ser avaliada.
- Depois, a mesma consulta é endereçada a vários LLMs similares.
- Em seguida, o sistema mede quanto as respostas se alinham semanticamente.
- Essa métrica é combinada com a métrica padrão de autoconsistência.
- O resultado é uma pontuação de incerteza total.
Os autores chamam o segundo componente de incerteza epistêmica: ele mostra quão bem o modelo em si foi escolhido para a tarefa específica. Combinada com a incerteza aleatória, que reflete a instabilidade interna da resposta, você obtém uma imagem mais completa do risco. Em termos simples, o sistema verifica tanto se o modelo se contradiz quanto se ele diverge de outros modelos plausíveis. O método funciona em formato black-box: ele requer apenas respostas em texto, sem acesso a logits ou estados internos do modelo.
Onde o Método É Mais Útil
Os pesquisadores testaram a métrica combinada em dez tarefas realistas, incluindo cenários de perguntas e respostas, sumarização, tradução e raciocínio matemático. Na série principal de experimentos, compararam vários modelos ajustados por instrução, com testes separados em modelos de API também. Nesses testes, a pontuação geral de incerteza detectou com mais confiabilidade respostas pouco confiáveis do que qualquer componente sozinho. A nova abordagem teve desempenho particularmente bom em tarefas onde há uma resposta correta, como perguntas e respostas factuais ou tradução.
Se um modelo repete a mesma resposta muitas vezes, isso não significa
necessariamente que a resposta está correta.
Há também uma limitação importante. Para tarefas mais abertas onde múltiplas variantes de respostas boas são aceitáveis, o sinal de discordância entre modelos pode ser menos útil. Em outras palavras, se não se trata de fatos, mas de geração mais livre, desacordo entre modelos sozinho nem sempre indica um erro. Os autores apontam diretamente que no futuro querem adaptar a técnica especificamente para tais cenários e investigar separadamente outras formas de avaliar a incerteza interna do modelo.
Outra vantagem prática é a economia computacional. Em alguns experimentos, calcular a incerteza total exigiu menos consultas do que avaliação tradicional apenas através de autoconsistência. Isso significa não apenas custos de inferência mais baixos, mas também potencialmente menos consumo de energia com uso em larga escala de tais verificações. Para produção, esse é um argumento importante: se uma métrica é simultaneamente mais precisa e mais barata, tem muito mais chances de chegar a produtos de IA reais do que permanecer uma ideia puramente acadêmica.
O Que Isso Significa
Para a indústria, este é um passo de avaliar "quão confiante o modelo soa" para avaliar "quanto dessa confiança pode ser confiável". Se a abordagem se consolidar na produção, serviços de IA poderão avisar com mais precisão sobre alucinações, e usuários terão menos probabilidade de aceitar um erro convincentemente falado como uma resposta credível. Isso é especialmente importante para todos os cenários onde LLMs já funcionam não como um brinquedo, mas como uma ferramenta de trabalho que influencia decisões, dinheiro e processos diários em uma empresa.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.