MIT News→ original

Pesquisadores do MIT ensinaram a IA a dizer honestamente "não tenho certeza" e alucinar menos

MIT demonstrou uma forma de reduzir um dos principais problemas de modelos de raciocínio—erros confiantes. O novo método RLCR ensina a IA não apenas a…

Processado por IA de MIT News; editado por Hamidun News
Pesquisadores do MIT ensinaram a IA a dizer honestamente "não tenho certeza" e alucinar menos
Fonte: MIT News. Colagem: Hamidun News.
◐ Ouvir artigo

Pesquisadores do MIT propuseram uma forma de tornar os modelos de linguagem notavelmente mais honestos em suas respostas: não apenas resolver a tarefa, mas simultaneamente avaliar o quão confiantes estão em sua própria conclusão. Isso parece uma pequena ajustagem, mas na prática ataca um dos problemas mais frustrantes dos modelos de raciocínio modernos — o hábito de falar em tom confiante mesmo quando a resposta foi essencialmente adivinhada. A nova metodologia não reduz a qualidade das respostas em si; pelo contrário, ajuda o modelo a distinguir melhor casos onde ele realmente sabe algo de situações onde deveria reconhecer incerteza.

A equipe MIT CSAIL descreve o problema de forma bastante direta: os modelos poderosos de hoje costumam se comportar como a pessoa mais alta da sala. Respondem com igual confiança se a lógica funcionou ou se o modelo simplesmente adivinhou. De acordo com os pesquisadores, a razão está no próprio esquema de aprendizado por reforço atualmente usado para desenvolver capacidades de raciocínio.

Na variante típica, um modelo recebe recompensa por uma resposta correta e penalidade por uma incorreta. Há quase nenhum estado intermediário. Se um modelo aleatoriamente chega a um resultado correto, é recompensado da mesma forma como se tivesse cuidadosamente derivado a solução.

Com o tempo, isso empurra o sistema a sempre responder, deixando nenhum espaço para a frase "não tenho certeza". É precisamente isso que MIT tentou corrigir na abordagem RLCR — Reinforcement Learning com Calibração de Recompensas. Em vez de uma avaliação puramente binária, pesquisadores adicionaram outro componente à função de recompensa: a métrica de Brier score, que compara a confiança declarada com a precisão real.

Na prática, após uma cadeia de raciocínio, o modelo produz não apenas uma resposta, mas também uma avaliação numérica de sua própria confiança. Se está excessivamente confiante e erra, isso é penalizado. Se, ao contrário, dá uma resposta correta mas subestima a confiança sem motivo, isso também é levado em conta.

Os autores afirmam que tal esquema formalmente leva a dois objetivos simultâneos: alta precisão e boa calibração — ou seja, correspondência entre o que o modelo diz sobre sua confiança e com que frequência está realmente certo. Experimentos foram conduzidos em um modelo com 7 bilhões de parâmetros. De acordo com MIT, RLCR reduziu o erro de calibração em até 90 por cento comparado ao aprendizado por reforço padrão, enquanto a precisão não declinou e até aumentou em alguns testes.

O efeito persistiu não apenas nas tarefas em que o modelo foi treinado, mas também em novos conjuntos de dados, incluindo seis conjuntos que não tinha visto antes. Pesquisadores separadamente compararam o método com abordagens post-hoc, onde a confiança é avaliada após o treinamento através de um classificador externo. RLCR provou ser superior aqui também: em vez de um complemento cosmético para um modelo terminado, muda o comportamento do sistema durante o próprio treinamento.

Além disso, a equipe MIT mostra que RL padrão não apenas falha em melhorar a calibração, mas frequentemente a piora: o modelo fica mais capaz, mas simultaneamente mais excessivamente confiante. Há valor prático nisso também. Se um modelo gera múltiplas opções de resposta, você pode escolher aquela onde relata a confiança mais alta, ou ponderar os votos dos candidatos com essa avaliação em mente.

De acordo com os autores, isso melhora tanto a precisão quanto a calibração à medida que os recursos computacionais para inferência aumentam. Outro resultado interessante: quando pesquisadores treinaram classificadores separados nas saídas do modelo, o raciocínio explícito sobre sua própria incerteza forneceu um sinal adicional útil, especialmente para modelos mais compactos. Em outras palavras, a tentativa do modelo de articular o que sabe e o que não sabe acaba sendo não um elemento decorativo, mas uma parte substantiva da previsão.

O que isso significa na prática? Se a abordagem RLCR escala para modelos comerciais maiores, a indústria ganha uma chance de reduzir não apenas o número de erros explícitos, mas também o número de erros perigosos mascarados por um tom confiante. Para áreas como medicina, lei, finanças e análise corporativa, isso é especialmente importante: os usuários precisam não apenas obter uma resposta, mas entender o quanto podem confiar nela.

O trabalho do MIT oferece não outro filtro em cima de um modelo já treinado, mas uma ideia mais fundamental: ensinar IA não apenas a encontrar soluções, mas a medir honestamente os limites de seu próprio conhecimento. É precisamente esse hábito que poderia provar ser uma das atualizações mais úteis para a próxima geração de sistemas de raciocínio.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…