Pesquisadores do MIT ensinaram a IA a dizer honestamente "não tenho certeza" e alucinar menos
MIT demonstrou uma forma de reduzir um dos principais problemas de modelos de raciocínio—erros confiantes. O novo método RLCR ensina a IA não apenas a…
Processado por IA de MIT News; editado por Hamidun News
Pesquisadores do MIT propuseram uma forma de tornar os modelos de linguagem notavelmente mais honestos em suas respostas: não apenas resolver a tarefa, mas simultaneamente avaliar o quão confiantes estão em sua própria conclusão. Isso parece uma pequena ajustagem, mas na prática ataca um dos problemas mais frustrantes dos modelos de raciocínio modernos — o hábito de falar em tom confiante mesmo quando a resposta foi essencialmente adivinhada. A nova metodologia não reduz a qualidade das respostas em si; pelo contrário, ajuda o modelo a distinguir melhor casos onde ele realmente sabe algo de situações onde deveria reconhecer incerteza.
A equipe MIT CSAIL descreve o problema de forma bastante direta: os modelos poderosos de hoje costumam se comportar como a pessoa mais alta da sala. Respondem com igual confiança se a lógica funcionou ou se o modelo simplesmente adivinhou. De acordo com os pesquisadores, a razão está no próprio esquema de aprendizado por reforço atualmente usado para desenvolver capacidades de raciocínio.
Na variante típica, um modelo recebe recompensa por uma resposta correta e penalidade por uma incorreta. Há quase nenhum estado intermediário. Se um modelo aleatoriamente chega a um resultado correto, é recompensado da mesma forma como se tivesse cuidadosamente derivado a solução.
Com o tempo, isso empurra o sistema a sempre responder, deixando nenhum espaço para a frase "não tenho certeza". É precisamente isso que MIT tentou corrigir na abordagem RLCR — Reinforcement Learning com Calibração de Recompensas. Em vez de uma avaliação puramente binária, pesquisadores adicionaram outro componente à função de recompensa: a métrica de Brier score, que compara a confiança declarada com a precisão real.
Na prática, após uma cadeia de raciocínio, o modelo produz não apenas uma resposta, mas também uma avaliação numérica de sua própria confiança. Se está excessivamente confiante e erra, isso é penalizado. Se, ao contrário, dá uma resposta correta mas subestima a confiança sem motivo, isso também é levado em conta.
Os autores afirmam que tal esquema formalmente leva a dois objetivos simultâneos: alta precisão e boa calibração — ou seja, correspondência entre o que o modelo diz sobre sua confiança e com que frequência está realmente certo. Experimentos foram conduzidos em um modelo com 7 bilhões de parâmetros. De acordo com MIT, RLCR reduziu o erro de calibração em até 90 por cento comparado ao aprendizado por reforço padrão, enquanto a precisão não declinou e até aumentou em alguns testes.
O efeito persistiu não apenas nas tarefas em que o modelo foi treinado, mas também em novos conjuntos de dados, incluindo seis conjuntos que não tinha visto antes. Pesquisadores separadamente compararam o método com abordagens post-hoc, onde a confiança é avaliada após o treinamento através de um classificador externo. RLCR provou ser superior aqui também: em vez de um complemento cosmético para um modelo terminado, muda o comportamento do sistema durante o próprio treinamento.
Além disso, a equipe MIT mostra que RL padrão não apenas falha em melhorar a calibração, mas frequentemente a piora: o modelo fica mais capaz, mas simultaneamente mais excessivamente confiante. Há valor prático nisso também. Se um modelo gera múltiplas opções de resposta, você pode escolher aquela onde relata a confiança mais alta, ou ponderar os votos dos candidatos com essa avaliação em mente.
De acordo com os autores, isso melhora tanto a precisão quanto a calibração à medida que os recursos computacionais para inferência aumentam. Outro resultado interessante: quando pesquisadores treinaram classificadores separados nas saídas do modelo, o raciocínio explícito sobre sua própria incerteza forneceu um sinal adicional útil, especialmente para modelos mais compactos. Em outras palavras, a tentativa do modelo de articular o que sabe e o que não sabe acaba sendo não um elemento decorativo, mas uma parte substantiva da previsão.
O que isso significa na prática? Se a abordagem RLCR escala para modelos comerciais maiores, a indústria ganha uma chance de reduzir não apenas o número de erros explícitos, mas também o número de erros perigosos mascarados por um tom confiante. Para áreas como medicina, lei, finanças e análise corporativa, isso é especialmente importante: os usuários precisam não apenas obter uma resposta, mas entender o quanto podem confiar nela.
O trabalho do MIT oferece não outro filtro em cima de um modelo já treinado, mas uma ideia mais fundamental: ensinar IA não apenas a encontrar soluções, mas a medir honestamente os limites de seu próprio conhecimento. É precisamente esse hábito que poderia provar ser uma das atualizações mais úteis para a próxima geração de sistemas de raciocínio.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.