Por que modelos de OpenAI, Google e Anthropic se tornam mais convincentes, mas cometem mais erros
Modelos de raciocínio de grandes laboratórios soam mais inteligentes, mas isso não os torna mais precisos. OpenAI, Google e Anthropic aumentam a computação…
Processado por IA de Habr AI; editado por Hamidun News
O principal problema para os maiores laboratórios de IA agora não é que seus modelos não pareçam convincentes o suficiente, mas que a entrega confiante cada vez mais esconde erros de nível superior. OpenAI, Google e Anthropic passaram os últimos dois anos tentando resolver isso aumentando o processamento durante a inferência: adicionando cadeias de raciocínio, busca em múltiplos caminhos, auto-verificação e mais tokens por requisição. De fora, isso parece progresso.
Mas se o modelo base não se tornou mais preciso, o "pensamento" adicional apenas torna suas concepções equivocadas mais coerentes e plausíveis. A ideia de escalar a inferência parece lógica. Se os modelos recebem mais tempo e mais passos para resolver uma tarefa, devem cometer menos erros.
Na prática, essa abordagem realmente eliminou algumas falhas superficiais: menos erros factuais absurdos, menos respostas que desabam na primeira verificação, menos fracassos demonstrativos óbvios. É por isso que os modelos de raciocínio fazem uma impressão tão forte: falam de forma mais consistente, estruturam melhor as respostas e conseguem imitar um processo de análise cuidadoso. O problema é que coerência textual e precisão do resultado não são a mesma coisa.
A diferença é especialmente pronunciada entre alucinações simples e profundas. Uma alucinação simples é uma data fabricada, um nome confundido ou uma referência inexistente. Ainda dá para perceber rapidamente.
Um erro estrutural profundo é mais perigoso: o modelo toma uma premissa falsa, constrói uma longa cadeia lógica sobre ela, adiciona um tom confiante e entrega uma resposta completa e convincente. O usuário não vê caos, mas mentira cuidadosamente embalada. Para tarefas como análise, preparação de documentos, programação, medicina ou consultoria jurídica, esse tipo de erro é muito mais arriscado do que uma falha aleatória típica.
Nesse cenário, os números parecem alarmantes. Em uma comparação recente de grandes modelos OpenAI no benchmark SimpleQA, foram citadas taxas de alucinação em torno de 50%. Se cada segunda resposta a perguntas factuais simples resultar em algo falso ou fabricado, isso não é mais um defeito cosmético, mas uma vulnerabilidade sistêmica.
Sim, qualquer benchmark tem limitações: muito depende de formulação, metodologia de avaliação e versão específica do modelo. Mas a tendência em si é reveladora. Os lançamentos estão ficando mais eloquentes e computacionalmente caros, enquanto a confiabilidade fundamental não está crescendo no mesmo ritmo—e às vezes parece estar piorando.
Para cenários corporativos, isso é suficiente para que erros passem despercebidos em apresentações, relatórios ou bases de código. A razão pode estar na própria abordagem. Processamento adicional no momento da inferência não cria novo conhecimento nem corrige fraquezas nos dados de treinamento.
Apenas faz o modelo procurar mais tempo por respostas dentro do espaço de representação já existente. Se a visão de mundo subjacente do modelo está distorcida, uma longa cadeia de raciocínio não a levará necessariamente à verdade. Pelo contrário, pode amplificar o efeito de auto-confirmação: o modelo pode verificar a mesma hipótese incorreta várias vezes em palavras diferentes, tornando o erro ainda mais convincente.
Um paradoxo emerge: mais processamento reduz a probabilidade de um erro estúpido, mas aumenta o risco de um bonito. Quanto mais confiante a resposta parece, menor a chance de o usuário parar no tempo e verificar a base do raciocínio. Isso aponta para uma conclusão mais ampla para o mercado.
A ameaça aos líderes de IA pode não vir apenas de um novo "super modelo", mas de equipes que conseguem construir sistemas mais confiáveis sobre os modelos: com recuperação de qualidade, atribuição de fontes, calibração de confiança, verificação rigorosa de fatos e avaliação não apenas de fluência, mas de veracidade. O vencedor não será quem gera a resposta mais longa, mas cuja resposta pode ser confiável no trabalho real. Se a indústria continuar confundindo persuasividade com inteligência, a janela de oportunidades para novos players já se abriu de verdade.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.