OpenAI GPT-5.4 resolveu um problema do FrontierMath que um matemático levou 20 anos para elaborar
OpenAI GPT-5.4 resolveu um problema do FrontierMath que o matemático polonês Bartosz Naskręcki vinha preparando havia quase 20 anos e considerava fora do…
Processado por IA de Habr AI; editado por Hamidun News
GPT-5.4 da OpenAI resolveu um problema do benchmark FrontierMath que o matemático polonês Bartosz Naskręcki havia construído por quase vinte anos e considerava praticamente inacessível para máquinas. Para o próprio autor, isso se tornou um ponto de virada pessoal: não muito tempo atrás ele chamava IA de "calculadora muito avançada", e agora fala sobre um novo nível de trabalho colaborativo com o modelo.
Por que isso surpreendeu a todos
FrontierMath é um dos benchmarks matemáticos mais rigorosos para IA. Contém 350 problemas originais em teoria dos números, geometria algébrica, topologia, combinatória e análise. A camada mais pesada, Tier 4, consiste em 48 problemas de nível de pesquisa: mesmo um forte matemático com PhD pode precisar de pelo menos um mês apenas para entender por qual ângulo abordar tal problema. É exatamente para esses casos que Naskręcki estava preparando seu exemplo — não um de livro didático, mas quase no limite da complexidade.
Naskręcki foi um dos poucos matemáticos europeus convidados a compor problemas para esse conjunto. Seu problema cresceu de aproximadamente quinze anos de trabalho de pesquisa estreitamente focado, e a solução formalizada ocupou 13 páginas densas. A resposta era um número muito grande para excluir adivinhação aleatória. Portanto, o que era surpreendente não era apenas a resposta correta do GPT-5.4 em si, mas também a maneira como o modelo chegou a ela: em vez de enumeração bruta, ele notou a estrutura e encontrou um caminho mais curto. De acordo com o autor, a abordagem do modelo se mostrou "limpa e elegante".
"Minha singularidade acabou de acontecer… e do outro lado há vida —
recuando para o infinito!"
Como o resultado cresceu rapidamente
A história é importante não apenas por causa de um problema bonito, mas pela velocidade do progresso. Quando FrontierMath foi lançado no final de 2024, os melhores modelos resolviam menos de 2% dos problemas. Ao longo de dezesseis meses, os resultados cresceram uma ordem de magnitude, e não apenas em exemplos abertos, mas também no conjunto oculto, ao qual a OpenAI não tinha acesso direto. Isso importa porque o argumento sobre "superajuste às respostas" continua sendo a principal objeção dos céticos sempre que um novo modelo mostra um grande salto em matemática.
- Fim de 2024: melhores modelos resolvem menos de 2% dos problemas do FrontierMath.
- Meados de 2025: GPT-5 Pro atinge 13% no Tier 4.
- Janeiro de 2026: GPT-5.2 Pro sobe para 31% no Tier 4.
- Março de 2026: GPT-5.4 Pro atinge 50% entre os níveis 1–3 e 38% no Tier 4.
O resultado em problemas ocultos se destaca separadamente. De acordo com o artigo, GPT-5.4 resolveu 55% de tais exemplos versus 25% de problemas que a OpenAI teoricamente poderia estar mais próxima com base em dados e soluções. Isso não prova "pureza" absoluta do experimento, mas fortalece significativamente a versão de que o modelo realmente sabe como raciocinar sobre novos problemas em vez de simplesmente reproduzir padrões vistos. Para benchmarks de pesquisa, este é talvez o teste mais sensível: novidade importa mais do que qualquer demonstração em exemplos já conhecidos.
Por que o ceticismo não desapareceu
Apesar de toda a força do caso, a história não se reduz à fórmula "máquina já pensa como um humano". Na mesma execução de avaliação, GPT-5.4 resolveu outro problema do Tier 4, mas análise preliminar mostrou que o modelo poderia ter se apoiado em um preprint antigo de 2011, que o próprio autor do problema não conhecia. Este é um bom exemplo de como a fronteira se borra entre raciocínio independente e busca muito eficaz de literatura, especialmente se o modelo consegue trabalhar com a web e coletar rapidamente fontes raras.
Há também uma segunda camada de questões — a independência do próprio benchmark. FrontierMath é financiado pela OpenAI, e a empresa tem acesso a uma porção significativa dos problemas e soluções. O conjunto oculto, no qual GPT-5.4 também mostrou resultados fortes, alivia parcialmente a tensão, mas não remove completamente o conflito de interesses.
Portanto, é razoável ler essa história em dois modos simultaneamente: como um sinal real de um aumento acentuado nas capacidades matemáticas dos modelos, e como um lembrete de que a indústria ainda precisa de testes independentes, metodologias transparentes e verificação externa de resultados surpreendentes.
O que significa
A conclusão principal não é que matemáticos devem ser substituídos. Pelo contrário: a história de Naskręcki mostra que modelos de ponta estão começando a funcionar como um parceiro de pesquisa que reduz o espaço de busca e sugere movimentos inesperados. Para ciência e P&D aplicado, este é um deslocamento sério: IA cada vez menos parece um calculador e cada vez mais — como um co-autor cujas ideias não podem mais ser ignoradas, mas ainda precisam ser cuidadosamente verificadas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.