Habr AI→ original

OpenAI GPT-5.4 resolveu um problema do FrontierMath que um matemático levou 20 anos para elaborar

OpenAI GPT-5.4 resolveu um problema do FrontierMath que o matemático polonês Bartosz Naskręcki vinha preparando havia quase 20 anos e considerava fora do…

Processado por IA de Habr AI; editado por Hamidun News
OpenAI GPT-5.4 resolveu um problema do FrontierMath que um matemático levou 20 anos para elaborar
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

GPT-5.4 da OpenAI resolveu um problema do benchmark FrontierMath que o matemático polonês Bartosz Naskręcki havia construído por quase vinte anos e considerava praticamente inacessível para máquinas. Para o próprio autor, isso se tornou um ponto de virada pessoal: não muito tempo atrás ele chamava IA de "calculadora muito avançada", e agora fala sobre um novo nível de trabalho colaborativo com o modelo.

Por que isso surpreendeu a todos

FrontierMath é um dos benchmarks matemáticos mais rigorosos para IA. Contém 350 problemas originais em teoria dos números, geometria algébrica, topologia, combinatória e análise. A camada mais pesada, Tier 4, consiste em 48 problemas de nível de pesquisa: mesmo um forte matemático com PhD pode precisar de pelo menos um mês apenas para entender por qual ângulo abordar tal problema. É exatamente para esses casos que Naskręcki estava preparando seu exemplo — não um de livro didático, mas quase no limite da complexidade.

Naskręcki foi um dos poucos matemáticos europeus convidados a compor problemas para esse conjunto. Seu problema cresceu de aproximadamente quinze anos de trabalho de pesquisa estreitamente focado, e a solução formalizada ocupou 13 páginas densas. A resposta era um número muito grande para excluir adivinhação aleatória. Portanto, o que era surpreendente não era apenas a resposta correta do GPT-5.4 em si, mas também a maneira como o modelo chegou a ela: em vez de enumeração bruta, ele notou a estrutura e encontrou um caminho mais curto. De acordo com o autor, a abordagem do modelo se mostrou "limpa e elegante".

"Minha singularidade acabou de acontecer… e do outro lado há vida —

recuando para o infinito!"

Como o resultado cresceu rapidamente

A história é importante não apenas por causa de um problema bonito, mas pela velocidade do progresso. Quando FrontierMath foi lançado no final de 2024, os melhores modelos resolviam menos de 2% dos problemas. Ao longo de dezesseis meses, os resultados cresceram uma ordem de magnitude, e não apenas em exemplos abertos, mas também no conjunto oculto, ao qual a OpenAI não tinha acesso direto. Isso importa porque o argumento sobre "superajuste às respostas" continua sendo a principal objeção dos céticos sempre que um novo modelo mostra um grande salto em matemática.

  • Fim de 2024: melhores modelos resolvem menos de 2% dos problemas do FrontierMath.
  • Meados de 2025: GPT-5 Pro atinge 13% no Tier 4.
  • Janeiro de 2026: GPT-5.2 Pro sobe para 31% no Tier 4.
  • Março de 2026: GPT-5.4 Pro atinge 50% entre os níveis 1–3 e 38% no Tier 4.

O resultado em problemas ocultos se destaca separadamente. De acordo com o artigo, GPT-5.4 resolveu 55% de tais exemplos versus 25% de problemas que a OpenAI teoricamente poderia estar mais próxima com base em dados e soluções. Isso não prova "pureza" absoluta do experimento, mas fortalece significativamente a versão de que o modelo realmente sabe como raciocinar sobre novos problemas em vez de simplesmente reproduzir padrões vistos. Para benchmarks de pesquisa, este é talvez o teste mais sensível: novidade importa mais do que qualquer demonstração em exemplos já conhecidos.

Por que o ceticismo não desapareceu

Apesar de toda a força do caso, a história não se reduz à fórmula "máquina já pensa como um humano". Na mesma execução de avaliação, GPT-5.4 resolveu outro problema do Tier 4, mas análise preliminar mostrou que o modelo poderia ter se apoiado em um preprint antigo de 2011, que o próprio autor do problema não conhecia. Este é um bom exemplo de como a fronteira se borra entre raciocínio independente e busca muito eficaz de literatura, especialmente se o modelo consegue trabalhar com a web e coletar rapidamente fontes raras.

Há também uma segunda camada de questões — a independência do próprio benchmark. FrontierMath é financiado pela OpenAI, e a empresa tem acesso a uma porção significativa dos problemas e soluções. O conjunto oculto, no qual GPT-5.4 também mostrou resultados fortes, alivia parcialmente a tensão, mas não remove completamente o conflito de interesses.

Portanto, é razoável ler essa história em dois modos simultaneamente: como um sinal real de um aumento acentuado nas capacidades matemáticas dos modelos, e como um lembrete de que a indústria ainda precisa de testes independentes, metodologias transparentes e verificação externa de resultados surpreendentes.

O que significa

A conclusão principal não é que matemáticos devem ser substituídos. Pelo contrário: a história de Naskręcki mostra que modelos de ponta estão começando a funcionar como um parceiro de pesquisa que reduz o espaço de busca e sugere movimentos inesperados. Para ciência e P&D aplicado, este é um deslocamento sério: IA cada vez menos parece um calculador e cada vez mais — como um co-autor cujas ideias não podem mais ser ignoradas, mas ainda precisam ser cuidadosamente verificadas.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…