Habr AI→ original

OpenAI lançou o GPT-5.4 Pro: novos recordes em ARC-AGI-2, FrontierMath e lógica

A OpenAI lançou o GPT-5.4 Pro e mostrou um salto claro em relação à versão anterior. O modelo atinge 83,3% no ARC-AGI-2, contra 54% da versão anterior…

Processado por IA de Habr AI; editado por Hamidun News
OpenAI lançou o GPT-5.4 Pro: novos recordes em ARC-AGI-2, FrontierMath e lógica
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A OpenAI apresentou o GPT-5.4 Pro — uma nova versão flagship que marca um avanço notável não apenas nas métricas brutas, mas também no comportamento do modelo em tarefas complexas. Se antes o rótulo Pro era percebido simplesmente como um plano mais caro, aqui ele já parece um patamar distinto de qualidade.

Avanço nos testes

O número destaque da análise — 83,3% no ARC-AGI-2 contra 54% na versão anterior. Para uma classe de tarefas onde modelos não devem adivinhar um padrão, mas realmente derivar uma regra a partir de exemplos, este é um salto acentuado. Este resultado importa não isoladamente, mas como um sinal: a OpenAI fortaleceu a capacidade do modelo de trabalhar onde heurísticas superficiais falham e onde você precisa manter a estrutura da tarefa até o próprio fim.

O progresso no FrontierMath não é menos revelador — um conjunto de problemas que por muito tempo foi considerado território quase fechado para modelos de IA convencionais. Se tais testes eram antes usados mais como demonstração de limites, agora estão se tornando cada vez mais uma forma de comparar quão bem um modelo consegue construir uma longa cadeia de raciocínio sem perder um passo. Neste contexto, o GPT-5.

4 Pro parece não apenas mais rápido ou mais conveniente, mas notavelmente mais profundo em perfil intelectual.

Testes além dos benchmarks

Os revisores não pararam nos benchmarks e executaram o modelo em cenários mais aplicados. Em vez de percentuais abstratos, observaram como o GPT-5.4 Pro se comporta em tarefas que exigem combinar lógica, planejamento e atenção aos detalhes. Este formato é mais interessante que uma tabela padrão porque mostra não uma habilidade forte isolada, mas o comportamento do modelo sob carga, quando um erro no meio da cadeia quebra o resultado inteiro na primeira falha.

  • Quebra-cabeças lógicos com servidores e dependências entre nós
  • Tarefas que exigem manutenção simultânea de múltiplas condições
  • Cenários envolvendo encontrar caminhos não óbvios para soluções
  • Um simulador de furtividade completo em canvas, onde plano e sequência de ações importam

Pelas descrições dos testes, o ponto forte da nova versão não é apenas a resposta final correta, mas também a estabilidade ao longo do caminho. O modelo perde contexto com menos frequência, mantém melhor as restrições e não se desvia tão rapidamente para suposições aleatórias quando uma tarefa sai dos exemplos padrão do corpus de treinamento. Para usuários, isto importa mais que um número recorde em uma classificação: é assim que ganhos reais de qualidade se sentem no trabalho diário.

O que foi surpreendente no comportamento

Um dos episódios mais reveladores na análise não se relaciona com matemática, mas com o comportamento de pesquisa do modelo. Ao resolver um problema, o GPT-5.4 Pro encontrou um artigo científico esquecido de 2011 na internet e o usou como um atalho para a resposta.

Por um lado, isto é impressionante: o modelo não simplesmente recicla padrões memorizados, mas sabe encontrar suporte externo onde realmente ajuda. Por outro lado, tal episódio imediatamente levanta a questão dos limites da autonomia e da verificação de fontes encontradas. Esta é uma mudança importante no próprio tipo de interação com IA.

O usuário cada vez mais trabalha não com uma enciclopédia falante, mas com um sistema que combina raciocínio, busca e adaptação de estratégia à tarefa. É exatamente por isso que comparação apenas por contagem de tokens ou velocidade de resposta explica mal o valor real de um modelo. O que se torna chave é outra coisa: quão confiável ele consegue pensar, buscar e não quebrar em um caminho não padrão.

O que isto significa

A barra para modelos de topo subiu novamente, e o GPT-5.4 Pro mostra que o próximo estágio de competição já não gira em torno da coerência básica do texto, mas da profundidade de raciocínio e resiliência em cenários complexos. Para o mercado, isto significa acelerar a transição de "chatbot inteligente" para uma ferramenta de trabalho para análise, matemática, programação e tarefas multi-etapas onde anteriormente um humano ainda precisava cobrir o modelo em quase cada passo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…