OpenAI Blog→ original

OpenAI abandona o principal benchmark para avaliar código — e isso muda as regras do jogo

A OpenAI está encerrando a avaliação de seus modelos no SWE-bench Verified — benchmark que era considerado o padrão-ouro para medir a capacidade da AI de…

Processado por IA de OpenAI Blog; editado por Hamidun News
OpenAI abandona o principal benchmark para avaliar código — e isso muda as regras do jogo
Fonte: OpenAI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Quando uma empresa cujos modelos consistentemente ocuparam os primeiros lugares do ranking publicamente abandona esse ranking — não é apenas uma decisão corporativa. É um sinal de um problema sistêmico. OpenAI anunciou que está cessando a avaliação de seus modelos no SWE-bench Verified — o benchmark que nos últimos dois anos serviu como a principal medida de quão bem a IA consegue escrever e corrigir código real. O motivo é simples e ao mesmo tempo preocupante: o benchmark não mede mais o que deveria medir.

O SWE-bench surgiu como uma tentativa ambiciosa de ir além dos testes sintéticos. Em vez de pedir ao modelo resolver um problema abstrato do LeetCode, o benchmark oferecia relatórios de bugs reais de projetos populares de código aberto em Python — Django, scikit-learn, sympy e outros. O modelo precisava entender a descrição do bug, encontrar o arquivo correto no repositório e escrever um patch que passasse nos testes. A versão Verified surgiu depois como uma variante limpa — com verificação manual de tarefas por humanos. Era nessa versão que os laboratórios competiam, publicando com orgulho os percentuais de problemas resolvidos em cada comunicado à imprensa.

Mas por trás da fachada de números impressionantes, problemas estavam se acumulando. Uma análise interna da OpenAI revelou duas vulnerabilidades críticas. A primeira — contaminação dos dados de treinamento.

As tarefas do SWE-bench Verified são baseadas em pull requests públicos em repositórios abertos. Esses dados inevitavelmente acabam nos corpus de treinamento de grandes modelos de linguagem. Simplificando, os modelos poderiam ver as respostas corretas antes mesmo de serem testados.

Esse é um problema clássico de vazamento de dados, mas no caso do SWE-bench assumiu uma escala que torna os resultados estatisticamente sem sentido. O segundo problema — a qualidade dos testes em si. Algumas tarefas continham testes incorretos ou incompletos, que poderiam deixar passar soluções incorretas ou rejeitar corretas.

Quando um benchmark fica suficientemente popular, as pessoas começam a otimizá-lo — nem sempre por métodos honestos.

É importante entender o contexto em que essa decisão foi tomada. A indústria de IA para codificação está passando por um crescimento explosivo. Dezenas de startups — da Cognition com seu Devin até Poolside e Magic — estão atraindo centenas de milhões de dólares em investimento, e quase todas usam resultados no SWE-bench como argumento principal em seus pitch decks. Grandes laboratórios — Anthropic, Google DeepMind, a própria OpenAI — publicam resultados neste benchmark a cada lançamento de novo modelo. Efetivamente, o SWE-bench Verified se tornou a moeda da confiança no segmento de programação com IA. E agora OpenAI está dizendo: essa moeda foi desvalorizada.

A empresa recomenda a transição para o SWE-bench Pro — uma versão atualizada do benchmark que, por design, resolve ambos os problemas. Novas tarefas são especificamente selecionadas para minimizar a sobreposição com dados de treinamento públicos, e os testes passam por uma verificação mais rigorosa. Porém, surge uma questão natural: quanto tempo o SWE-bench Pro permanecerá limpo? A história dos benchmarks no aprendizado de máquina é uma história de sua degradação gradual. ImageNet, GLUE, SuperGLUE, MMLU — cada um deles ao longo do tempo parou de distinguir modelos verdadeiramente fortes daqueles simplesmente bem treinados em um teste específico.

Para a indústria, as consequências dessa decisão vão muito além de um único benchmark. Investidores colocando dinheiro em startups de IA para codificação agora precisam se perguntar: o que realmente está por trás daqueles números impressionantes que lhes mostraram? Empresas integrando assistentes com IA em seus processos de desenvolvimento são forçadas a reconsiderar seus critérios de seleção. E pesquisadores recebem mais um lembrete de que na corrida para liderar nos benchmarks, a conexão com a utilidade real se perde.

Há também uma questão mais profunda. Se o principal laboratório de IA do mundo admite que a ferramenta padrão para medir progresso está quebrada, como entendemos se os modelos estão realmente ficando melhores? Em um mundo onde a cada trimestre sai um novo modelo "revolucionário" com números recorde, a ausência de uma régua confiável não é um detalhe técnico, mas um problema fundamental.

OpenAI merece respeito pela honestidade dessa admissão. Mas o fato de a indústria ter confiado em um benchmark contaminado por tanto tempo fala sobre um déficit sistêmico de pensamento crítico na comunidade. A transição para o SWE-bench Pro é um passo na direção certa.

Mas o progresso real começará quando pararmos de reduzir a avaliação de IA a um único número em um único teste e começarmos a construir sistemas de avaliação multidimensionais, resistentes à manipulação, que reflitam a verdadeira capacidade dos modelos em ajudar desenvolvedores em seu trabalho cotidiano.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…