OpenAI resume o Parameter Golf: como agentes de codificação estão mudando a pesquisa em aprendizado de máquina
A OpenAI resumiu o Parameter Golf, um desafio aberto de ML com limite de 16 MB por artifact e 10 minutos de treinamento em 8xH100. Mais de 1.000 pessoas partici

A OpenAI apresentou os resultados do Parameter Golf - uma competição aberta de aprendizado de máquina onde os participantes foram forçados a encontrar soluções não convencionais dentro de restrições muito rigorosas. Ao longo de oito semanas, o desafio reuniu mais de 1.000 participantes e mais de 2.000 submissões, e a principal surpresa foi o quanto AI-agents mudaram dramaticamente o processo de pesquisa em si.
Como o desafio foi organizado
A ideia por trás do Parameter Golf era simples apenas no papel. Os participantes precisavam minimizar a held-out loss em um conjunto de dados FineWeb fixo, mantendo-se dentro de um limite de 16 MB para todo o artefato - incluindo pesos do modelo e código de treinamento. Havia uma restrição adicional: o treinamento não deveria levar mais de dez minutos em oito aceleradores H100.
A OpenAI deliberadamente escolheu essa configuração para manter a tarefa verificável mas evitar que se tornasse uma simples busca por força bruta. Os organizadores forneceram um baseline, conjunto de dados e scripts de avaliação, e as submissões foram aceitas via GitHub. Graças a esse formato, a competição foi aberta não apenas a pesquisadores de grandes laboratórios, mas também a desenvolvedores independentes que conseguem experimentar rapidamente e empilhar com cuidado melhorias sobre as ideias de outros.
A OpenAI nota separadamente que esse formato se mostrou uma boa ferramenta para encontrar engenheiros fortes: mostra não apenas conhecimento teórico, mas também gosto por pesquisa, persistência e disciplina.
O que os participantes encontraram
Os resultados mais fortes não vieram de uma ideia mágica, mas de muitas soluções técnicas precisas. Alguns extraíram qualidade de componentes já conhecidos através do ajuste fino do otimizador, inicialização e cronograma de aprendizado. Alguns focaram em compressão para encaixar o modelo dentro do limite de tamanho rigoroso. Havia também trabalhos na borda do permitido, onde a melhoria do modelo quase se confundia com a estratégia de avaliação, então os organizadores tiveram que verificar separadamente se essas técnicas violavam o espírito das regras.
- Ajuste fino do treinamento: os participantes combinaram melhorias já descobertas e conseguiram erros ainda mais baixos sem mudar a ideia central.
- Quantização: pela primeira vez, GPTQ-lite e full Hessian GPTQ entraram confiantemente na competição como formas de comprimir mais agressivamente os pesos após o treinamento.
- Adaptação durante a avaliação: alguns trabalhos usaram test-time LoRA e abordagens similares mantendo-se dentro das regras formais.
- Novas representações de dados: surgiram tokenizadores não convencionais e formas de considerar maiúsculas/minúsculas ou estrutura de bytes do texto sem perda.
- Movimentos arquiteturais: participantes tentaram variantes parciais de attention, características de hash para tokens vizinhos, e até reutilização de camadas como um mecanismo recorrente.
A OpenAI destacou separadamente a nonrecord track - uma divisão mais experimental onde a classificação absoluta importava menos que a ousadia técnica. Houve ideias como modelos state-space combinados com JEPA, Guided Attention, byte-level H-Net, modelagem de texto não autorregressiva e tokenização dinâmica. Ao mesmo tempo, a track não era meramente decorativa: metade das submissões superou o baseline ingênuo de 1.22 BPB, e o melhor resultado chegou a 1.12 BPB. Este é um sinal importante de que mesmo contra baselines transformer fortes, abordagens alternativas ainda podem competir.
Como AI-agents influenciaram
A principal diferença entre Parameter Golf e competições similares de anos anteriores é o uso massivo de coding agents. Segundo a OpenAI, a esmagadora maioria dos participantes mencionou trabalhar com agentes. Isso dramaticamente baixou a barreira de entrada: ficou mais fácil para as pessoas configurar seu ambiente, entender código desconhecido, testar rapidamente uma hipótese e montar uma submissão funcional sem rotina manual longa.
Ajuda adicional veio da infraestrutura: o programa de patrocínio da RunPod deu aos participantes 1 milhão de dólares em poder computacional, então mais pessoas puderam experimentar. Mas junto com a velocidade veio o ruído. Muitas novas submissões não eram avanços independentes, mas pequenas variações em cima de soluções já bem-sucedidas.
Em si isso não é um problema - boas ideias deveriam se espalhar rapidamente. O problema é diferente: se uma técnica forte mas inválida uma vez chamou atenção, outros agentes começariam a copiá-la e escalá-la, continuando movimento na trajetória errada. Por causa disso, verificação, atribuição de contribuição e scoring correto se tornaram notavelmente mais complexos do que em competições da era anterior ao agente programação.
O fluxo de trabalhos também mudou o lado operacional da competição. Quando centenas de submissões chegavam em certos dias, a análise manual parava de funcionar. Então a OpenAI montou um triage-bot interno baseado em Codex que rastreava novas submissões e levantava flags para revisão manual.
AI-agents também se tornaram parte da comunidade: um participante junto com seu agente mantinha boletins de live updates sobre a tabela de classificação, e ferramentas apareceram ao redor da competição que ajudavam iniciantes a verificar suas ideias para conformidade com as regras.
O que isso significa
Parameter Golf mostrou que pesquisa assistida por AI já se tornou prática, não uma hipótese bonita. Agentes aceleram a entrada em ML, tornam experimentos mais baratos e expandem o círculo de participantes, mas ao mesmo tempo mudam a própria mecânica de competições científicas. Se esses formatos se repetirem, os organizadores precisarão projetar não apenas a tarefa, mas também um sistema de filtragem, revisão e contagem justa de contribuição em um mundo onde código cada vez mais é escrito não por uma pessoa.