OpenAI dresse le bilan de Parameter Golf : comment les agents de code transforment la recherche en apprentissage automatique
OpenAI a dressé le bilan de Parameter Golf, un challenge ML ouvert avec une limite de 16 MB par artifact et 10 minutes d'entraînement sur 8xH100. Plus de 1 000

OpenAI a présenté les résultats du Parameter Golf - une compétition ouverte d'apprentissage automatique où les participants ont été forcés de trouver des solutions non conventionnelles dans des contraintes très strictes. Sur huit semaines, le défi a rassemblé plus de 1.000 participants et plus de 2.000 soumissions, et la principale surprise a été le point auquel les AI-agents ont changé dramatiquement le processus de recherche lui-même.
Comment le défi a été organisé
L'idée derrière Parameter Golf était simple seulement sur le papier. Les participants devaient minimiser la held-out loss sur un ensemble de données FineWeb fixe, tout en restant dans une limite de 16 MB pour l'ensemble de l'artefact - incluant les poids du modèle et le code d'entraînement. Il y avait une contrainte supplémentaire : l'entraînement ne devrait pas durer plus de dix minutes sur huit accélérateurs H100.
OpenAI a délibérément choisi cette configuration pour garder la tâche vérifiable mais éviter qu'elle ne devienne une simple recherche par force brute. Les organisateurs ont fourni une ligne de base, un ensemble de données et des scripts d'évaluation, et les soumissions ont été acceptées via GitHub. Grâce à ce format, le concours était ouvert non seulement aux chercheurs des grands laboratoires, mais aussi aux développeurs indépendants qui peuvent rapidement expérimenter et accumuler soigneusement des améliorations sur les idées des autres.
OpenAI souligne séparément que ce format s'est avéré être un bon outil pour trouver des ingénieurs forts : il montre non seulement la connaissance théorique, mais aussi le goût pour la recherche, la persistance et la discipline.
Ce que les participants ont trouvé
Les résultats les plus forts ne venaient pas d'une idée magique, mais de nombreuses solutions techniques précises. Certains ont extrait la qualité de composants déjà connus grâce au réglage fin de l'optimiseur, initialisation et calendrier d'apprentissage. Certains se sont concentrés sur la compression pour adapter le modèle dans la limite de taille stricte. Il y avait aussi des travaux à la limite de ce qui est autorisé, où l'amélioration du modèle s'estompait presque avec la stratégie d'évaluation, donc les organisateurs ont dû vérifier séparément si de telles techniques violaient l'esprit des règles.
- Ajustement fin de l'entraînement : les participants ont combiné des améliorations déjà découvertes et ont obtenu des erreurs encore plus faibles sans changer l'idée centrale.
- Quantification : pour la première fois, GPTQ-lite et full Hessian GPTQ sont entrés avec confiance dans le concours comme moyens de compresser plus agressivement les poids après l'entraînement.
- Adaptation lors de l'évaluation : certains travaux ont utilisé test-time LoRA et des approches similaires en restant dans les règles formelles.
- Nouvelles représentations de données : des tokenizeurs non conventionnels et des façons de tenir compte de la casse ou de la structure en octets du texte sans perte ont émergé.
- Mouvements architecturaux : les participants ont essayé des variantes partielles d'attention, des caractéristiques hash pour les tokens voisins, et même la réutilisation de couches comme mécanisme récurrent.
OpenAI a séparément mis en évidence la nonrecord track - une division plus expérimentale où le classement absolu importait moins que l'audace technique. Il y avait des idées comme les modèles state-space combinés avec JEPA, Guided Attention, byte-level H-Net, la modélisation de texte non autorégressive et la tokenization dynamique. En même temps, la piste n'était pas simplement décorativve : la moitié des entrées ont dépassé la ligne de base naïve de 1.22 BPB, et le meilleur résultat a atteint 1.12 BPB. C'est un signal important que même face à des lignes de base transformer fortes, les approches alternatives peuvent encore concurrencer.
Comment les AI-agents ont influencé
La principale différence entre Parameter Golf et les compétitions similaires des années précédentes est l'utilisation massive des coding agents. Selon OpenAI, la grande majorité des participants a mentionné travailler avec des agents. Cela a considérablement réduit la barrière à l'entrée : il est devenu plus facile pour les gens de configurer leur environnement, de comprendre du code inconnu, de tester rapidement une hypothèse et d'assembler une soumission fonctionnelle sans une longue routine manuelle.
De l'aide supplémentaire est venue de l'infrastructure : le programme de parrainage RunPod a donné aux participants 1 million de dollars en puissance informatique, de sorte que plus de personnes ont pu expérimenter. Mais avec la vitesse venait aussi le bruit. Beaucoup de nouvelles soumissions n'étaient pas des avancées indépendantes, mais de petites variations sur des solutions déjà réussies.
En soi, ce n'est pas un problème - les bonnes idées devraient se propager rapidement. Le problème est différent : si une technique forte mais invalide attirait une fois l'attention, d'autres agents commenceraient à la copier et à la monter à l'échelle, continuant le mouvement sur la mauvaise trajectoire. Pour cette raison, la vérification, l'attribution de la contribution et le scoring correct sont devenus notablement plus complexes que dans les compétitions d'avant l'ère de la programmation par agents.
Le flux de travaux a également changé l'aspect opérationnel du concours. Quand des centaines de soumissions arrivaient certains jours, l'analyse manuelle cessait de fonctionner. Alors OpenAI a assemblé un triage-bot interne basé sur Codex qui suivait les nouvelles soumissions et levait des drapeaux pour l'examen manuel.
Les AI-agents sont également devenus partie de la communauté : un participant avec son agent a tenu des bulletins de live updates sur le classement, et des outils ont émergé autour du concours qui aidaient les débutants à vérifier leurs idées pour la conformité aux règles.
Ce que cela signifie
Parameter Golf a montré que la recherche assistée par l'IA est déjà devenue une pratique, pas une belle hypothèse. Les agents accélèrent l'entrée en ML, rendent les expériences moins chères et élargissent le cercle des participants, mais en même temps changent la mécanique même des compétitions scientifiques. Si ces formats se répètent, les organisateurs devront concevoir non seulement la tâche, mais aussi un système de filtrage, d'examen et de comptabilisation juste des contributions dans un monde où le code est de plus en plus écrit non par une seule personne.