OpenAI Blog→ оригинал

OpenAI resume Parameter Golf: cómo los agentes de código están cambiando la investigación en aprendizaje automático

OpenAI resumió Parameter Golf, un desafío abierto de ML con un límite de 16 MB por artifact y 10 minutos de entrenamiento en 8xH100. En la competencia participa

OpenAI resume Parameter Golf: cómo los agentes de código están cambiando la investigación en aprendizaje automático
Fuente: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI ha presentado los resultados del Parameter Golf - una competición abierta de aprendizaje automático donde a los participantes se les obligó a encontrar soluciones no convencionales dentro de restricciones muy estrictas. Durante ocho semanas, el desafío reunió a más de 1.000 participantes y más de 2.000 envíos, y la principal sorpresa fue cuánto los AI-agents cambiaron dramáticamente el proceso de investigación en sí.

Cómo se organizó el desafío

La idea detrás de Parameter Golf era simple solo en papel. Los participantes necesitaban minimizar la held-out loss en un conjunto de datos FineWeb fijo, manteniéndose dentro de un límite de 16 MB para todo el artefacto - incluyendo los pesos del modelo y el código de entrenamiento. Había una restricción adicional: el entrenamiento no debería tardar más de diez minutos en ocho aceleradores H100.

OpenAI deliberadamente eligió esta configuración para mantener la tarea verificable pero evitar que se convirtiera en una simple búsqueda de fuerza bruta. Los organizadores proporcionaron una línea base, conjunto de datos y scripts de evaluación, y los envíos se aceptaron a través de GitHub. Gracias a este formato, la competición fue abierta no solo a investigadores de grandes laboratorios, sino también a desarrolladores independientes que pueden experimentar rápidamente y acumular cuidadosamente mejoras sobre las ideas de otros.

OpenAI señala por separado que este formato resultó ser una buena herramienta para encontrar ingenieros fuertes: muestra no solo conocimiento teórico, sino también gusto por la investigación, persistencia y disciplina.

Lo que encontraron los participantes

Los resultados más fuertes no vinieron de una idea mágica, sino de muchas soluciones técnicas precisas. Algunos extrajeron calidad de componentes ya conocidos a través del ajuste fino del optimizador, inicialización y cronograma de aprendizaje. Algunos se enfocaron en compresión para encajar el modelo dentro del límite de tamaño estricto. También había trabajos en el borde de lo permitido, donde la mejora del modelo casi se confundía con la estrategia de evaluación, por lo que los organizadores tuvieron que verificar por separado si tales técnicas violaban el espíritu de las reglas.

  • Ajuste fino del entrenamiento: los participantes combinaron mejoras ya descubiertas y lograron errores aún más bajos sin cambiar la idea central.
  • Cuantización: por primera vez, GPTQ-lite y full Hessian GPTQ entraron con confianza en la competición como formas de comprimir más agresivamente los pesos después del entrenamiento.
  • Adaptación durante la evaluación: algunos trabajos utilizaron test-time LoRA y enfoques similares manteniéndose dentro de las reglas formales.
  • Nuevas representaciones de datos: surgieron tokenizadores no convencionales y formas de considerar mayúsculas/minúsculas o estructura de bytes del texto sin pérdida.
  • Movimientos arquitectónicos: los participantes probaron variantes parciales de attention, características hash para tokens vecinos, e incluso reutilización de capas como mecanismo recurrente.

OpenAI destacó por separado la nonrecord track - una división más experimental donde la clasificación absoluta importaba menos que la audacia técnica. Hubo ideas como modelos state-space combinados con JEPA, Guided Attention, byte-level H-Net, modelado de texto no autorregresivo y tokenización dinámica. Al mismo tiempo, la pista no era meramente decorativa: la mitad de los envíos superaron la línea base ingenua de 1.22 BPB, y el mejor resultado llegó a 1.12 BPB. Esta es una señal importante de que incluso frente a líneas base transformer fuertes, los enfoques alternativos aún pueden competir.

Cómo influyeron los AI-agents

La principal diferencia entre Parameter Golf y competiciones similares de años anteriores es el uso masivo de coding agents. Según OpenAI, la abrumadora mayoría de los participantes mencionó trabajar con agentes. Esto bajó dramáticamente la barrera de entrada: se volvió más fácil para las personas configurar su entorno, entender código desconocido, probar rápidamente una hipótesis y armar un envío funcional sin rutina manual larga.

Ayuda adicional vino de la infraestructura: el programa de patrocinio de RunPod dio a los participantes 1 millón de dólares en poder computacional, por lo que más personas pudieron experimentar. Pero junto con la velocidad vinieron los ruidos. Muchos envíos nuevos no eran avances independientes, sino pequeñas variaciones sobre soluciones ya exitosas.

En sí mismo esto no es un problema - las buenas ideas deberían propagarse rápidamente. El problema es diferente: si una técnica fuerte pero inválida una vez llamaba la atención, otros agentes comenzarían a copiarla y escalarla, continuando movimiento en la trayectoria incorrecta. Por esto, la verificación, atribución de contribución y scoring correcto se volvieron notablemente más complejos que en competiciones de la era pre-agentes programación.

El flujo de trabajos también cambió el lado operacional de la competición. Cuando cientos de envíos llegaban en ciertos días, el análisis manual dejaba de funcionar. Entonces OpenAI armó un triage-bot interno basado en Codex que rastreaba nuevos envíos y levantaba banderas para revisión manual.

Los AI-agents también se volvieron parte de la comunidad: un participante junto con su agente mantenía boletines de live updates sobre la tabla de clasificación, y herramientas aparecieron alrededor de la competición que ayudaban a los principiantes a verificar sus ideas para cumplimiento de las reglas.

Lo que esto significa

Parameter Golf demostró que la investigación asistida por AI ya se ha vuelto práctica, no una hipótesis bonita. Los agentes aceleran la entrada en ML, abaratan los experimentos y expanden el círculo de participantes, pero al mismo tiempo cambian la propia mecánica de las competiciones científicas. Si tales formatos se repiten, los organizadores necesitarán diseñar no solo la tarea, sino también un sistema de filtrado, revisión y contabilización justa de contribución en un mundo donde cada vez más el código es escrito no por una persona.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
¿Qué te parece?
Cargando comentarios…