OpenAI Blog→ оригинал

OpenAI подвела итоги Parameter Golf: как кодинг-агенты меняют исследования в машинном обучении

OpenAI подвела итоги Parameter Golf - открытого ML-челленджа с лимитом 16 МБ на артефакт и 10 минутами обучения на 8xH100. В конкурсе участвовали более 1000 чел

OpenAI подвела итоги Parameter Golf: как кодинг-агенты меняют исследования в машинном обучении
Источник: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI подвела итоги Parameter Golf - открытого конкурса по машинному обучению, где участников заставили искать нестандартные решения в очень жёстких рамках. За восемь недель челлендж собрал более 1000 участников и свыше 2000 сабмитов, а главным сюрпризом стало то, насколько сильно AI-агенты изменили сам процесс исследования.

Как устроили челлендж Идея Parameter Golf была простой только на бумаге.

Участникам нужно было минимизировать held-out loss на фиксированном датасете FineWeb, но при этом уложиться в лимит 16 МБ на весь артефакт - вместе с весами модели и кодом обучения. Сверху добавили ещё одно ограничение: обучение не должно было занимать больше десяти минут на восьми ускорителях H100. OpenAI специально выбрала такую конфигурацию, чтобы задача оставалась проверяемой, но не сводилась к банальному перебору.

Организаторы выдали baseline, датасет и скрипты для оценки, а сабмиты принимали через GitHub. За счёт этого конкурс был открыт не только для исследователей из крупных лабораторий, но и для независимых разработчиков, которые умеют быстро экспериментировать и аккуратно собирать улучшения поверх чужих идей. В OpenAI отдельно отмечают, что такой формат оказался хорошим инструментом поиска сильных инженеров: он показывает не только знание теории, но и исследовательский вкус, настойчивость и дисциплину.

Что нашли участники

Самые сильные результаты появились не из одной магической идеи, а из множества точных технических решений. Кто-то выжимал качество из уже известных компонентов через тонкую настройку оптимизатора, инициализации и расписания обучения. Кто-то упирался в компрессию, чтобы вписать модель в жёсткий лимит по размеру. Были и работы на границе допустимого, где улучшение модели почти сливалось со стратегией оценки, поэтому организаторам приходилось отдельно проверять, не ломают ли такие приёмы дух правил.

  • Тонкая настройка обучения: участники комбинировали уже найденные улучшения и добивались ещё более низкой ошибки без смены базовой идеи.
  • Квантование: в конкурс впервые уверенно зашли GPTQ-lite и full Hessian GPTQ как способы сильнее сжимать веса после обучения.
  • Адаптация во время оценки: некоторые работы использовали test-time LoRA и похожие подходы, оставаясь в рамках формальных правил.
  • Новые представления данных: появились нестандартные токенизаторы и способы учитывать регистр или байтовую структуру текста без потерь.
  • Архитектурные ходы: участники пробовали частичные варианты attention, хеш-признаки для соседних токенов и даже повторное использование слоёв как рекуррентный механизм. Отдельно OpenAI выделила nonrecord track - более экспериментальную дорожку, где важнее была не абсолютная позиция в таблице, а техническая смелость. Там появлялись идеи вроде state-space моделей в связке с JEPA, Guided Attention, byte-level H-Net, неавторегрессионного моделирования текста и динамической токенизации. При этом трек не был декоративным: половина записей обошла наивный baseline 1,22 BPB, а лучший результат дошёл до 1,12 BPB. Это важный сигнал, что даже на фоне сильных трансформерных базлайнов альтернативные подходы всё ещё могут конкурировать.

Как повлияли AI-агенты

Главное отличие Parameter Golf от похожих соревнований прошлых лет - массовое использование coding agents. По словам OpenAI, о работе с агентами упоминало подавляющее большинство участников. Это резко снизило порог входа: людям стало проще развернуть окружение, разобраться в незнакомом коде, быстро проверить гипотезу и собрать рабочий сабмит без длинной ручной рутины.

Дополнительно помогла и инфраструктура: спонсорская программа RunPod дала участникам вычисления на сумму 1 млн долларов, так что экспериментировать смогло больше людей. Но вместе со скоростью пришёл и шум. Многие новые сабмиты были не самостоятельными прорывами, а маленькими вариациями поверх уже успешных решений.

Само по себе это не проблема - хорошие идеи и должны быстро распространяться. Проблема в другом: если сильный, но невалидный приём однажды попадал в поле зрения, другие агенты начинали его копировать и масштабировать, продолжая движение по неверной траектории. Из-за этого проверка, атрибуция вклада и корректный скоринг стали заметно сложнее, чем в конкурсах до эпохи агентного программирования.

Поток работ тоже изменил операционную сторону конкурса. Когда в отдельные дни приходили сотни сабмитов, ручной разбор переставал работать. Поэтому OpenAI собрала внутреннего triage-бота на базе Codex, который отслеживал новые отправки и поднимал флаги для ручной проверки.

AI-агенты при этом стали и частью сообщества: один из участников вместе со своим агентом вёл live updates-бюллетень по таблице лидеров, а вокруг конкурса появились инструменты, которые помогали новичкам проверять свои идеи на соответствие правилам.

Что это значит

Parameter Golf показал, что AI-ассистированное исследование уже стало практикой, а не красивой гипотезой. Агенты ускоряют вход в ML, удешевляют эксперименты и расширяют круг участников, но одновременно меняют саму механику научных конкурсов. Если такие форматы будут повторяться, организаторам придётся проектировать не только задачу, но и систему фильтрации, ревью и честного учёта вклада в мире, где код всё чаще пишет не один человек.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…