OpenAI Blog→ оригинал

OpenAI отказалась от главного бенчмарка для оценки кода — и это меняет правила игры

OpenAI прекращает оценку своих моделей на SWE-bench Verified — бенчмарке, который считался золотым стандартом для измерения способностей ИИ в написании кода. Ко

OpenAI отказалась от главного бенчмарка для оценки кода — и это меняет правила игры
Источник: OpenAI Blog. Коллаж: Hamidun News.

Когда компания, чьи модели стабильно занимали верхние строчки рейтинга, публично отказывается от этого рейтинга — это не просто корпоративное решение. Это сигнал о системной проблеме. OpenAI объявила, что прекращает оценку своих моделей на SWE-bench Verified — бенчмарке, который последние два года служил главным мерилом того, насколько хорошо ИИ умеет писать и исправлять реальный код. Причина проста и тревожна одновременно: бенчмарк больше не измеряет то, что должен измерять.

SWE-bench появился как амбициозная попытка выйти за рамки синтетических тестов. Вместо того чтобы просить модель решить абстрактную задачку на LeetCode, бенчмарк предлагал реальные баг-репорты из популярных open-source проектов на Python — Django, scikit-learn, sympy и других. Модель должна была понять описание бага, найти нужный файл в репозитории и написать патч, который пройдёт тесты. Версия Verified появилась позже как очищенный вариант — с ручной проверкой задач человеком. Именно на ней лаборатории соревновались, с гордостью публикуя проценты решённых задач в каждом пресс-релизе.

Но за фасадом красивых цифр накапливались проблемы. Внутренний анализ OpenAI выявил две критические уязвимости. Первая — загрязнение обучающих данных. Задачи SWE-bench Verified основаны на публичных pull-реквестах в открытых репозиториях. Эти данные неизбежно попадают в обучающие корпуса больших языковых моделей. Проще говоря, модели могли видеть правильные ответы ещё до того, как их начинали тестировать. Это классическая проблема утечки данных, но в случае с SWE-bench она приобрела масштаб, который делает результаты статистически бессмысленными. Вторая проблема — качество самих тестов. Часть задач содержала некорректные или неполные тесты, которые могли пропускать неверные решения или отвергать правильные. Когда бенчмарк становится достаточно популярным, его начинают оптимизировать — и не всегда честными методами.

Важно понимать контекст, в котором принято это решение. Индустрия ИИ-кодинга переживает взрывной рост. Десятки стартапов — от Cognition с их Devin до Poolside и Magic — привлекают сотни миллионов долларов инвестиций, и почти все они используют результаты на SWE-bench как главный аргумент в питч-деках. Крупные лаборатории — Anthropic, Google DeepMind, сама OpenAI — публикуют результаты на этом бенчмарке при каждом запуске новой модели. Фактически SWE-bench Verified стал валютой доверия в сегменте ИИ-программирования. И теперь OpenAI говорит: эта валюта обесценилась.

Компания рекомендует переход на SWE-bench Pro — обновлённую версию бенчмарка, которая, по замыслу создателей, решает обе проблемы. Новые задачи специально подобраны так, чтобы минимизировать пересечение с публичными обучающими данными, а тесты проходят более строгую верификацию. Однако здесь возникает закономерный вопрос: как долго SWE-bench Pro останется чистым? История бенчмарков в машинном обучении — это история их постепенной деградации. ImageNet, GLUE, SuperGLUE, MMLU — каждый из них со временем переставал различать по-настоящему сильные модели от тех, что просто хорошо натренированы на конкретном тесте.

Для индустрии последствия этого решения выходят далеко за пределы одного бенчмарка. Инвесторы, вкладывающие деньги в ИИ-кодинг стартапы, теперь должны задаться вопросом: а что на самом деле стоит за теми впечатляющими цифрами, которые им показывали? Компании, которые интегрируют ИИ-ассистентов в свои процессы разработки, вынуждены пересматривать критерии выбора. А исследователи получают очередное напоминание о том, что в гонке за лидерством на бенчмарках теряется связь с реальной полезностью.

Есть и более глубокий вопрос. Если ведущая ИИ-лаборатория мира признаёт, что стандартный инструмент измерения прогресса сломан, то как нам вообще понимать, становятся ли модели лучше? В мире, где каждый квартал выходит новая «революционная» модель с рекордными показателями, отсутствие надёжной линейки — это не техническая мелочь, а фундаментальная проблема.

OpenAI заслуживает уважения за честность этого признания. Но сам факт того, что индустрия так долго полагалась на загрязнённый бенчмарк, говорит о системном дефиците критического мышления в сообществе. Переход на SWE-bench Pro — это шаг в правильном направлении.

Но настоящий прогресс начнётся тогда, когда мы перестанем сводить оценку ИИ к одному числу на одном тесте и начнём строить многомерные, устойчивые к манипуляциям системы оценки, отражающие реальную способность моделей помогать разработчикам в их повседневной работе.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…