تتخلى OpenAI عن المعيار المرجعي الأبرز لتقييم الكود — وهذا يغيّر قواعد اللعبة
توقف OpenAI تقييم نماذجها على SWE-bench Verified — وهو معيار مرجعي كان يُنظر إليه على أنه المعيار الذهبي لقياس قدرة AI على كتابة الكود. وتقول الشركة إن هذا المع

Когда компания, чьи модели стабильно занимали верхние строчки рейтинга, публично отказывается от этого рейтинга — это не просто корпоративное решение. Это сигнал о системной проблеме. OpenAI объявила, что прекращает оценку своих моделей на SWE-bench Verified — бенчмарке, который последние два года служил главным мерилом того, насколько хорошо ИИ умеет писать и исправлять реальный код. Причина проста и тревожна одновременно: бенчмарк больше не измеряет то, что должен измерять.
SWE-bench появился как амбициозная попытка выйти за рамки синтетических тестов. Вместо того чтобы просить модель решить абстрактную задачку на LeetCode, бенчмарк предлагал реальные баг-репорты из популярных open-source проектов на Python — Django, scikit-learn, sympy и других. Модель должна была понять описание бага, найти нужный файл в репозитории и написать патч, который пройдёт тесты. Версия Verified появилась позже как очищенный вариант — с ручной проверкой задач человеком. Именно на ней лаборатории соревновались, с гордостью публикуя проценты решённых задач в каждом пресс-релизе.
Но за фасадом красивых цифр накапливались проблемы. Внутренний анализ OpenAI выявил две критические уязвимости. Первая — загрязнение обучающих данных. Задачи SWE-bench Verified основаны на публичных pull-реквестах в открытых репозиториях. Эти данные неизбежно попадают в обучающие корпуса больших языковых моделей. Проще говоря, модели могли видеть правильные ответы ещё до того, как их начинали тестировать. Это классическая проблема утечки данных, но в случае с SWE-bench она приобрела масштаб, который делает результаты статистически бессмысленными. Вторая проблема — качество самих тестов. Часть задач содержала некорректные или неполные тесты, которые могли пропускать неверные решения или отвергать правильные. Когда бенчмарк становится достаточно популярным, его начинают оптимизировать — и не всегда честными методами.
Важно понимать контекст, в котором принято это решение. Индустрия ИИ-кодинга переживает взрывной рост. Десятки стартапов — от Cognition с их Devin до Poolside и Magic — привлекают сотни миллионов долларов инвестиций, и почти все они используют результаты на SWE-bench как главный аргумент в питч-деках. Крупные лаборатории — Anthropic, Google DeepMind, сама OpenAI — публикуют результаты на этом бенчмарке при каждом запуске новой модели. Фактически SWE-bench Verified стал валютой доверия в сегменте ИИ-программирования. И теперь OpenAI говорит: эта валюта обесценилась.
Компания рекомендует переход на SWE-bench Pro — обновлённую версию бенчмарка, которая, по замыслу создателей, решает обе проблемы. Новые задачи специально подобраны так, чтобы минимизировать пересечение с публичными обучающими данными, а тесты проходят более строгую верификацию. Однако здесь возникает закономерный вопрос: как долго SWE-bench Pro останется чистым? История бенчмарков в машинном обучении — это история их постепенной деградации. ImageNet, GLUE, SuperGLUE, MMLU — каждый из них со временем переставал различать по-настоящему сильные модели от тех, что просто хорошо натренированы на конкретном тесте.
Для индустрии последствия этого решения выходят далеко за пределы одного бенчмарка. Инвесторы, вкладывающие деньги в ИИ-кодинг стартапы, теперь должны задаться вопросом: а что на самом деле стоит за теми впечатляющими цифрами, которые им показывали? Компании, которые интегрируют ИИ-ассистентов в свои процессы разработки, вынуждены пересматривать критерии выбора. А исследователи получают очередное напоминание о том, что в гонке за лидерством на бенчмарках теряется связь с реальной полезностью.
Есть и более глубокий вопрос. Если ведущая ИИ-лаборатория мира признаёт, что стандартный инструмент измерения прогресса сломан, то как нам вообще понимать, становятся ли модели лучше? В мире, где каждый квартал выходит новая «революционная» модель с рекордными показателями, отсутствие надёжной линейки — это не техническая мелочь, а фундаментальная проблема.
OpenAI заслуживает уважения за честность этого признания. Но сам факт того, что индустрия так долго полагалась на загрязнённый бенчмарк, говорит о системном дефиците критического мышления в сообществе. Переход на SWE-bench Pro — это шаг в правильном направлении.
Но настоящий прогресс начнётся тогда, когда мы перестанем сводить оценку ИИ к одному числу на одном тесте и начнём строить многомерные, устойчивые к манипуляциям системы оценки, отражающие реальную способность моделей помогать разработчикам в их повседневной работе.