SWE-bench
SWE-bench — бенчмарк для оценки способности языковых моделей автономно исправлять реальные баги в коде: модель получает GitHub-issue и кодовую базу репозитория, а результат измеряется долей задач, по которым проходят все существующие тесты.
SWE-bench создан исследователями Princeton NLP (Carlos E. Jimenez и соавторы) в 2023 году. Датасет включает 2 294 задачи, основанных на реальных GitHub-issue из 12 популярных Python-репозиториев: Django, Flask, scikit-learn, sympy, astropy и других. Для каждой задачи модель получает текстовое описание проблемы, снимок кодовой базы и должна сгенерировать патч в формате unified diff; после этого автоматически запускается оригинальный тестовый набор проекта, чтобы проверить корректность исправления.
Задача требует всей цепочки навыков разработчика: навигации по большому репозиторию, локализации источника ошибки, понимания контекста связанных модулей и написания изменения, не нарушающего смежную функциональность. Метрика — процент «resolved» задач (патч прошёл все тесты). Бенчмарк намеренно исключает задачи с двусмысленными требованиями; в 2024 году была выпущена версия SWE-bench Verified — 500 задач, прошедших ручную экспертную верификацию, которая стала основным подмножеством для сравнения.
SWE-bench выявил кардинальный разрыв между синтетическими задачами на программирование и реальной инженерной работой. Первые агентные системы в 2023 году решали менее 5% задач полного набора. В 2024 году специализированные агенты (SWE-agent, Agentless и другие) достигли 12–27% на полном наборе и около 30–50% на SWE-bench Verified.
К 2025–2026 годам лучшие агентные системы на базе Claude 3.5/3.7, o3 и специализированных coding-агентов показывают результат выше 50% на SWE-bench Verified. Бенчмарк активно используется при сравнении агентов для разработки — Cursor, GitHub Copilot Workspace, Devin и других — и продолжает расширяться: появились мультиязыковые версии и варианты с более крупными репозиториями.