Hugging Face запустила Open Agent Leaderboard для оценки AI-агентов
Hugging Face выпустила Open Agent Leaderboard — первый открытый бенчмарк для оценки полных AI-агентов, а не просто моделей. Он тестирует системы на коде, веб-по

Hugging Face и IBM Research представили Open Agent Leaderboard — первый открытый бенчмарк для оценки полных агентских систем, а не отдельных моделей. Исследование показало, что качество работы AI-агента зависит не столько от модели, сколько от того, как его построили.
Что тестирует бенчмарк
Открытый бенчмарк включает шесть различных наборов задач: Исправление реальных багов в кодовых репозиториях (SWE-Bench Verified) Сложный веб-поиск и сбор информации (BrowseComp+) Выполнение личных задач в сотнях приложений (AppWorld) Поддержка клиентов авиакомпании и розницы (tau2-Bench) * Техническая поддержка с соблюдением политик компании (Telecom) Все тесты работают по единому протоколу: одинаковая структура задачи, контекст и доступные инструменты. Это позволяет сравнивать агентов справедливо, не требуя их переделки под каждый бенчмарк.
Главное открытие: агент важнее модели Анализ показал неожиданный результат.
Одна и та же модель, встроенная в разные агентские архитектуры, показывает совершенно разные результаты — и по качеству, и по стоимости выполнения. Причём неудачные попытки стоят на 20–54% дороже успешных из-за повторных запросов к модели. Общего-назначенные агенты оказались конкурентоспособны со специализированными системами, разработанными под конкретные задачи. Это особенно важно, потому что специальные агенты сложнее деплоить в реальном мире.
«Сегодня выбор модели объясняет большинство результатов.
Но архитектура агента уже начинает менять исход» — вывод исследователей.
Что сейчас открыто для сообщества
Hugging Face выпустила несколько ресурсов для разработчиков. Open Agent Leaderboard — интерактивная таблица с результатами всех тестов. Exgentic — открытая платформа для запуска и воспроизведения оценок, позволяющая другим исследователям добавлять свои агенты и бенчмарки. Как один из первых результатов добавлены два открытых веса моделей: DeepSeek V3.2 и Kimi K2.5. Они показали конкурентные результаты на отдельных комбинациях, но пока отстают от закрытых моделей на 18–29% в среднем.
Что это значит Открытый бенчмарк для агентов — это шаг к стандартизации оценки.
По мере развития AI-агентов их архитектура (планирование, управление памятью, работа с инструментами, восстановление после ошибок) становится такой же важной, как выбор модели. Leaderboard делает эти различия видимыми и позволяет сообществу вместе строить лучшие системы.