Hugging Face запустила Open Agent Leaderboard для оценки AI-агентов

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

Hugging Face выпустила Open Agent Leaderboard — первый открытый бенчмарк для оценки полных AI-агентов, а не просто моделей. Он тестирует системы на коде, веб-по

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-05-21· 3 мин

Hugging Face запустила Open Agent Leaderboard для оценки AI-агентов — Источник: Hugging Face Blog. Коллаж: Hamidun News.

◐ Слушать статью

Hugging Face и IBM Research представили Open Agent Leaderboard — первый открытый бенчмарк для оценки полных агентских систем, а не отдельных моделей. Исследование показало, что качество работы AI-агента зависит не столько от модели, сколько от того, как его построили.

Что тестирует бенчмарк

Открытый бенчмарк включает шесть различных наборов задач: Исправление реальных багов в кодовых репозиториях (SWE-Bench Verified) Сложный веб-поиск и сбор информации (BrowseComp+) Выполнение личных задач в сотнях приложений (AppWorld) Поддержка клиентов авиакомпании и розницы (tau2-Bench) * Техническая поддержка с соблюдением политик компании (Telecom) Все тесты работают по единому протоколу: одинаковая структура задачи, контекст и доступные инструменты. Это позволяет сравнивать агентов справедливо, не требуя их переделки под каждый бенчмарк.

Главное открытие: агент важнее модели Анализ показал неожиданный результат.

Одна и та же модель, встроенная в разные агентские архитектуры, показывает совершенно разные результаты — и по качеству, и по стоимости выполнения. Причём неудачные попытки стоят на 20–54% дороже успешных из-за повторных запросов к модели. Общего-назначенные агенты оказались конкурентоспособны со специализированными системами, разработанными под конкретные задачи. Это особенно важно, потому что специальные агенты сложнее деплоить в реальном мире.

«Сегодня выбор модели объясняет большинство результатов.

Но архитектура агента уже начинает менять исход» — вывод исследователей.

Что сейчас открыто для сообщества

Hugging Face выпустила несколько ресурсов для разработчиков. Open Agent Leaderboard — интерактивная таблица с результатами всех тестов. Exgentic — открытая платформа для запуска и воспроизведения оценок, позволяющая другим исследователям добавлять свои агенты и бенчмарки. Как один из первых результатов добавлены два открытых веса моделей: DeepSeek V3.2 и Kimi K2.5. Они показали конкурентные результаты на отдельных комбинациях, но пока отстают от закрытых моделей на 18–29% в среднем.

Что это значит Открытый бенчмарк для агентов — это шаг к стандартизации оценки.

По мере развития AI-агентов их архитектура (планирование, управление памятью, работа с инструментами, восстановление после ошибок) становится такой же важной, как выбор модели. Leaderboard делает эти различия видимыми и позволяет сообществу вместе строить лучшие системы.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com