Hugging Face Blog→ оригинал

IBM и Artificial Analysis создали бенчмарк: AI-агенты не справились с IT-задачами

Большие модели провалили новый тест. IBM и Artificial Analysis представили ITBench-AA — первый бенчмарк для AI-агентов в корпоративных IT-окружениях. Передовые

IBM и Artificial Analysis создали бенчмарк: AI-агенты не справились с IT-задачами
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

IBM и Artificial Analysis представили ITBench-AA — первый комплексный бенчмарк для оценки способности AI-агентов решать реальные задачи в корпоративных IT-окружениях. Результаты удручают: ведущие модели набрали менее 50%. Это означает, что мечта о самостоятельных AI-инженерах остаётся мечтой.

Что тестировал ITBench-AA

Бенчмарк включал сценарии из реальной жизни IT-операций: настройка сетевых инфраструктур, управление базами данных, отладка ошибок в production-системах, развёртывание приложений, мониторинг и оптимизация ресурсов. Это не простые письменные задачи, где нужно дать правильный ответ. Здесь AI должен действовать как полноценный инженер: взаимодействовать с интерфейсами систем, анализировать логи ошибок, принимать решения в условиях неопределённости, корректировать подход, если первая попытка не сработала. Тестировали передовые модели: GPT-4, Claude 3 Opus, Gemini Ultra и другие. Результаты примерно одинаковые: все справились на уровне 45–50%. Ещё более примечательно, что при попытках выполнить сложные многошаговые процедуры агенты часто застревали или совершали критические ошибки.

В чём настоящая проблема Цифра 50% — это не просто низкий результат.

Это сигнал о фундаментальных ограничениях. IT-работы требуют не только обширных знаний, но и качеств, которыми AI пока обладает непостоянно: Безошибочность — одна ошибка может вывести из строя систему для тысяч пользователей Последовательность мышления — многошаговые процедуры требуют чёткого следования логике Контекстное понимание — знать не просто что делать, но почему каждый шаг критичен Адаптация на лету — когда стандартная инструкция не подходит из-за специфики окружения * Ответственность — способность отступить и попросить помощь человека, если неуверен Агенты в текущем виде — это скорее системы, которые могут помочь, но требуют постоянного надзора и валидации результатов.

Переоценка ожиданий ITBench-AA уже влияет на стратегии компаний.

Иллюзия о «цифровых работниках, которые заменят IT-отдел за месяц» рассеивается. Вместо этого растёт спрос на более реалистичные решения: партнёрство человека и AI, где агент берёт на себя рутину (обновление конфигов, базовый мониторинг, логирование), а инженер сохраняет контроль над критичными операциями. Бенчмарк также впервые создаёт общепризнанный стандарт для оценки агентов. ITBench-AA станет инструментом для разработчиков моделей, чтобы понять, над чем работать в следующих версиях.

Что это значит AI развивается, но эволюция идёт медленнее, чем обещают стартапы.

Хорошая новость для IT-специалистов: ваша компетентность остаётся дефицитным ресурсом. Для компаний это сигнал: полная автоматизация IT-задач — это не проект на год-два. Для разработчиков моделей — это конкретная дорожная карта улучшений.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…