Hugging Face Blog→ оригинал

IBM Research a analysé où les agents AI échouent face aux API, aux documents et aux règles dans VAKRA

IBM Research a analysé pourquoi les modèles d'agents échouent non pas sur un seul appel d'outil, mais sur de longues chaînes d'actions. Dans VAKRA, les agents r

IBM Research a analysé où les agents AI échouent face aux API, aux documents et aux règles dans VAKRA
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

IBM Research подробно разобрала, почему даже сильные языковые модели всё ещё сыплются на задачах для агентных систем. Новый анализ бенчмарка VAKRA показывает: красиво вызвать один API недостаточно — проблемы начинаются там, где нужно пройти несколько шагов, выбрать правильный источник данных и не нарушить правила использования инструментов.

Как устроен VAKRA VAKRA — это исполняемый бенчмарк для корпоративных агентов.

Вместо игрушечных вызовов функций он даёт моделям рабочую среду с более чем 8 тысячами локально размещённых API, реальными базами данных в 62 доменах и коллекциями документов под конкретные предметные области. Типичный сценарий требует не одного ответа, а цепочки из 3–7 шагов: получить данные, выбрать нужный инструмент, вытащить факт из документа, передать результат в следующий вызов и только потом собрать итоговый ответ. Ключевая идея в том, что VAKRA оценивает не только финальную реплику модели, но и всю траекторию её действий.

Для сложных задач система сначала проверяет, соблюдал ли агент текстовые ограничения на использование инструментов, затем переигрывает его вызовы в той же среде, сравнивает промежуточные результаты с эталоном и лишь потом оценивает конечный ответ. Такой подход важен, потому что агент может случайно угадать финальный вывод, но при этом прийти к нему неправильным путём — а для продакшена это почти бесполезно.

Четыре типа задач

Авторы делят VAKRA на четыре режима, и каждый проверяет отдельный слой агентного поведения. Вместе они покрывают путь от простого API-chaining до многошагового reasoning по API и документам с внешними ограничениями. Это важно, потому что многие агенты выглядят уверенно на одиночных вызовах, но быстро теряются, когда нужно одновременно планировать шаги, переключаться между источниками, держать контекст диалога и помнить о правилах доступа к инструментам.

Business Intelligence APIs: 2 077 задач в 54 доменах, где агенту нужно последовательно вызывать 1–12 инструментов и аккуратно работать с параметрами и фильтрацией данных. Dashboard APIs: 1 597 задач в 17 доменах, где основная сложность — выбрать правильный endpoint среди 6–328 доступных инструментов. * Multi-hop over APIs: 869 задач в 38 доменах, где ответ собирается через несколько логических переходов, от одного до пяти.

* Multi-source + policies: 644 задачи в 41 домене, где агент чередует API и поиск по документам, учитывает историю диалога и соблюдает текстовые правила вроде «используй только retriever, не трогай другие инструменты».

Где агенты ошибаются Самая полезная часть статьи — разбор того, где именно ломаются модели.

Авторы делят ошибки по стадиям: выбор неправильного инструмента, пропуск нужных аргументов или галлюцинации в них, неверные значения параметров и, наконец, неправильный финальный ответ даже после корректных вызовов. На сегменте с BI API лучшим оказался GPT-OSS-120B: он заметно лучше других понимал схемы инструментов и реже ошибался в именах и заполнении параметров. Но даже там успех на отдельных шагах не гарантировал стабильный end-to-end результат.

На задачах с большим набором dashboard API лучше остальных выступил Gemini-3-flash-preview, что логично: там важнее всего shortlist инструментов и точный выбор endpoint. Как только глубина рассуждения росла, качество у всех моделей падало: 2-hop и особенно 3+ hop вопросы заметно просаживали точность. Ещё хуже становилось, когда нужно было комбинировать API с document retrieval.

Авторы отдельно отмечают показательный сбой: на части 1-hop RAG задач GPT-OSS-120B иногда вообще не вызывал retriever и пытался ответить «по памяти», что в таком бенчмарке считается ошибкой. Политики добавляли ещё один слой сложности: модели либо нарушали ограничения, либо соблюдали их, но не добирали нужную информацию для ответа.

Что это значит VAKRA показывает неприятную, но полезную правду про

агентные системы: умение сделать красивый demo с tool calling ещё не означает готовность к реальным бизнес-процессам. Для команд, которые выбирают модель под support, аналитику, compliance или внутренние workflow, главный вопрос теперь не «умеет ли она вызывать инструменты», а «сохраняет ли она корректную цепочку действий под ограничениями, через несколько источников и без самоуверенных shortcut-ов».

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…