IBM Research a analysé où les agents AI échouent face aux API, aux documents et aux règles dans VAKRA
IBM Research a analysé pourquoi les modèles d'agents échouent non pas sur un seul appel d'outil, mais sur de longues chaînes d'actions. Dans VAKRA, les agents r

IBM Research подробно разобрала, почему даже сильные языковые модели всё ещё сыплются на задачах для агентных систем. Новый анализ бенчмарка VAKRA показывает: красиво вызвать один API недостаточно — проблемы начинаются там, где нужно пройти несколько шагов, выбрать правильный источник данных и не нарушить правила использования инструментов.
Как устроен VAKRA VAKRA — это исполняемый бенчмарк для корпоративных агентов.
Вместо игрушечных вызовов функций он даёт моделям рабочую среду с более чем 8 тысячами локально размещённых API, реальными базами данных в 62 доменах и коллекциями документов под конкретные предметные области. Типичный сценарий требует не одного ответа, а цепочки из 3–7 шагов: получить данные, выбрать нужный инструмент, вытащить факт из документа, передать результат в следующий вызов и только потом собрать итоговый ответ. Ключевая идея в том, что VAKRA оценивает не только финальную реплику модели, но и всю траекторию её действий.
Для сложных задач система сначала проверяет, соблюдал ли агент текстовые ограничения на использование инструментов, затем переигрывает его вызовы в той же среде, сравнивает промежуточные результаты с эталоном и лишь потом оценивает конечный ответ. Такой подход важен, потому что агент может случайно угадать финальный вывод, но при этом прийти к нему неправильным путём — а для продакшена это почти бесполезно.
Четыре типа задач
Авторы делят VAKRA на четыре режима, и каждый проверяет отдельный слой агентного поведения. Вместе они покрывают путь от простого API-chaining до многошагового reasoning по API и документам с внешними ограничениями. Это важно, потому что многие агенты выглядят уверенно на одиночных вызовах, но быстро теряются, когда нужно одновременно планировать шаги, переключаться между источниками, держать контекст диалога и помнить о правилах доступа к инструментам.
Business Intelligence APIs: 2 077 задач в 54 доменах, где агенту нужно последовательно вызывать 1–12 инструментов и аккуратно работать с параметрами и фильтрацией данных. Dashboard APIs: 1 597 задач в 17 доменах, где основная сложность — выбрать правильный endpoint среди 6–328 доступных инструментов. * Multi-hop over APIs: 869 задач в 38 доменах, где ответ собирается через несколько логических переходов, от одного до пяти.
* Multi-source + policies: 644 задачи в 41 домене, где агент чередует API и поиск по документам, учитывает историю диалога и соблюдает текстовые правила вроде «используй только retriever, не трогай другие инструменты».
Где агенты ошибаются Самая полезная часть статьи — разбор того, где именно ломаются модели.
Авторы делят ошибки по стадиям: выбор неправильного инструмента, пропуск нужных аргументов или галлюцинации в них, неверные значения параметров и, наконец, неправильный финальный ответ даже после корректных вызовов. На сегменте с BI API лучшим оказался GPT-OSS-120B: он заметно лучше других понимал схемы инструментов и реже ошибался в именах и заполнении параметров. Но даже там успех на отдельных шагах не гарантировал стабильный end-to-end результат.
На задачах с большим набором dashboard API лучше остальных выступил Gemini-3-flash-preview, что логично: там важнее всего shortlist инструментов и точный выбор endpoint. Как только глубина рассуждения росла, качество у всех моделей падало: 2-hop и особенно 3+ hop вопросы заметно просаживали точность. Ещё хуже становилось, когда нужно было комбинировать API с document retrieval.
Авторы отдельно отмечают показательный сбой: на части 1-hop RAG задач GPT-OSS-120B иногда вообще не вызывал retriever и пытался ответить «по памяти», что в таком бенчмарке считается ошибкой. Политики добавляли ещё один слой сложности: модели либо нарушали ограничения, либо соблюдали их, но не добирали нужную информацию для ответа.
Что это значит VAKRA показывает неприятную, но полезную правду про
агентные системы: умение сделать красивый demo с tool calling ещё не означает готовность к реальным бизнес-процессам. Для команд, которые выбирают модель под support, аналитику, compliance или внутренние workflow, главный вопрос теперь не «умеет ли она вызывать инструменты», а «сохраняет ли она корректную цепочку действий под ограничениями, через несколько источников и без самоуверенных shortcut-ов».