IBM Research analyzed where AI agents break down on APIs, documents, and rules in VAKRA
IBM Research analyzed why agentic models break down not on a single tool call, but across long chains of actions. In VAKRA, agents get 8,000 APIs, documents, di

IBM Research подробно разобрала, почему даже сильные языковые модели всё ещё сыплются на задачах для агентных систем. Новый анализ бенчмарка VAKRA показывает: красиво вызвать один API недостаточно — проблемы начинаются там, где нужно пройти несколько шагов, выбрать правильный источник данных и не нарушить правила использования инструментов.
Как устроен VAKRA VAKRA — это исполняемый бенчмарк для корпоративных агентов.
Вместо игрушечных вызовов функций он даёт моделям рабочую среду с более чем 8 тысячами локально размещённых API, реальными базами данных в 62 доменах и коллекциями документов под конкретные предметные области. Типичный сценарий требует не одного ответа, а цепочки из 3–7 шагов: получить данные, выбрать нужный инструмент, вытащить факт из документа, передать результат в следующий вызов и только потом собрать итоговый ответ. Ключевая идея в том, что VAKRA оценивает не только финальную реплику модели, но и всю траекторию её действий.
Для сложных задач система сначала проверяет, соблюдал ли агент текстовые ограничения на использование инструментов, затем переигрывает его вызовы в той же среде, сравнивает промежуточные результаты с эталоном и лишь потом оценивает конечный ответ. Такой подход важен, потому что агент может случайно угадать финальный вывод, но при этом прийти к нему неправильным путём — а для продакшена это почти бесполезно.
Четыре типа задач
Авторы делят VAKRA на четыре режима, и каждый проверяет отдельный слой агентного поведения. Вместе они покрывают путь от простого API-chaining до многошагового reasoning по API и документам с внешними ограничениями. Это важно, потому что многие агенты выглядят уверенно на одиночных вызовах, но быстро теряются, когда нужно одновременно планировать шаги, переключаться между источниками, держать контекст диалога и помнить о правилах доступа к инструментам.
Business Intelligence APIs: 2 077 задач в 54 доменах, где агенту нужно последовательно вызывать 1–12 инструментов и аккуратно работать с параметрами и фильтрацией данных. Dashboard APIs: 1 597 задач в 17 доменах, где основная сложность — выбрать правильный endpoint среди 6–328 доступных инструментов. * Multi-hop over APIs: 869 задач в 38 доменах, где ответ собирается через несколько логических переходов, от одного до пяти.
* Multi-source + policies: 644 задачи в 41 домене, где агент чередует API и поиск по документам, учитывает историю диалога и соблюдает текстовые правила вроде «используй только retriever, не трогай другие инструменты».
Где агенты ошибаются Самая полезная часть статьи — разбор того, где именно ломаются модели.
Авторы делят ошибки по стадиям: выбор неправильного инструмента, пропуск нужных аргументов или галлюцинации в них, неверные значения параметров и, наконец, неправильный финальный ответ даже после корректных вызовов. На сегменте с BI API лучшим оказался GPT-OSS-120B: он заметно лучше других понимал схемы инструментов и реже ошибался в именах и заполнении параметров. Но даже там успех на отдельных шагах не гарантировал стабильный end-to-end результат.
На задачах с большим набором dashboard API лучше остальных выступил Gemini-3-flash-preview, что логично: там важнее всего shortlist инструментов и точный выбор endpoint. Как только глубина рассуждения росла, качество у всех моделей падало: 2-hop и особенно 3+ hop вопросы заметно просаживали точность. Ещё хуже становилось, когда нужно было комбинировать API с document retrieval.
Авторы отдельно отмечают показательный сбой: на части 1-hop RAG задач GPT-OSS-120B иногда вообще не вызывал retriever и пытался ответить «по памяти», что в таком бенчмарке считается ошибкой. Политики добавляли ещё один слой сложности: модели либо нарушали ограничения, либо соблюдали их, но не добирали нужную информацию для ответа.
Что это значит VAKRA показывает неприятную, но полезную правду про
агентные системы: умение сделать красивый demo с tool calling ещё не означает готовность к реальным бизнес-процессам. Для команд, которые выбирают модель под support, аналитику, compliance или внутренние workflow, главный вопрос теперь не «умеет ли она вызывать инструменты», а «сохраняет ли она корректную цепочку действий под ограничениями, через несколько источников и без самоуверенных shortcut-ов».