Яндекс сравнил MCP и CLI+Skill для ИИ-агентов: 400 запросов и неожиданный сбой
Команда Яндекса выяснила: при работе ИИ-агента с внутренними API выбор архитектуры напрямую влияет на расход токенов. Сравнили MCP и CLI + Skill на 14…
AI-обработка оригинала Habr AI; редакция Hamidun News
Команда Городских сервисов Яндекса провела бенчмарк, сравнив два способа подключить ИИ-агента к внутренним API — и обнаружила, что архитектурный выбор напрямую влияет на эффективность расходования токенов.
Проблема: токены не бесконечны Контекстное окно ограничено — это знают все.
Но мало кто считает, сколько токенов уходит не на саму задачу, а на «обвязку»: описания инструментов, перечни параметров, промежуточные результаты вызовов. В сложных сценариях эти накладные расходы могут занимать значительную долю доступного контекста — и тогда агент начинает ошибаться не потому, что плохая модель, а просто потому, что полезного пространства не осталось. Даниил Михайлов из команды партнёрских продуктов Яндекса поставил вопрос прямо: как делать больше, а расходовать меньше токенов при работе с реальными внутренними API?
MCP против CLI +
Skill Команда сравнила два способа интеграции агента с инструментами. MCP (Model Context Protocol) — структурированный протокол: агент получает описание каждого инструмента в явном формате, вызовы идут через стандартизированный слой. Плюс — универсальность и предсказуемая схема.
Минус — каждое описание инструмента занимает место в контексте целиком. CLI + Skill — альтернативный подход: агент обращается к командной строке, а знания об инструментах зашиты в компактный «скилл» — заранее написанный промпт-инструкцию. Описание компактнее, но его нужно поддерживать вручную.
Для проверки гипотезы, взятой из внешних исследований, собрали бенчмарк: 14 реальных сценариев работы с внутренними инструментами Яндекса 2 языковые модели Более 400 запросов Измерения точности и токеновых расходов в каждом сценарии ## Момент, когда всё сломалось Самое ценное случилось не в конце, а в середине эксперимента: то, что стабильно работало, внезапно перестало. По словам Михайлова, именно этот сбой оказался интереснее итоговых цифр — пришлось разбираться в причинах.
«В какой-то момент всё, что работало, сломалось — и это оказалось самым интересным.
Пришлось разбираться почему». Такие аномалии в бенчмарках часто обнажают скрытые зависимости: как модель интерпретирует формат схемы, как инструменты ведут себя при повторных вызовах, насколько стабилен вывод при разных формулировках задачи. Без такого «стрессового момента» результаты могли бы оказаться наивно оптимистичными.
Итог: дерево решений
По результатам серии экспериментов команда составила практическое дерево решений: когда выгоднее MCP, а когда — CLI + Skill. Это не абстрактная рекомендация, а вывод из реальных данных — более чем 400 запросов в реальной инфраструктуре.
Что это значит Выбор способа подключения агента к API — не технический каприз.
Он влияет на то, сколько токенов уходит впустую, как долго хватает контекста и насколько стабильно ведёт себя агент в нестандартных сценариях. Для команд, которые строят продуктовых агентов поверх внутренних систем, это исследование даёт конкретный инструмент выбора архитектуры — не из маркетинговых соображений, а из реальных замеров.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.