Habr AI→ оригинал

Яндекс сравнил MCP и CLI+Skill для ИИ-агентов: 400 запросов и неожиданный сбой

Команда Яндекса выяснила: при работе ИИ-агента с внутренними API выбор архитектуры напрямую влияет на расход токенов. Сравнили MCP и CLI + Skill на 14…

AI-обработка оригинала Habr AI; редакция Hamidun News
Яндекс сравнил MCP и CLI+Skill для ИИ-агентов: 400 запросов и неожиданный сбой
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Команда Городских сервисов Яндекса провела бенчмарк, сравнив два способа подключить ИИ-агента к внутренним API — и обнаружила, что архитектурный выбор напрямую влияет на эффективность расходования токенов.

Проблема: токены не бесконечны Контекстное окно ограничено — это знают все.

Но мало кто считает, сколько токенов уходит не на саму задачу, а на «обвязку»: описания инструментов, перечни параметров, промежуточные результаты вызовов. В сложных сценариях эти накладные расходы могут занимать значительную долю доступного контекста — и тогда агент начинает ошибаться не потому, что плохая модель, а просто потому, что полезного пространства не осталось. Даниил Михайлов из команды партнёрских продуктов Яндекса поставил вопрос прямо: как делать больше, а расходовать меньше токенов при работе с реальными внутренними API?

MCP против CLI +

Skill Команда сравнила два способа интеграции агента с инструментами. MCP (Model Context Protocol) — структурированный протокол: агент получает описание каждого инструмента в явном формате, вызовы идут через стандартизированный слой. Плюс — универсальность и предсказуемая схема.

Минус — каждое описание инструмента занимает место в контексте целиком. CLI + Skill — альтернативный подход: агент обращается к командной строке, а знания об инструментах зашиты в компактный «скилл» — заранее написанный промпт-инструкцию. Описание компактнее, но его нужно поддерживать вручную.

Для проверки гипотезы, взятой из внешних исследований, собрали бенчмарк: 14 реальных сценариев работы с внутренними инструментами Яндекса 2 языковые модели Более 400 запросов Измерения точности и токеновых расходов в каждом сценарии ## Момент, когда всё сломалось Самое ценное случилось не в конце, а в середине эксперимента: то, что стабильно работало, внезапно перестало. По словам Михайлова, именно этот сбой оказался интереснее итоговых цифр — пришлось разбираться в причинах.

«В какой-то момент всё, что работало, сломалось — и это оказалось самым интересным.

Пришлось разбираться почему». Такие аномалии в бенчмарках часто обнажают скрытые зависимости: как модель интерпретирует формат схемы, как инструменты ведут себя при повторных вызовах, насколько стабилен вывод при разных формулировках задачи. Без такого «стрессового момента» результаты могли бы оказаться наивно оптимистичными.

Итог: дерево решений

По результатам серии экспериментов команда составила практическое дерево решений: когда выгоднее MCP, а когда — CLI + Skill. Это не абстрактная рекомендация, а вывод из реальных данных — более чем 400 запросов в реальной инфраструктуре.

Что это значит Выбор способа подключения агента к API — не технический каприз.

Он влияет на то, сколько токенов уходит впустую, как долго хватает контекста и насколько стабильно ведёт себя агент в нестандартных сценариях. Для команд, которые строят продуктовых агентов поверх внутренних систем, это исследование даёт конкретный инструмент выбора архитектуры — не из маркетинговых соображений, а из реальных замеров.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…