Yandex comparou MCP e CLI+Skill para agentes de AI: 400 requisições e uma falha inesperada
A equipe da Yandex constatou: quando um agente de AI trabalha com APIs internas, a escolha da arquitetura afeta diretamente o consumo de tokens. Eles…
Processado por IA de Habr AI; editado por Hamidun News
A equipe de Serviços Urbanos do Yandex realizou um benchmark comparando duas formas de conectar um agente de IA a APIs internas — e descobriu que a escolha arquitetural afeta diretamente a eficiência no gasto de tokens.
O Problema: Tokens Não São Infinitos
Uma janela de contexto limitada — todos sabem disso. Mas poucos contam quantos tokens são gastos não na tarefa em si, mas na "embalagem": descrições de ferramentas, listas de parâmetros, resultados intermediários de chamadas. Em cenários complexos, esses custos gerais podem ocupar uma parte significativa do contexto disponível — e então o agente começa a cometer erros não porque o modelo é ruim, mas simplesmente porque não sobrou espaço útil.
Daniil Mikhailov da equipe de produtos parceiros do Yandex colocou a questão diretamente: como fazer mais enquanto se gasta menos tokens ao trabalhar com APIs internas reais?
MCP vs CLI + Skill
A equipe comparou duas formas de integrar um agente com ferramentas. MCP (Model Context Protocol) — um protocolo estruturado: o agente recebe uma descrição de cada ferramenta em formato explícito, as chamadas passam por uma camada padronizada. A vantagem — universalidade e esquema previsível. A desvantagem — cada descrição de ferramenta ocupa espaço no contexto integralmente.
CLI + Skill — uma abordagem alternativa: o agente acessa a linha de comando, e o conhecimento sobre ferramentas é embutido em uma "skill" compacta — uma instrução de prompt pré-escrita. A descrição é mais compacta, mas requer manutenção manual.
Para testar a hipótese extraída de pesquisas externas, montaram um benchmark:
- 14 cenários reais de trabalho com ferramentas internas do Yandex
- 2 modelos de linguagem
- Mais de 400 requisições
- Medições de precisão e gasto de tokens em cada cenário
O Momento em Que Tudo Quebrou
A descoberta mais valiosa veio não no final, mas no meio do experimento: o que funcionava de forma estável de repente parou de funcionar. De acordo com Mikhailov, essa falha se mostrou mais interessante que os números finais — foi necessário entender o porquê.
"Em certo ponto, tudo que funcionava quebrou — e isso se mostrou ser a parte mais interessante.
Tive que descobrir por quê."
Tais anomalias em benchmarks frequentemente expõem dependências ocultas: como o modelo interpreta o formato do esquema, como as ferramentas se comportam sob chamadas repetidas, como a estabilidade da saída varia com diferentes formulações da tarefa. Sem tal "momento de estresse", os resultados poderiam ter se mostrado ingenuamente otimistas.
Resultado: Uma Árvore de Decisão
Com base na série de experimentos, a equipe compilou uma árvore de decisão prática: quando MCP é mais lucrativo, e quando — CLI + Skill. Essa não é uma recomendação abstrata, mas uma conclusão a partir de dados reais — mais de 400 requisições em infraestrutura real.
O Que Isto Significa
Escolher uma forma de conectar um agente a uma API não é um capricho técnico. Isso afeta quantos tokens são desperdiçados, por quanto tempo o contexto dura e quão estável o agente se comporta em cenários não-padrão. Para equipes que constroem agentes de produtos em cima de sistemas internos, essa pesquisa fornece uma ferramenta concreta para escolher a arquitetura — não por razões de marketing, mas com base em medições reais.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.