Habr AI→ original

Yandex comparou MCP e CLI+Skill para agentes de AI: 400 requisições e uma falha inesperada

A equipe da Yandex constatou: quando um agente de AI trabalha com APIs internas, a escolha da arquitetura afeta diretamente o consumo de tokens. Eles…

Processado por IA de Habr AI; editado por Hamidun News
Yandex comparou MCP e CLI+Skill para agentes de AI: 400 requisições e uma falha inesperada
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A equipe de Serviços Urbanos do Yandex realizou um benchmark comparando duas formas de conectar um agente de IA a APIs internas — e descobriu que a escolha arquitetural afeta diretamente a eficiência no gasto de tokens.

O Problema: Tokens Não São Infinitos

Uma janela de contexto limitada — todos sabem disso. Mas poucos contam quantos tokens são gastos não na tarefa em si, mas na "embalagem": descrições de ferramentas, listas de parâmetros, resultados intermediários de chamadas. Em cenários complexos, esses custos gerais podem ocupar uma parte significativa do contexto disponível — e então o agente começa a cometer erros não porque o modelo é ruim, mas simplesmente porque não sobrou espaço útil.

Daniil Mikhailov da equipe de produtos parceiros do Yandex colocou a questão diretamente: como fazer mais enquanto se gasta menos tokens ao trabalhar com APIs internas reais?

MCP vs CLI + Skill

A equipe comparou duas formas de integrar um agente com ferramentas. MCP (Model Context Protocol) — um protocolo estruturado: o agente recebe uma descrição de cada ferramenta em formato explícito, as chamadas passam por uma camada padronizada. A vantagem — universalidade e esquema previsível. A desvantagem — cada descrição de ferramenta ocupa espaço no contexto integralmente.

CLI + Skill — uma abordagem alternativa: o agente acessa a linha de comando, e o conhecimento sobre ferramentas é embutido em uma "skill" compacta — uma instrução de prompt pré-escrita. A descrição é mais compacta, mas requer manutenção manual.

Para testar a hipótese extraída de pesquisas externas, montaram um benchmark:

  • 14 cenários reais de trabalho com ferramentas internas do Yandex
  • 2 modelos de linguagem
  • Mais de 400 requisições
  • Medições de precisão e gasto de tokens em cada cenário

O Momento em Que Tudo Quebrou

A descoberta mais valiosa veio não no final, mas no meio do experimento: o que funcionava de forma estável de repente parou de funcionar. De acordo com Mikhailov, essa falha se mostrou mais interessante que os números finais — foi necessário entender o porquê.

"Em certo ponto, tudo que funcionava quebrou — e isso se mostrou ser a parte mais interessante.

Tive que descobrir por quê."

Tais anomalias em benchmarks frequentemente expõem dependências ocultas: como o modelo interpreta o formato do esquema, como as ferramentas se comportam sob chamadas repetidas, como a estabilidade da saída varia com diferentes formulações da tarefa. Sem tal "momento de estresse", os resultados poderiam ter se mostrado ingenuamente otimistas.

Resultado: Uma Árvore de Decisão

Com base na série de experimentos, a equipe compilou uma árvore de decisão prática: quando MCP é mais lucrativo, e quando — CLI + Skill. Essa não é uma recomendação abstrata, mas uma conclusão a partir de dados reais — mais de 400 requisições em infraestrutura real.

O Que Isto Significa

Escolher uma forma de conectar um agente a uma API não é um capricho técnico. Isso afeta quantos tokens são desperdiçados, por quanto tempo o contexto dura e quão estável o agente se comporta em cenários não-padrão. Para equipes que constroem agentes de produtos em cima de sistemas internos, essa pesquisa fornece uma ferramenta concreta para escolher a arquitetura — não por razões de marketing, mas com base em medições reais.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…