Habr AI→ original

Yandex comparó MCP y CLI+Skill para agentes de AI: 400 solicitudes y un fallo inesperado

El equipo de Yandex concluyó que, al trabajar con APIs internas, la elección de la arquitectura de un agente de AI afecta directamente al consumo de tokens…

Procesado por IA desde Habr AI; editado por Hamidun News
Yandex comparó MCP y CLI+Skill para agentes de AI: 400 solicitudes y un fallo inesperado
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

El equipo de Servicios Urbanos de Yandex realizó un benchmark comparando dos formas de conectar un agente de IA a APIs internas — y descubrió que la elección arquitectónica afecta directamente a la eficiencia en el gasto de tokens.

El Problema: Los Tokens No Son Infinitos

Una ventana de contexto limitada — todos lo saben. Pero pocos cuentan cuántos tokens se gastan no en la tarea en sí, sino en el "envoltorio": descripciones de herramientas, listas de parámetros, resultados intermedios de llamadas. En escenarios complejos, estos costos generales pueden ocupar una parte significativa del contexto disponible — y entonces el agente comienza a cometer errores no porque el modelo sea malo, sino simplemente porque no quedó espacio útil.

Daniil Mikhailov del equipo de productos asociados de Yandex planteó la pregunta directamente: ¿cómo hacer más mientras se gasta menos tokens al trabajar con APIs internas reales?

MCP vs CLI + Skill

El equipo comparó dos formas de integrar un agente con herramientas. MCP (Model Context Protocol) — un protocolo estructurado: el agente recibe una descripción de cada herramienta en formato explícito, las llamadas pasan por una capa estandarizada. La ventaja — universalidad y esquema predecible. La desventaja — cada descripción de herramienta ocupa espacio en el contexto completamente.

CLI + Skill — un enfoque alternativo: el agente accede a la línea de comandos, y el conocimiento sobre herramientas se incrusta en una "skill" compacta — una instrucción de prompt pre-escrita. La descripción es más compacta, pero requiere mantenimiento manual.

Para probar la hipótesis extraída de investigaciones externas, armaron un benchmark:

  • 14 escenarios reales de trabajo con herramientas internas de Yandex
  • 2 modelos de lenguaje
  • Más de 400 solicitudes
  • Mediciones de precisión y gasto de tokens en cada escenario

El Momento en Que Todo Se Rompió

El descubrimiento más valioso no llegó al final, sino en la mitad del experimento: lo que funcionaba de forma estable de repente dejó de funcionar. Según Mikhailov, este fallo resultó ser más interesante que los números finales — tuvieron que entender por qué.

"En cierto punto, todo lo que funcionaba se rompió — y eso resultó ser la parte más interesante.

Tuve que averiguar por qué."

Tales anomalías en benchmarks a menudo exponen dependencias ocultas: cómo el modelo interpreta el formato del esquema, cómo se comportan las herramientas bajo llamadas repetidas, cuán estable es el resultado con diferentes formulaciones de tareas. Sin tal "momento de estrés", los resultados podrían haber resultado ingenuamente optimistas.

Resultado: Un Árbol de Decisión

Basándose en la serie de experimentos, el equipo compiló un árbol de decisión práctico: cuándo es más rentable MCP, y cuándo — CLI + Skill. Esta no es una recomendación abstracta, sino una conclusión a partir de datos reales — más de 400 solicitudes en infraestructura real.

Lo Que Esto Significa

Elegir una forma de conectar un agente a una API no es un capricho técnico. Afecta cuántos tokens se desperdician, cuánto tiempo dura el contexto y cuán estable se comporta el agente en escenarios no estándar. Para equipos que construyen agentes de productos sobre sistemas internos, esta investigación proporciona una herramienta concreta para elegir la arquitectura — no por razones de marketing, sino en base a mediciones reales.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…