Yandex comparó MCP y CLI+Skill para agentes de AI: 400 solicitudes y un fallo inesperado
El equipo de Yandex concluyó que, al trabajar con APIs internas, la elección de la arquitectura de un agente de AI afecta directamente al consumo de tokens…
Procesado por IA desde Habr AI; editado por Hamidun News
El equipo de Servicios Urbanos de Yandex realizó un benchmark comparando dos formas de conectar un agente de IA a APIs internas — y descubrió que la elección arquitectónica afecta directamente a la eficiencia en el gasto de tokens.
El Problema: Los Tokens No Son Infinitos
Una ventana de contexto limitada — todos lo saben. Pero pocos cuentan cuántos tokens se gastan no en la tarea en sí, sino en el "envoltorio": descripciones de herramientas, listas de parámetros, resultados intermedios de llamadas. En escenarios complejos, estos costos generales pueden ocupar una parte significativa del contexto disponible — y entonces el agente comienza a cometer errores no porque el modelo sea malo, sino simplemente porque no quedó espacio útil.
Daniil Mikhailov del equipo de productos asociados de Yandex planteó la pregunta directamente: ¿cómo hacer más mientras se gasta menos tokens al trabajar con APIs internas reales?
MCP vs CLI + Skill
El equipo comparó dos formas de integrar un agente con herramientas. MCP (Model Context Protocol) — un protocolo estructurado: el agente recibe una descripción de cada herramienta en formato explícito, las llamadas pasan por una capa estandarizada. La ventaja — universalidad y esquema predecible. La desventaja — cada descripción de herramienta ocupa espacio en el contexto completamente.
CLI + Skill — un enfoque alternativo: el agente accede a la línea de comandos, y el conocimiento sobre herramientas se incrusta en una "skill" compacta — una instrucción de prompt pre-escrita. La descripción es más compacta, pero requiere mantenimiento manual.
Para probar la hipótesis extraída de investigaciones externas, armaron un benchmark:
- 14 escenarios reales de trabajo con herramientas internas de Yandex
- 2 modelos de lenguaje
- Más de 400 solicitudes
- Mediciones de precisión y gasto de tokens en cada escenario
El Momento en Que Todo Se Rompió
El descubrimiento más valioso no llegó al final, sino en la mitad del experimento: lo que funcionaba de forma estable de repente dejó de funcionar. Según Mikhailov, este fallo resultó ser más interesante que los números finales — tuvieron que entender por qué.
"En cierto punto, todo lo que funcionaba se rompió — y eso resultó ser la parte más interesante.
Tuve que averiguar por qué."
Tales anomalías en benchmarks a menudo exponen dependencias ocultas: cómo el modelo interpreta el formato del esquema, cómo se comportan las herramientas bajo llamadas repetidas, cuán estable es el resultado con diferentes formulaciones de tareas. Sin tal "momento de estrés", los resultados podrían haber resultado ingenuamente optimistas.
Resultado: Un Árbol de Decisión
Basándose en la serie de experimentos, el equipo compiló un árbol de decisión práctico: cuándo es más rentable MCP, y cuándo — CLI + Skill. Esta no es una recomendación abstracta, sino una conclusión a partir de datos reales — más de 400 solicitudes en infraestructura real.
Lo Que Esto Significa
Elegir una forma de conectar un agente a una API no es un capricho técnico. Afecta cuántos tokens se desperdician, cuánto tiempo dura el contexto y cuán estable se comporta el agente en escenarios no estándar. Para equipos que construyen agentes de productos sobre sistemas internos, esta investigación proporciona una herramienta concreta para elegir la arquitectura — no por razones de marketing, sino en base a mediciones reales.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.