Habr AI→ original

Anthropic, OpenAI y LangChain explicaron por qué los agentes de IA necesitan un harness

Las grandes empresas de IA compiten cada vez menos solo en modelos y cada vez más en la calidad del agent harness. La orquestración, la memoria, el control…

Procesado por IA desde Habr AI; editado por Hamidun News
Anthropic, OpenAI y LangChain explicaron por qué los agentes de IA necesitan un harness
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

El principal problema de los agentes de IA modernos no está en la calidad del modelo base, sino en la capa que lo rodea: orquestación, memoria, gestión de contexto y operación confiable de herramientas. Esta capa, cada vez más llamada agent harness, transforma un LLM sin estado de una demostración impresionante en un sistema capaz de ejecutar de forma confiable largas cadenas de acciones, sobrevivir a errores y entregar resultados. En la etapa inicial, muchos equipos se limitan a una interfaz de chat, algunas llamadas de herramientas y un simple ciclo ReAct.

Para un prototipo, esto es suficiente: el modelo razona, selecciona una herramienta, obtiene una respuesta y continúa el diálogo. Pero en escenarios de producción, los fallos del sistema surgen rápidamente. El agente olvida qué hizo hace dos o tres pasos, repite las mismas llamadas, pierde resultados intermedios y la ventana de contexto se llena de ruido aleatorio.

Hay un problema separado relacionado con las herramientas: pueden devolver formatos inesperados, responder con retrasos o fallar sin razón clara. Si no hay una capa de control, logging y recuperación sobre esto, la calidad del sistema está determinada no por la inteligencia del modelo, sino por la fragilidad del wrapper. Por eso grandes actores como Anthropic, OpenAI, Perplexity y LangChain están construyendo no solo nuevos modelos, sino una infraestructura de agentes completa.

En el centro de esta infraestructura está el ciclo de orquestación: decide cuándo el modelo necesita pensar de nuevo, cuándo llamar a una herramienta, qué guardar en memoria, qué devolver al usuario y cuándo parar. Esencialmente, el harness actúa como un sistema operativo para el agente. Establece reglas de ejecución, monitorea el estado de la sesión, enruta acciones entre el modelo y servicios externos, y reduce la probabilidad de que el agente entre en un bucle infinito o pierda de vista el objetivo de la tarea.

Ciertos componentes de este enfoque ya pueden considerarse obligatorios. Primero, gestión de herramientas: descripciones de interfaces, validación de entrada, reintentos, timeouts y manejo de errores. Segundo, memoria en múltiples capas: memoria a corto plazo para la tarea actual, memoria de trabajo para resultados intermedios y memoria a largo plazo para preferencias, reglas y experiencia acumulada. Tercero, control de contexto: selección de fragmentos realmente importantes, compresión de historial, eliminación de basura y pasar al modelo solo lo que afecta el siguiente paso. Cuando estos mecanismos están ausentes, incluso un LLM fuerte se degrada conforme crece la longitud de la tarea. Cuando están presentes, el mismo modelo comienza a funcionar notablemente más confiable.

Otra capa importante del harness está relacionada con la observabilidad y evaluación de calidad. No es suficiente que el desarrollador sepa que la respuesta salió mal; necesita ver toda la ruta del agente: qué prompt se envió al modelo, qué herramienta fue llamada, qué respuesta se devolvió, dónde surgió el error y por qué se eligió el siguiente paso. Sin esto, es imposible depurar adecuadamente el comportamiento del agente y mejorar el sistema iterativamente. Por eso los stacks maduros agregan trazas, métricas, ejecución en sandbox, checkpoints manuales y mecanismos human-in-the-loop para acciones riesgosas.

El efecto práctico es revelador. El artículo cita un ejemplo de LangChain: la empresa mejoró no los pesos del modelo en sí, sino la infraestructura alrededor de él, y esto fue suficiente para subir dramáticamente en TerminalBench 2.0, de posiciones fuera de los treinta primeros al quinto lugar. Otro resultado es aún más interesante: en un proyecto de investigación, se utilizó un LLM para optimizar su propia infraestructura de agente, y el sistema logró una tasa de éxito del 76,4%, superando soluciones ensambladas manualmente. Esta es una señal importante para el mercado.

La competencia se está desplazando de la pregunta "qué modelo es más inteligente" a "qué entorno de ejecución ayuda mejor al modelo a pensar, recordar, planificar y corregirse a sí mismo". Para desarrolladores y equipos de producto, la conclusión es directa: si quieres un agente funcional en lugar de un bot de juguete, necesitas invertir no solo en la selección del modelo, sino en el harness. Los ganadores serán quienes mejor organicen el ciclo de ejecución, memoria, contexto, observabilidad y tolerancia a fallos.

En el futuro próximo, la calidad de este wrapper, no otro salto en benchmarks, será la principal diferencia entre una bella demostración y un sistema en el que puedas confiar para trabajo real.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…