LangChain Blog→ original

LangGraph suma tolerancia a fallos: reintentos, timeouts y manejadores de errores para agentes de producción

LangChain publicó un análisis detallado de tres primitivos de tolerancia a fallos integrados en LangGraph. RetryPolicy proporciona reintentos automáticos con…

Procesado por IA desde LangChain Blog; editado por Hamidun News
LangGraph suma tolerancia a fallos: reintentos, timeouts y manejadores de errores para agentes de producción
Fuente: LangChain Blog. Collage: Hamidun News.
◐ Escuchar artículo

LangChain publicó una guía detallada sobre tres primitivos de resiliencia integrados de LangGraph — sin ellos, cualquier agente de producción inevitablemente falla donde el prototipo funcionaba como un reloj.

Por qué los prototipos fallan en producción

En condiciones de laboratorio, un agente LangGraph se ve confiable: los datos de entrada son fijos, las APIs externas responden rápidamente, el usuario siempre está disponible. En operación real, el panorama es diferente. Los servicios externos se cuelgan o devuelven 503 bajo carga.

Los proveedores de LLM en la demanda máxima retrasan las respuestas minutos. En escenarios human-in-the-loop, una persona puede no responder durante horas. Cada uno de estos casos, sin manejo especial, se convierte en un agente colgado o caído.

La solución clásica — envolver cada llamada en try/except, escribir timers, agregar lógica de reintentos manualmente. Esto funciona, pero el código defensivo crece, se mezcla con la lógica de negocio y se convierte en una fuente de errores. LangGraph ofrece un enfoque diferente: tres primitivos integrados en el motor y funcionando declarativamente.

RetryPolicy: intentos de reintentos automáticos **RetryPolicy**

configura intentos de reintentos automáticos con retroceso exponencial. Parámetros configurables: número máximo de intentos, retraso inicial, retraso máximo y su coeficiente de crecimiento entre intentos. La política puede configurarse puntualmente — para un nodo específico que llama a una API externa inestable — o aplicarse a todo el gráfico como predeterminado global. La segunda opción es conveniente cuando toda interacción con servicios externos debe seguir reglas de recuperación unificadas.

TimeoutPolicy: límites de tiempo **TimeoutPolicy** resuelve una tarea

diferente — limita el tiempo que un nodo tiene permitido usar. Se admiten dos tipos de límites: `wall_clock_timeout` — tiempo máximo transcurrido para la ejecución del nodo desde el inicio hasta la finalización `idle_timeout` — tiempo máximo de inactividad. Particularmente importante en escenarios human-in-the-loop: si el usuario no respondió en N minutos, el agente debe continuar por una rama alternativa o completarse con error Ambos límites pueden combinarse en una política — se activará lo que suceda primero Cuando se excede el límite, el motor genera automáticamente una excepción * La política es aplicable a un nodo, subgráfico o gráfico completo La ventaja clave de ambos primitivos — viven dentro del motor y ven el contexto completo del estado del gráfico.

Los decoradores y wrappers externos no pueden hacer esto.

error_handler y el patrón SAGA **error_handler** — el tercer

primitivo, que se activa después de que se agotan todos los reintentos. Este es el punto final de recuperación: deshacer acciones ya completadas, enviar notificaciones, guardar diagnósticos, mover el agente a un estado seguro. Para agentes de múltiples pasos con efectos secundarios reales — reserva de recursos, deducción de fondos, creación de registros en sistemas externos — LangChain recomienda el patrón SAGA.

La idea: cada paso del agente va acompañado de una operación compensatoria que deshace su efecto. Si el paso N falla después de la finalización exitosa de los pasos 1 a N-1, las operaciones compensatorias se inician en orden inverso — el sistema vuelve a un estado consistente. LangGraph permite incrustar SAGA directamente en el gráfico: las compensaciones se almacenan junto a los nodos, y error_handler ejecuta su cadena en caso de fallo.

"Tener políticas de resiliencia dentro del motor, no fuera — es una diferencia fundamental: la lógica de recuperación obtiene el contexto completo del estado del gráfico," — blog

LangChain.

Qué significa esto

LangGraph ofrece herramientas maduras para trasladar agentes de IA de prototipo a operación en el mundo real. Los reintentos, timeouts y transacciones compensatorias están integrados en el motor y no requieren envolver manualmente cada nodo. Para equipos que construyen agentes bajo cargas de producción, esto reduce el volumen de código defensivo y hace que el comportamiento ante fallos sea predecible y controlable.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…