Agentes

Patrón ReAct

ReAct (Reasoning + Acting) es un marco de avisos para agentes de IA que intercala pasos de razonamiento de cadena de pensamiento con acciones discretas de uso de herramientas, permitiendo que el modelo observe el resultado de cada acción y actualice su razonamiento antes de proceder.

ReAct es una arquitectura de agente que alterna entre dos tipos de operación: Razonamiento (generar un pensamiento en lenguaje natural sobre la situación actual y qué hacer a continuación) y Actuación (ejecutar una operación concreta como búsqueda web, consulta de base de datos o ejecución de código). El marco fue introducido por Yao et al. en un artículo de 2022, 'ReAct: Synergizing Reasoning and Acting in Language Models,' presentado en ICLR 2023, y desde entonces se ha convertido en una de las plantillas más ampliamente adoptadas para construir agentes de IA.

En un bucle de ReAct, el modelo produce un 'Thought'—su razonamiento interno sobre el estado de la tarea—seguido de una 'Action' que invoca una herramienta externa. El entorno devuelve una 'Observation,' que se añade a la ventana de contexto. El modelo entonces genera el siguiente pensamiento, informado por esa observación, y el ciclo se repite hasta que el modelo juzga la tarea completa. Esta estructura intercalada permite que el agente corrija el curso dinámicamente en lugar de comprometerse por adelantado a un plan estático que no puede incorporar nueva información.

El patrón aborda una limitación central de avisos estáticos de cadena de pensamiento: el modelo no puede adquirir nueva información externa a mitad de respuesta. Acoplando razonamiento a llamadas de herramientas reales, ReAct permite tareas que requieren recuperación de datos en vivo, computación interactiva o navegación multietapa a través de un entorno externo. El rastro de pensamiento-acción-observación también es legible por humanos, lo que hace que sea sustancialmente más fácil depurar fallas de agentes que canalizaciones de llamadas de herramientas opacas donde el razonamiento interno está oculto.

Para 2026, los bucles de estilo ReAct sustentan la mayoría de marcos de agentes de producción, incluyendo agentes de LangChain y LangGraph, la API de uso de herramientas de Claude de Anthropic, y la API de Assistants de OpenAI con intérprete de código y búsqueda de archivos. Las extensiones como Reflexion agregan un paso de autocrítica y actualización de memoria después de la completación de la tarea. Las variantes multiagente permiten que un agente ReAct lance sub-agentes especializados como sus 'Actions.' Las limitaciones prácticas primarias son la latencia—cada ciclo de razonamiento-actuación agrega al menos una ronda de inferencia completa de ida y vuelta—y el crecimiento de la ventana de contexto conforme los rastros se acumulan a lo largo de tareas largas.

Ejemplo

Un agente de servicio al cliente recibe una pregunta sobre el estado del pedido: genera un Thought ('Necesito recuperar el pedido #5892 de la base de datos'), llama a la herramienta de búsqueda de pedidos como su Action, observa el resultado ('enviado 2026-06-30, entrega esperada 2026-07-03'), genera un nuevo Thought ('Tengo información suficiente para responder'), y responde al cliente—todo dentro de un único bucle de ReAct automatizado que no requiere intervención humana.

Términos relacionados

← Glosario