Inferencia

Chain-of-Thought (CoT)

Chain-of-Thought (CoT) es una técnica de prompting en la cual un modelo de lenguaje grande genera pasos de razonamiento intermedios explícitos antes de producir una respuesta final, mejorando sustancialmente la precisión en problemas aritméticos, lógicos y multi-paso.

El prompting de Chain-of-Thought (CoT) es una técnica donde un modelo de lenguaje grande (LLM) produce una secuencia de pasos de razonamiento intermedios — una cadena de lógica escrita — previo a indicar su respuesta final, en lugar de mapear la entrada directamente a una salida. El enfoque fue formalmente descrito por Wei et al. en Google Brain en un artículo de 2022 que demostró ser una capacidad emergente de modelos suficientemente grandes (aproximadamente 100B+ parámetros en ese momento).

CoT puede ser elicitado de dos formas principales. El CoT few-shot incrusta ejemplos trabajados con soluciones paso a paso en el prompt, mostrando al modelo el formato de razonamiento esperado. El CoT zero-shot usa instrucciones mínimas — más famosamente "Pensemos paso a paso" — para desencadenar comportamiento similar sin ejemplos, un hallazgo de Kojima et al. (2022). Sistemas más recientes, incluyendo la serie o de OpenAI y DeepSeek-R1, internalizan CoT mediante aprendizaje por refuerzo a partir de recompensas basadas en resultados, por lo que el modelo produce trazas de razonamiento estructuradas como comportamiento entrenado en lugar de solicitado.

CoT es importante porque mejora dramáticamente el rendimiento en tareas donde la precisión depende de secuenciar correctamente múltiples deducciones. En el punto de referencia GSM8K de matemáticas de primaria, PaLM 540B invocado con CoT alcanzó precisión comparable a modelos específicos de tarea ajustados sin ningún entrenamiento específico de tarea. La técnica también mejora la interpretabilidad: la traza de razonamiento es visible, haciendo más fácil identificar dónde falla la lógica de un modelo.

Para 2026, CoT es ubicuo en sistemas de IA fronterizos. La investigación se ha diversificado hacia árbol de pensamiento (explorando rutas de razonamiento ramificadas mediante búsqueda), esqueleto de pensamiento (descomponiendo problemas en subproblemas paralelos) y modelos de recompensa de proceso (PRMs) que puntúan cada paso de razonamiento en lugar de solo la respuesta final. Las trazas de CoT internas extendidas ahora son un componente estándar de modelos enfocados en razonamiento, con conteos de tokens de pensamiento que rutinariamente alcanzan decenas de miles en problemas de matemáticas de competencia.

Ejemplo

Dado el prompt "Un almacén recibió 3 envíos de 144 unidades cada uno y envió 275 unidades. ¿Cuántas unidades permanecen?", un modelo habilitado para CoT escribe: "3 × 144 = 432 unidades recibidas; 432 − 275 = 157 unidades restantes" antes de devolver 157 como respuesta — un enfoque que elimina los errores aritméticos de paso único comunes en modo de respuesta directa.

Términos relacionados

Reasoning Model Test-Time Compute ReAct Pattern

← Glosario