Entrenamiento

Aprendizaje por Refuerzo

Aprendizaje por refuerzo es un paradigma de aprendizaje automático en el que un agente aprende una política de toma de decisiones interactuando con un entorno y recibiendo señales de recompensa escalar, optimizando para la recompensa acumulada máxima sin requerir un conjunto de datos pre-etiquetado de acciones correctas.

Aprendizaje por refuerzo (RL) es un paradigma de aprendizaje automático en el que un agente autónomo aprende a tomar decisiones secuenciales interactuando con un entorno. En cada paso el agente observa el estado actual, toma una acción, recibe una señal de recompensa escalar y hace la transición a un nuevo estado. El objetivo es aprender una política—un mapeo de estados a acciones—que maximice la recompensa acumulada descontada esperada a lo largo del tiempo.

El fundamento teórico del RL moderno es el formalismo de Proceso de Decisión de Markov (MDP), desarrollado sistemáticamente por Sutton y Barto en "Reinforcement Learning: An Introduction" (1998, 2ª ed. 2018). Las familias de algoritmos clave incluyen métodos basados en valor (Q-learning, DQN), que aprenden una función de valor de acción; métodos de gradiente de política (REINFORCE, PPO, TRPO), que optimizan directamente la política usando estimaciones de gradientes; y métodos de actor-crítico que combinan ambos. RL profundo, emparejando redes neuronales con estos algoritmos, habilitó resultados hito: DQN de DeepMind superó el desempeño humano en 49 juegos de Atari (2015), y AlphaGo derrotó al campeón mundial de Go Lee Sedol (2016) usando una combinación de aprendizaje supervisado, RL y Búsqueda de Árbol de Monte Carlo.

RL se distingue del aprendizaje supervisado y no supervisado en que no requiere un conjunto de datos pre-etiquetado de respuestas correctas. El aprendizaje emerge de la interacción y las señales de recompensa retrasadas, haciendo de RL el marco natural para la toma de decisiones secuenciales donde la secuencia de acciones óptima no puede determinarse de antemano—incluyendo control de robótica, juego, conducción autónoma y alineación de modelos de lenguaje grandes con la intención humana a través de RLHF y RLVR.

A partir de 2026, RL juega un papel central en todos los subcampos de IA. El o3 de OpenAI, el Gemini 2.5 de Google DeepMind y el Claude 3.7 Sonnet de Anthropic citan el entrenamiento post-entrenamiento basado en RL como un componente clave de sus capacidades de razonamiento. En robótica, RL combinado con transferencia sim-a-real impulsa manipulación y locomoción en sistemas de empresas incluyendo Figure AI y Boston Dynamics. Los desafíos de investigación abierta clave incluyen eficiencia de muestras, especificación de recompensas y generalización robusta a entornos no vistos durante el entrenamiento.

Ejemplo

OpenAI utiliza Optimización de Política Proximal (PPO) durante la etapa de post-entrenamiento RLHF de InstructGPT y GPT-4 para fine-tuning del modelo contra un modelo de recompensa aprendido que califica finalizaciones muestreadas, desplazando distribuciones de salida hacia respuestas que los evaluadores humanos prefieren.

Términos relacionados

Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF)Aprendizaje por Refuerzo con Recompensas Verificables (RLVR)Reward Hacking Agente de IA

Últimas noticias sobre el tema

Habr AI mostró que el aprendizaje por refuerzo todavía pierde frente a la optimización clásica en logística2026-05-02

← Glosario