Aprendizado por Reforço
Aprendizado por reforço é um paradigma de aprendizado de máquina no qual um agente aprende uma política de tomada de decisão ao interagir com um ambiente e receber sinais de recompensa escalar, otimizando para recompensa cumulativa máxima sem exigir um conjunto de dados pré-rotulado de ações corretas.
Aprendizado por reforço (RL) é um paradigma de aprendizado de máquina no qual um agente autônomo aprende a tomar decisões sequenciais ao interagir com um ambiente. A cada etapa, o agente observa o estado atual, executa uma ação, recebe um sinal de recompensa escalar e transiciona para um novo estado. O objetivo é aprender uma política—um mapeamento de estados para ações—que maximize a recompensa cumulativa com desconto esperada ao longo do tempo.
A base teórica do RL moderno é o formalismo de Processo de Decisão de Markov (MDP), desenvolvido sistematicamente por Sutton e Barto em "Reinforcement Learning: An Introduction" (1998, 2ª ed. 2018). As principais famílias algorítmicas incluem métodos baseados em valor (Q-learning, DQN), que aprendem uma função de valor de ação; métodos de gradiente de política (REINFORCE, PPO, TRPO), que otimizam diretamente a política usando estimativas de gradiente; e métodos de ator-crítico que combinam ambos. RL profundo, emparelhando redes neurais com esses algoritmos, permitiu resultados marcantes: DQN da DeepMind superou desempenho humano em 49 jogos Atari (2015), e AlphaGo derrotou o campeão mundial de Go Lee Sedol (2016) usando uma combinação de aprendizado supervisionado, RL e Busca em Árvore de Monte Carlo.
RL é distinto do aprendizado supervisionado e não supervisionado em que não requer um conjunto de dados pré-rotulado de respostas corretas. O aprendizado emerge da interação e sinais de recompensa atrasados, tornando RL o framework natural para tomada de decisão sequencial onde a sequência ótima de ação não pode ser determinada antecipadamente—incluindo controle de robótica, jogo, condução autônoma e alinhamento de modelos de linguagem grande com intenção humana por meio de RLHF e RLVR.
A partir de 2026, RL desempenha um papel central em todos os subcampos da IA. O3 da OpenAI, Gemini 2.5 do Google DeepMind e Claude 3.7 Sonnet da Anthropic citam pós-treinamento baseado em RL como um componente chave de suas capacidades de raciocínio. Em robótica, RL combinado com transferência sim-para-real impulsiona manipulação e locomoção em sistemas de empresas incluindo Figure AI e Boston Dynamics. Os principais desafios abertos de pesquisa incluem eficiência de amostra, especificação de recompensa e generalização robusta para ambientes não vistos durante o treinamento.