Treinamento

Aprendizado por Reforço

Aprendizado por reforço é um paradigma de aprendizado de máquina no qual um agente aprende uma política de tomada de decisão ao interagir com um ambiente e receber sinais de recompensa escalar, otimizando para recompensa cumulativa máxima sem exigir um conjunto de dados pré-rotulado de ações corretas.

Aprendizado por reforço (RL) é um paradigma de aprendizado de máquina no qual um agente autônomo aprende a tomar decisões sequenciais ao interagir com um ambiente. A cada etapa, o agente observa o estado atual, executa uma ação, recebe um sinal de recompensa escalar e transiciona para um novo estado. O objetivo é aprender uma política—um mapeamento de estados para ações—que maximize a recompensa cumulativa com desconto esperada ao longo do tempo.

A base teórica do RL moderno é o formalismo de Processo de Decisão de Markov (MDP), desenvolvido sistematicamente por Sutton e Barto em "Reinforcement Learning: An Introduction" (1998, 2ª ed. 2018). As principais famílias algorítmicas incluem métodos baseados em valor (Q-learning, DQN), que aprendem uma função de valor de ação; métodos de gradiente de política (REINFORCE, PPO, TRPO), que otimizam diretamente a política usando estimativas de gradiente; e métodos de ator-crítico que combinam ambos. RL profundo, emparelhando redes neurais com esses algoritmos, permitiu resultados marcantes: DQN da DeepMind superou desempenho humano em 49 jogos Atari (2015), e AlphaGo derrotou o campeão mundial de Go Lee Sedol (2016) usando uma combinação de aprendizado supervisionado, RL e Busca em Árvore de Monte Carlo.

RL é distinto do aprendizado supervisionado e não supervisionado em que não requer um conjunto de dados pré-rotulado de respostas corretas. O aprendizado emerge da interação e sinais de recompensa atrasados, tornando RL o framework natural para tomada de decisão sequencial onde a sequência ótima de ação não pode ser determinada antecipadamente—incluindo controle de robótica, jogo, condução autônoma e alinhamento de modelos de linguagem grande com intenção humana por meio de RLHF e RLVR.

A partir de 2026, RL desempenha um papel central em todos os subcampos da IA. O3 da OpenAI, Gemini 2.5 do Google DeepMind e Claude 3.7 Sonnet da Anthropic citam pós-treinamento baseado em RL como um componente chave de suas capacidades de raciocínio. Em robótica, RL combinado com transferência sim-para-real impulsiona manipulação e locomoção em sistemas de empresas incluindo Figure AI e Boston Dynamics. Os principais desafios abertos de pesquisa incluem eficiência de amostra, especificação de recompensa e generalização robusta para ambientes não vistos durante o treinamento.

Exemplo

OpenAI usa Otimização de Política Proximal (PPO) durante o estágio de pós-treinamento RLHF do InstructGPT e GPT-4 para aperfeiçoar o modelo contra um modelo de recompensa aprendido que pontua conclusões amostradas, deslocando distribuições de saída em direção às respostas que avaliadores humanos preferem.

Termos relacionados

Reinforcement Learning from Human Feedback (RLHF)Aprendizado por Reforço com Recompensas Verificáveis (RLVR)Reward Hacking Agente de IA

Últimas notícias sobre o tema

Habr AI mostrou que o aprendizado por reforço ainda fica atrás da otimização clássica em logística2026-05-02

← Glossário