Inferência

Cadeia de Pensamento (CoT)

Cadeia de Pensamento (CoT) é uma técnica de prompting na qual um modelo de linguagem gera passos de raciocínio intermediários explícitos antes de produzir uma resposta final, melhorando substancialmente a precisão em problemas aritméticos, de lógica e multi-passo.

Prompting de Cadeia de Pensamento (CoT) é uma técnica onde um modelo de linguagem grande (LLM) produz uma sequência de passos de raciocínio intermediários—uma cadeia de lógica escrita—antes de declarar sua resposta final, em vez de mapear a entrada diretamente a uma saída. A abordagem foi formalmente descrita por Wei et al. no Google Brain em um artigo de 2022 que a demonstrou como uma capacidade emergente de modelos suficientemente grandes (aproximadamente 100B+ parâmetros na época).

CoT pode ser eliciado de duas maneiras principais. CoT few-shot incorpora exemplos trabalhados com soluções passo a passo no prompt, mostrando ao modelo o formato de raciocínio esperado. CoT zero-shot usa instruções mínimas—mais famosamente "Vamos pensar passo a passo"—para disparar comportamento similar sem exemplos, uma descoberta de Kojima et al. (2022). Sistemas mais recentes, incluindo a série o do OpenAI e DeepSeek-R1, internalizam CoT através de aprendizado por reforço de recompensas baseadas em resultado, então o modelo produz traços de raciocínio estruturado como comportamento treinado em vez de comportamento disparado por prompts.

CoT importa porque melhora dramaticamente o desempenho em tarefas onde precisão depende de sequenciar corretamente múltiplas deduções. No benchmark de matemática de ensino fundamental GSM8K, PaLM 540B com prompting CoT alcançou precisão comparável a modelos específicos de tarefa fine-tuned sem qualquer treinamento específico de tarefa. A técnica também melhora a interpretabilidade: o traço de raciocínio é visível, facilitando identificar onde a lógica de um modelo falha.

Por 2026, CoT é ubíquo em sistemas de IA de fronteira. A pesquisa diversificou-se em árvore de pensamento (explorando caminhos de raciocínio ramificados via busca), esqueleto de pensamento (decompondo problemas em subproblemas paralelos) e modelos de recompensa de processo (PRMs) que pontuam cada passo de raciocínio em vez de apenas a resposta final. Traços de CoT internos estendidos são agora um componente padrão de modelos focados em raciocínio, com contagens de thinking-tokens rotineiramente alcançando dezenas de milhares em problemas de matemática de competição.

Exemplo

Dado o prompt "Um armazém recebeu 3 remessas de 144 unidades cada e enviou 275 unidades. Quantas unidades permanecem?", um modelo habilitado com CoT escreve: "3 × 144 = 432 unidades recebidas; 432 − 275 = 157 unidades restantes" antes de retornar 157 como a resposta—uma abordagem que elimina erros aritméticos de passo único comuns em modo de resposta direta.

Termos relacionados

Modelo de Raciocínio Computação em Tempo de Teste ReAct Pattern

← Glossário