Modelos

Decoder-Only Architecture

Uma arquitetura Decoder-Only é uma variante de transformer que usa uma única stack de self-attention com masking causal (esquerda-para-direita) para prever cada próximo token a partir de seu contexto anterior, sem um encoder separado, e é o design dominante para large language models.

Em um transformer apenas-decoder, toda a entrada — tanto prompt quanto saída gerada — é tratada como uma sequência de token unificada. Cada camada aplica self-attention mascarada, onde cada posição pode atender apenas a posições anteriores (masking causal), garantindo que o modelo não possa observar tokens futuros durante predição de próximo-token. Isto contrasta com designs encoder–decoder, que usam um encoder bidirecional separado e um decoder causal, e com modelos apenas-encoder estilo BERT, que aplicam atenção bidirecional sem qualquer restrição generativa.

A arquitetura é treinada com um único objetivo: dada uma sequência de tokens, prever o próximo token em cada posição. Esta tarefa de modelagem de linguagem autoregressiva é completamente auto-supervisionada — nenhum dado rotulado é requerido, apenas texto bruto — permitindo treinamento em corpora em escala web. A série GPT popularizou o design: GPT-1 (OpenAI, 2018) demonstrou transfer learning a partir de pretreinamento, GPT-2 (2019) mostrou que escala produzia geração surpreendentemente coerente, e GPT-3 (2020, 175 bilhões de parâmetros) estabeleceu que modelos apenas-decoder muito grandes desenvolvem amplas habilidades de in-context learning sem atualizações de gradiente.

Modelos apenas-decoder dominam LLMs modernos porque o design é mais simples (uma stack, um objetivo), escala previsivamente com contagem de parâmetros e dados, e lida com compreensão e geração dentro de um único forward pass através de prompt conditioning. Todos os principais modelos de fronteira a partir de 2026 — GPT-4 e GPT-4o (OpenAI), as séries Claude 3 e Claude 4 (Anthropic), Gemini 1.5 e 2.0 (Google DeepMind), LLaMA 3 (Meta) e Mistral — usam arquiteturas apenas-decoder.

Apesar de sua prevalência, o design apenas-decoder tem limitações: masking causal significa que cada token atende apenas a tokens anteriores mesmo quando contexto bidirecional seria benéfico, como em tarefas de classificação onde modelos apenas-encoder do mesmo tamanho podem superá-lo. Pesquisa atual explora prefix attention (atenção bidirecional sobre o prompt seguida de decodificação causal), camadas de decoder mixture-of-experts (como em GPT-4 e Mixtral) e speculative decoding para acelerar o passo de geração inerentemente sequencial.

Exemplo

Quando um usuário envia um prompt para um LLM como GPT-4 ou Claude, o modelo apenas-decoder processa o prompt completo e gera uma resposta amostrando um token por vez, cada novo token atendendo causalmente a todos os tokens anteriores dentro da janela de contexto.

Termos relacionados

Transformer Large Language Model (LLM)Token Encoder–Decoder Architecture

← Glossário