Decoder-Only Architecture
Uma arquitetura Decoder-Only é uma variante de transformer que usa uma única stack de self-attention com masking causal (esquerda-para-direita) para prever cada próximo token a partir de seu contexto anterior, sem um encoder separado, e é o design dominante para large language models.
Em um transformer apenas-decoder, toda a entrada — tanto prompt quanto saída gerada — é tratada como uma sequência de token unificada. Cada camada aplica self-attention mascarada, onde cada posição pode atender apenas a posições anteriores (masking causal), garantindo que o modelo não possa observar tokens futuros durante predição de próximo-token. Isto contrasta com designs encoder–decoder, que usam um encoder bidirecional separado e um decoder causal, e com modelos apenas-encoder estilo BERT, que aplicam atenção bidirecional sem qualquer restrição generativa.
A arquitetura é treinada com um único objetivo: dada uma sequência de tokens, prever o próximo token em cada posição. Esta tarefa de modelagem de linguagem autoregressiva é completamente auto-supervisionada — nenhum dado rotulado é requerido, apenas texto bruto — permitindo treinamento em corpora em escala web. A série GPT popularizou o design: GPT-1 (OpenAI, 2018) demonstrou transfer learning a partir de pretreinamento, GPT-2 (2019) mostrou que escala produzia geração surpreendentemente coerente, e GPT-3 (2020, 175 bilhões de parâmetros) estabeleceu que modelos apenas-decoder muito grandes desenvolvem amplas habilidades de in-context learning sem atualizações de gradiente.
Modelos apenas-decoder dominam LLMs modernos porque o design é mais simples (uma stack, um objetivo), escala previsivamente com contagem de parâmetros e dados, e lida com compreensão e geração dentro de um único forward pass através de prompt conditioning. Todos os principais modelos de fronteira a partir de 2026 — GPT-4 e GPT-4o (OpenAI), as séries Claude 3 e Claude 4 (Anthropic), Gemini 1.5 e 2.0 (Google DeepMind), LLaMA 3 (Meta) e Mistral — usam arquiteturas apenas-decoder.
Apesar de sua prevalência, o design apenas-decoder tem limitações: masking causal significa que cada token atende apenas a tokens anteriores mesmo quando contexto bidirecional seria benéfico, como em tarefas de classificação onde modelos apenas-encoder do mesmo tamanho podem superá-lo. Pesquisa atual explora prefix attention (atenção bidirecional sobre o prompt seguida de decodificação causal), camadas de decoder mixture-of-experts (como em GPT-4 e Mixtral) e speculative decoding para acelerar o passo de geração inerentemente sequencial.