Modelos

Encoder–Decoder Architecture

Uma arquitetura Encoder–Decoder é um design de rede neural em que um encoder mapeia uma entrada em uma representação latente e um decoder separado gera a sequência de saída a partir dessa representação, tornando-se adequada para tarefas como tradução e sumarização.

Na formulação original sequence-to-sequence (Sutskever et al., 2014), o encoder é uma RNN que lê a entrada completa e produz um vetor de contexto fixo; o decoder é uma segunda RNN que gera a saída token por token, condicionado a esse vetor. O mecanismo de atenção (Bahdanau et al., 2015) generalizou isso permitindo que o decoder atendesse seletivamente a todos os estados ocultos do encoder a cada passo de decodificação, resolvendo o gargalo de informação de um vetor de contexto de tamanho fixo e melhorando substancialmente o desempenho em sequências longas.

O transformer (Vaswani et al., 2017) reconfigurou a estrutura encoder–decoder usando self-attention e cross-attention. A stack de encoder processa a sequência de entrada completa em paralelo, produzindo representações contextualizadas; a stack de decoder gera tokens de saída autoregressivamente, usando self-attention causal sobre seus próprios outputs anteriores e cross-attention sobre a saída do encoder. Este design escala eficientemente e sustenta modelos incluindo T5 (Google, 2019), BART (Meta, 2019) e mT5 para configurações multilíngues.

A arquitetura é particularmente adequada para tarefas onde entrada e saída são estruturalmente diferentes: tradução automática (idiomas de origem e destino), sumarização abstrata (artigo para resumo), reconhecimento de fala (Whisper da OpenAI usa um encoder CNN para áudio e um decoder transformer para texto) e geração de legendas de imagem (encoder visual, decoder de texto). O encoder lida com compreensão; o decoder lida com geração, e essa separação de responsabilidades é benéfica quando os dois processos exigem padrões de atenção diferentes.

A partir de 2026, modelos encoder–decoder permanecem o padrão para tarefas de predição estruturada. Modelos estilo T5 e seus sucessores multilíngues são implantados em Google Search, tradução de documentos e pipelines de sumarização. No entanto, para geração de linguagem de propósito aberto em escala, modelos apenas-decoder assumiram em grande parte porque são arquiteturalmente mais simples de treinar e escalar. Técnicas de fine-tuning eficiente em parâmetros frequentemente acoplam um encoder congelado com uma pequena head de decoder para adaptação em baixa escala de recursos.

Exemplo

O backend neural do Google Translate usa um transformer encoder–decoder que codifica uma frase em espanhol em representações contextualizadas e depois decodifica essas representações token por token para inglês.

Termos relacionados

← Glossário