Modèles

Architecture Encodeur–Décodeur

Une architecture Encodeur–Décodeur est une conception de réseau de neurones dans laquelle un encodeur mappe une entrée dans une représentation latente et un décodeur distinct génère la séquence de sortie à partir de cette représentation, ce qui la rend bien adaptée aux tâches comme la traduction et le résumé.

Dans la formulation originale de séquence à séquence (Sutskever et al., 2014), l'encodeur est un RNN qui lit l'entrée complète et produit un vecteur de contexte fixe ; le décodeur est un second RNN qui génère le token de sortie token par token, conditionné par ce vecteur. Le mécanisme d'attention (Bahdanau et al., 2015) a généralisé ceci en permettant au décodeur d'assister sélectivement à tous les états cachés de l'encodeur à chaque étape de décodage, résolvant le goulot d'étranglement de l'information d'un vecteur de contexte de taille fixe et améliorant substantiellement les performances sur les longues séquences.

Le transformer (Vaswani et al., 2017) a reconfiguré la structure encodeur–décodeur en utilisant l'auto-attention et l'attention croisée. La pile d'encodeur traite la séquence d'entrée complète en parallèle, produisant des représentations contextualisées ; la pile de décodeur génère les tokens de sortie de façon autorégressive, utilisant l'auto-attention causale sur ses propres sorties passées et l'attention croisée sur la sortie de l'encodeur. Cette conception se met à l'échelle efficacement et soutient des modèles incluant T5 (Google, 2019), BART (Meta, 2019) et mT5 pour les paramètres multilingues.

L'architecture est particulièrement bien adaptée aux tâches où l'entrée et la sortie sont structurellement différentes : la traduction automatique (langues source et cible), le résumé abstractif (article à résumé), la reconnaissance vocale (Whisper d'OpenAI utilise un encodeur CNN pour l'audio et un décodeur transformer pour le texte) et la légende d'image (encodeur visuel, décodeur textuel). L'encodeur gère la compréhension ; le décodeur gère la génération, et cette séparation des préoccupations est bénéfique quand les deux processus nécessitent des motifs d'attention différents.

En 2026, les modèles encodeur–décodeur restent la norme pour les tâches de prédiction structurées. Les modèles de style T5 et leurs successeurs multilingues sont déployés dans Google Search, la traduction de documents et les pipelines de résumé. Cependant, pour la génération de langage ouvert à grande échelle, les modèles uniquement décodeurs ont largement pris le relais car ils sont architecturalement plus simples à entraîner et à mettre à l'échelle. Les techniques de fine-tuning efficace en paramètres couplent fréquemment un encodeur figé avec une petite tête de décodeur pour l'adaptation à faibles ressources.

Exemple

Le backend neuronal de Google Traduction utilise un transformer encodeur–décodeur qui encode une phrase espagnole en représentations contextualisées puis décode ces représentations token par token en anglais.

Termes liés

← Glossaire