Modèles

Architecture Uniquement Décodeur

Une Architecture Uniquement Décodeur est une variante de transformer qui utilise une seule pile d'auto-attention avec un masquage causal (gauche-à-droite) pour prédire chaque token suivant à partir de son contexte précédent, sans encodeur distinct, et est la conception dominante pour les grands modèles de langage.

Dans un transformer uniquement décodeur, l'entrée entière — à la fois l'invite et la sortie générée — est traitée comme une séquence de tokens unifiée. Chaque couche applique l'auto-attention masquée, où chaque position ne peut assister qu'aux positions avant elle (masquage causal), assurant que le modèle ne peut pas observer les tokens futurs lors de la prédiction du token suivant. Ceci contraste avec les conceptions encodeur–décodeur, qui utilisent un encodeur bidirectionnel distinct et un décodeur causal, et avec les modèles encodeur uniquement de style BERT, qui appliquent l'attention bidirectionnelle sans contrainte générative.

L'architecture est entraînée avec un seul objectif : étant donné une séquence de tokens, prédire le token suivant à chaque position. Cette tâche de modélisation de langage autorégressive est entièrement autosupervisée — aucune donnée labellisée n'est requise, seulement du texte brut — permettant l'entraînement sur des corpus à l'échelle du web. La série GPT a popularisé la conception : GPT-1 (OpenAI, 2018) a démontré l'apprentissage par transfert à partir du préentraînement, GPT-2 (2019) a montré que l'échelle produisait une génération étonnamment cohérente, et GPT-3 (2020, 175 milliards de paramètres) a établi que les très grands modèles uniquement décodeurs développent des capacités d'apprentissage en contexte larges sans aucune mise à jour de gradient.

Les modèles uniquement décodeurs dominent les LLM modernes car la conception est plus simple (une pile, un objectif), se met à l'échelle de façon prévisible avec le nombre de paramètres et les données, et traite à la fois la compréhension et la génération en un seul passage avant à travers le conditionnement d'invite. Tous les modèles frontière majeurs en 2026 — GPT-4 et GPT-4o (OpenAI), la série Claude 3 et Claude 4 (Anthropic), Gemini 1.5 et 2.0 (Google DeepMind), LLaMA 3 (Meta) et Mistral — utilisent des architectures uniquement décodeur.

Malgré sa prévalence, la conception uniquement décodeur a des limitations : le masquage causal signifie que chaque token ne peut assister qu'aux tokens antérieurs même quand le contexte bidirectionnel serait bénéfique, comme dans les tâches de classification où les modèles encodeur uniquement de la même taille peuvent le surpasser. La recherche actuelle explore l'attention de préfixe (attention bidirectionnelle sur l'invite suivie du décodage causal), les couches de décodeur mixture-of-experts (comme dans GPT-4 et Mixtral), et le décodage spéculatif pour accélérer l'étape de génération intrinsèquement séquentielle.

Exemple

Quand un utilisateur envoie une invite à un LLM tel que GPT-4 ou Claude, le modèle uniquement décodeur traite l'invite complète et génère une réponse en échantillonnant un token à la fois, chaque nouveau token assistant causal à tous les tokens précédents dans la fenêtre de contexte.

Termes liés

← Glossaire