Modèles

Modèle d'Espace d'État (SSM)

Un Modèle d'Espace d'État (SSM) est une classe d'architectures de traitement de séquences dérivée de la théorie du contrôle qui représente les flux de données par un vecteur d'état latent mis à jour par des récurrences linéaires, permettant un traitement efficace de très longues séquences avec une complexité sous-quadratique.

Les SSM formalisent la modélisation de séquences comme un système dynamique : un vecteur d'état caché h(t) évolue selon une équation différentielle ou de différences linéaires entraînée par l'entrée x(t), et la sortie y(t) est une projection linéaire de h(t). Cette formulation, standard en ingénierie du contrôle depuis les années 1960, a été adaptée au deep learning en mappant les matrices structurées apprises sur la récurrence, contournant entièrement le mécanisme d'attention.

La percée pratique est venue avec S4 (Structured State Space for Sequences, Gu et al., 2021), qui a montré qu'une paramétrisation diagonale plus bas-rang de la matrice d'état permet à la récurrence d'être calculée via des convolutions rapides pendant l'entraînement — correspondant à la parallélisation des transformers — tout en revenant à une récurrence linéaire bon marché pour l'inférence autorégressive. Mamba (2023, Albert Gu et Tri Dao) a introduit les espaces d'états sélectifs : un gating dépendant de l'entrée des paramètres SSM qui donne au modèle une mémoire consciente du contenu, supprimant une limitation clé des SSM purement linéaires.

Les SSM sont importants car l'auto-attention des transformers évolue quadratiquement avec la longueur de la séquence, rendant les contextes longs coûteux. Les SSM évoluent linéairement à la fois en calcul et en mémoire, ce qui les rend attrayants pour la génomique (séquences de millions de paires de bases), le traitement de documents longs et les flux de capteurs continus. Les architectures hybrides telles que Jamba (AI21 Labs, 2024) et Zamba intercalent les couches SSM et attention pour capturer les forces des deux.

En 2026, les SSM sont passés des curiosités de recherche à des composants prêts pour la production. Mamba-2 (2024) a unifié les SSM avec l'attention linéaire sous un cadre de multiplication matricielle structurée et a démontré une perplexité compétitive avec les transformers à des échelles de paramètres multi-milliards. Les couches d'espace d'états sont disponibles dans Hugging Face Transformers et sont intégrées dans des modèles multimodaux et audio, bien que les transformers restent dominants pour les LLM à usage général aux plus grandes échelles.

Exemple

Une entreprise de génomique utilise un modèle basé sur Mamba pour traiter des séquences chromosomiques complètes — des millions de nucléotides — pour prédire les motifs d'expression génique, une tâche où l'attention des transformers serait prohibitivement coûteuse en calcul.

Termes liés

Transformer Context Window Recurrent Neural Network (RNN)

← Glossaire