Lubomir Gorbatko Présente Sessa — Une Alternative aux Transformers et Mamba
Habr a analysé l'architecture Sessa — une nouvelle tentative de repenser les décodeurs pour contextes longs. L'idée est de combiner l'adaptabilité de…
Traité par IA depuis Habr AI ; édité par Hamidun News
Un aperçu de l'architecture Sessa a été publié sur Habr — c'est une tentative de repenser les modèles decoder-only et d'offrir une alternative au couplage familier Transformer et Mamba. L'auteur ne promet pas un remplacement prêt des leaders du marché, mais démontre quelque chose de plus fondamental : différents décodeurs peuvent être décrits à travers une base commune et ensuite honnêtement comparés par la façon dont ils stockent et récupèrent les informations du contexte long. La logique de l'article progresse du simple au complexe.
D'abord, l'auteur redérive le Transformer non pas comme un ensemble de blocs familiers, mais comme une évolution de la convolution ordinaire. L'idée est qu'une fenêtre fixe et des coefficients fixes se heurtent rapidement à des limitations : un tel mélangeur ne voit que le contexte local et s'adapte mal à la tâche. Si les poids dépendent de l'entrée, puis sont normalisés via softmax, l'attention émerge naturellement.
Dans cette interprétation, la force du Transformer est la comparaison flexible du token actuel avec les précédents, mais le prix est connu : les calculs deviennent chers à mesure que la longueur de la séquence augmente, et en mode diffus l'attention a du mal à maintenir un élément lointain spécifique. L'article passe ensuite à S4D et Mamba. Ici l'auteur considère le problème comme une tâche de mémoire : au lieu de relire tout le préfixe à chaque fois, le modèle peut accumuler le passé en état interne.
Cette approche résout certains problèmes d'attention et rend moins coûteux le travail avec les longues séquences. Mais elle a sa propre limite. Dans l'exposé de l'auteur, Mamba fonctionne bien lorsque le mécanisme d'espace d'états sélectif peut « geler » l'état au bon moment et maintenir le signal nécessaire.
Si ce mode est mal reconnu, en particulier sur des séquences bruyantes ou très longues, l'influence des anciens tokens commence à décroître exponentiellement, et l'extraction précise des informations nécessaires devient moins fiable. Sur ce fond, Sessa est présentée comme une variante hybride. L'auteur propose de combiner deux idées : conserver l'adaptabilité de type attention tout en ajoutant simultanément une rétroaction, c'est-à-dire une rétroaction contrôlée via les états passés.
À l'intérieur de la couche, deux branches apparaissent : forward, qui collecte les informations du préfixe, et feedback, qui réutilise les états déjà accumulés. L'idée clé est que les coefficients des deux branches dépendent du token actuel et de la longueur de la séquence, ce qui signifie que le modèle obtient un mécanisme de mémoire plus flexible que le Transformer classique et un accès plus direct à l'historique que Mamba. Essentiellement, c'est une tentative d'intégrer l'attention dans un circuit récurrent, plutôt que de garder ces approches de chaque côté de la barricade.
L'accent principal de l'article ne porte pas sur le slogan « nous avons vaincu les transformers », mais sur la comparaison des modes de mémoire. L'auteur considère un scénario contrôlé où les modèles ont du mal à se concentrer précisément sur un token nécessaire. Dans un tel mode, l'influence des tokens lointains dans Transformer décroît approximativement comme l'inverse de la distance, Mamba décroît exponentiellement, et la queue de Sessa décroît plus lentement, ce qui théoriquement fournit une extraction plus stable sur longue distance.
Dans une configuration multicouche de Sessa, selon l'auteur, cela peut même soutenir les profils de récupération sans dégradation de distance. Avec le post Habr, un article arXiv et du code ont été publiés, et la recherche elle-même signale des expériences comparables sur contexte long. Cependant, l'auteur démontre directement la limite actuelle du résultat : c'est actuellement principalement de la théorie et une hypothèse architecturale, et l'étape importante suivante est l'entraînement à l'échelle de plusieurs milliards de paramètres et la validation en dehors de régimes soigneusement contrôlés.
En bref, le matériel est intéressant non seulement pour Sessa lui-même, mais pour la manière d'explication. Il réduit Transformer, Mamba et la nouvelle architecture à un schéma commun et montre exactement où leurs propriétés de mémoire divergent. Pour ceux qui suivent la course au modèle de contexte long, c'est un signal important : une alternative notable aux transformers peut venir non pas d'un rejet complet de l'attention, mais de sa combinaison avec une mémoire récurrente plus expressive.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.