Nous Research a accéléré le préentraînement des LLM de 2,5x sans changer l’architecture
Nous Research a développé Token Superposition Training (TST), une méthode de préentraînement en deux phases qui accélère l’entraînement des LLM de 2,5x à coût d

Nous Research a développé Token Superposition Training (TST) — une méthode innovante de pré-entraînement en deux phases qui réduit le temps d'entraînement des grands modèles de langage de 2,5 fois avec le même coût computationnel, sans nécessiter aucun changement dans l'architecture, le tokeniseur ou le comportement lors de l'inférence.
Comment Fonctionne Token Superposition Training
La méthode est basée sur une idée simple mais efficace : dans la première phase de pré-entraînement, les embeddings de tokens voisins sont moyennés en groupes, ou sacs (bags). Au lieu de prédire chaque token séparément, le modèle fonctionne avec des représentations agrégées de séquences. Cela lui permet de traiter les informations par gros blocs et d'accélérer considérablement le calcul des gradients lors de la rétropropagation. Essentiellement, la première phase enseigne au modèle comment trouver des motifs à un niveau d'abstraction plus élevé.
La deuxième phase d'entraînement est légèrement plus courte en durée — le modèle bascule vers la prédiction standard du token suivant, comme le ferait n'importe quel LLM. À cette étape, il s'adapte rapidement à la tâche finale et récupère les pertes de qualité potentielles qui auraient pu apparaître dans la première phase. La transition entre les phases est fluide et naturelle pour l'architecture du réseau de neurones — il n'y a pas d'artefacts étranges ou d'incompatibilités.
L'avantage clé de TST est que la méthode ne touche pas à l'architecture interne du modèle. Le nombre de paramètres reste inchangé, les outils environnants et l'écosystème ne changent pas — le même nombre de poids, le même tokeniseur, le même optimiseur Adam, SGD ou autre. Lors de l'inférence, le modèle est entièrement compatible avec les systèmes de déploiement existants. Ceci est critique pour les applications industrielles, où changer l'architecture pourrait nécessiter de réécrire beaucoup de code.
Modèles Utilisés pour Tester la Nouvelle Technique
Nous Research a testé TST sur des modèles de différentes échelles et architectures pour vérifier l'universalité de l'approche :
- 270M paramètres (mini-modèles pour des expériences rapides)
- 600M paramètres (taille standard pour les projets de recherche)
- 3B paramètres (architecture dense, dense models)
- 10B paramètres avec architecture Mixture of Experts (MoE)
À toutes ces échelles, la méthode a montré une accélération constante de 2,5 fois avec le même coût computationnel, mesuré en FLOP (opérations de virgule flottante). Les résultats sont encourageants : ce n'est pas un tour de laboratoire qui ne fonctionne que sur une taille ou une architecture spécifique de modèle, mais une approche universelle qui s'adapte bien. Cela signifie qu'elle peut être appliquée largement.
Pourquoi C'est Critique pour l'Industrie
Le pré-entraînement des LLM est l'étape la plus exigeante en ressources et économiquement la plus coûteuse du développement de modèles. Entraîner un seul grand modèle nécessite des milliers d'heures d'opération de clusters GPU, et les coûts d'électricité et d'équipement se mesurent en millions de dollars. Une accélération de 2,5 fois n'est pas seulement une amélioration de 5-10%, mais une réduction sérieuse et réalisable des dépenses totales qui impacte directement l'économie du développement.
Pour les startups et les petites équipes, cela signifie la capacité d'entraîner des modèles de haute qualité et compétitifs avec un budget initial plus petit. Pour les grands laboratoires comme Meta, Mistral ou OpenAI — la capacité d'expérimenter avec bien plus de variantes d'architecture, d'hyperparamètres et de stratégies d'entraînement sur la même infrastructure. Cela élargit les limites de l'expérimentation, accélère le rythme de l'innovation et permet de tester plus rapidement de nouvelles idées.
Ce Que Cela Signifie
Token Superposition Training prouve que même dans un domaine bien étudié du pré-entraînement, il y a des moyens simples mais puissants d'économiser des ressources informatiques. Cela pourrait inspirer d'autres chercheurs à rechercher des optimisations similaires à différentes étapes de l'entraînement du modèle — de l'initialisation des poids aux calendriers de taux d'apprentissage adaptatifs. Pour l'industrie — un signal positif indiquant que la limite entre la recherche fondamentale et l'application industrielle devient de plus en plus floue, et les bonnes idées trouvent rapidement leur chemin vers la production.