SGLang et textes diffusés : comment les ingénieurs chinois accélèrent le contexte à l'infini
L'industrie des grands modèles de langage est entrée dans une phase où augmenter simplement le nombre de cartes graphiques dans un cluster n'est plus…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
L'industrie des grands modèles de langage est entrée dans une phase où augmenter simplement le nombre de cartes graphiques dans un cluster n'est plus suffisant. Nous nous sommes tous habitués à ce que les modèles deviennent « plus lourds » et leur maintenance plus chère. Cependant, les récentes discussions techniques dans la communauté de l'IA chinoise autour de SGLang et des nouvelles méthodes d'entraînement post-formation montrent que la véritable percée se fait maintenant non pas en termes de scalabilité, mais en termes d'élégance architecturale.
Tandis que les géants occidentaux se concentrent sur des écosystèmes fermés, une pile ouverte de technologies pour l'optimisation de l'inférence et le travail avec des volumes massifs de données devient le nouvel or pour les développeurs. Commençons par SGLang. Si vous suivez les performances, vous savez que les méthodes standard de génération de texte se heurtent souvent à une utilisation inefficace de la mémoire et à une planification lente des demandes.
Le framework SGLang offre une approche structurée de la génération qui permet d'accélérer significativement le fonctionnement des modèles dans les scénarios réels. Ceci est particulièrement critique lorsqu'il s'agit de chaînes complexes de raisonnement, où les modèles ne doivent pas seulement produire le mot suivant, mais suivre une structure logique stricte. L'optimisation à ce niveau permet d'économiser des millions de dollars en informatique en cloud, ce qui rend l'IA accessible non seulement aux corporations, mais aussi aux startups agiles.
Le deuxième pilier important de la nouvelle vague technologique est l'extension du contexte ultra-long. Nous avons déjà vu des modèles avec un contexte de millions de tokens, mais soyons honnêtes: la plupart d'entre eux commencent à « halluciner » ou perdent le fil de la narration au milieu du document. Les chercheurs chinois se concentrent maintenant sur la réalisation de ce contexte pratique plutôt que simplement une chiffre de marketing.
L'utilisation de nouvelles techniques d'attention et de méthodes de compression des clés permet aux modèles de maintenir des quantités colossales d'informations en mémoire sans perte catastrophale de qualité. Cela ouvre la voie à la création d'assistants IA qui peuvent analyser des milliers de documents juridiques ou des centaines d'heures de vidéo en une seule passe. Tout aussi intrigants sont les développements dans les modèles de langage diffusifs.
Pendant longtemps, la diffusion était le domaine des générateurs d'images comme Midjourney, tandis que le texte restait sous le pouvoir des transformateurs autoregressifs. Cependant, les tentatives de mettre en œuvre des processus de diffusion dans la génération de texte promettent de résoudre le problème principal des LLMs modernes — leur nature séquentielle. Si la diffusion permet au texte d'être généré en parallèle ou par affinement itératif de toute la structure de la phrase à la fois, nous obtiendrons un niveau complètement différent de cohérence et pourrons peut-être nous libérer des erreurs logiques typiques qui affligent les chatbots actuels.
Enfin, il convient de noter les frameworks d'entraînement post-formation utilisant l'apprentissage par renforcement (RL). Après qu'un modèle de base est entraîné sur un ensemble de données énorme, une étape critique d'alignement et d'ajustement fin commence. Les nouvelles approches permettent d'automatiser ce processus, rendant les modèles plus obéissants et précis dans l'exécution de tâches spécifiques.
C'est un pont entre l'intelligence « brute » et un outil appliqué qui comprend les nuances des instructions humaines. L'expérience chinoise ici est intéressante car ils mettent en œuvre ces mécaniques complexes de RL dans des frameworks ouverts, démocratisant les technologies qui n'étaient auparavant accessibles qu'à OpenAI ou Google. En fin de compte, nous assistons à un changement de paradigme.
L'ère de la « force brute » en IA cède progressivement à l'ère de l'ajustement fin et des innovations architecturales. SGLang, diffusion en textes et gestion intelligente du contexte sont des détails d'un puzzle qui finira par former l'IA de prochaine génération. Ce ne sera pas simplement plus grand, il utilisera chaque watt d'énergie et chaque octet de mémoire beaucoup plus efficacement.
Pour l'industrie, cela signifie que la barrière à l'entrée pour créer des systèmes haute performance diminue, et la compétition pour la qualité et la vitesse ne fait que commencer. Le point clé: l'ère de la domination des modèles autoregressifs classiques pourrait prendre fin plus vite que nous ne le pensions. Êtes-vous prêt pour que votre prochain chatbot s'exécute sur un moteur de diffusion?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.