Les modèles de langage par diffusion défient GPT avec un record de vitesse de 892 tokens
Une avancée technologique dans l'architecture des réseaux neuronaux : un modèle de langage par diffusion (DLM) de 100 milliards de paramètres a atteint une…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
# Les Modèles de Langage par Diffusion Défient GPT : Record de Vitesse de 892 Tokens par Seconde
Les modèles de diffusion réécrivent les règles : 100 milliards de paramètres, 892 tokens par seconde
L'industrie des modèles de langage a reçu un défi inattendu. Les chercheurs ont démontré que les approches de diffusion pour la génération de texte, longtemps considérées comme lentes et inefficaces, non seulement peuvent rivaliser avec les architectures classiques comme GPT, mais peuvent les surpasser en vitesse. Un modèle de langage par diffusion avec 100 milliards de paramètres a atteint une vitesse de génération record de 892 tokens par seconde — une métrique qui remet en question les vues établies sur la manière dont les modèles de langage modernes devraient fonctionner.
Cet exploit est particulièrement significatif car les méthodes de diffusion sont restées à la périphérie dans le contexte des tâches de traitement du texte pendant de nombreuses années. Tandis qu'en vision par ordinateur les modèles de diffusion ont gagné en autorité et révolutionné la synthèse d'images, le paradigme autoregressif a dominé le traitement du texte — celui-là même sur lequel sont construits ChatGPT et ses concurrents. Les modèles autoregressifs prédisent le token suivant en fonction de tous les précédents, ce qui nécessite des passages séquentiels dans le réseau de neurones et ralentit le processus.
Les modèles de langage par diffusion fonctionnent selon des principes fondamentalement différents. Au lieu de générer du texte mot par mot, ils commencent par des données bruitées et affinent progressivement la sortie par le biais de plusieurs étapes de débruitage. Le paradoxe : avec une telle approche, semblant nécessiter plus d'opérations de calcul, le nouveau modèle de 100 milliards a affiché une vitesse de 892 tokens par seconde.
C'est environ deux fois plus rapide que les métriques de performance typiques des modèles autoregressifs modernes de taille similaire. La percée technique réside dans l'optimisation de l'algorithme de débruitage et de l'architecture du réseau, qui permet le traitement parallèle de plusieurs positions dans le texte, plutôt que d'attendre la fin de la prédiction d'un token pour passer au suivant.
L'importance de ce résultat dépasse de loin la simple établissement d'un record de vitesse. Le dimensionnement réussi du modèle de diffusion à 100 milliards de paramètres prouve que cette approche n'est pas une impasse sur le plan technique. Si les modèles de diffusion peuvent fonctionner avec de telles performances, ils ouvrent de nouvelles voies d'optimisation. Les fabricants peuvent réduire la latence, améliorer le débit des serveurs et diminuer la consommation d'énergie — des facteurs critiques à l'ère des coûts du calcul en nuage.
Pour l'industrie, cela signifie que l'avenir des modèles de langage n'est pas nécessairement lié à l'architecture autoregressivevas. OpenAI, Google DeepMind et d'autres laboratoires ont investi d'énormes ressources dans l'optimisation de l'approche autoregressivevas, mais l'émergence d'une alternative concurrentielle peut forcer une reconsidération des stratégies. Les entreprises qui ont investi dans la recherche sur les méthodes de diffusion obtiennent un avantage tangible. Pour les utilisateurs finaux, cela pourrait signifier des réponses plus rapides des assistants IA, des API moins chères et des modèles locaux plus économes en énergie.
Cependant, la prudence doit être exercée lors de l'interprétation des résultats. La vitesse de génération des tokens est loin d'être le seul critère de qualité d'un modèle. La qualité du texte, la capacité à gérer les dépendances à long terme et la cohérence logique sont également importantes. Il reste à comprendre si l'approche par diffusion peut égaler les modèles autoregressifs en termes de richesse de contenu et de précision des réponses sous des ressources de calcul égales.
Cet événement symbolise un moment de transition dans l'industrie de l'IA, lorsque le paradigme dominant commence à ressentir la concurrence. Si les modèles de diffusion confirment leur viabilité sur d'autres paramètres aussi, nous pourrions assister à une véritable diversité architecturale en IA grand public, chacune avec ses propres forces.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.