MarkTechPost→ original

NVIDIA X-Token : une distillation qui dépasse GOLD de 3,82 points

NVIDIA a ներկայացillé X-Token, une méthode de distillation des connaissances pour les petits modèles de langage. La nouvelle approche dépasse GOLD de 3,82 point

NVIDIA X-Token : une distillation qui dépasse GOLD de 3,82 points
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a lancé la méthode X-Token pour optimiser les petits modèles de langage. X-Token est une approche de distillation de connaissances qui corrige deux limitations structurelles de la méthode GOLD précédente et démontre des améliorations significatives sur les tests standards.

Qu'est-ce que X-Token ?

X-Token est une méthode de Distillation de Connaissances de Tokeniseur Croisé Guidée par Projection. En termes plus simples, c'est une façon de transférer des connaissances d'un grand modèle à un petit, mais en tenant compte de différents ensembles de vocabulaires de jetons (les éléments en lesquels le modèle divise le texte). Les petits modèles s'exécutent souvent sur leurs propres tokeniseurs—des systèmes d'analyse de texte spécialisés—et auparavant, la distillation ignorait cela. X-Token résout ce problème.

La méthode introduit une couche de projection intermédiaire qui traduit les représentations entre deux espaces de jetons différents. C'est comme un traducteur travaillant au niveau le plus fondamental du modèle. Quand un grand modèle transfère des connaissances à un petit, X-Token garantit que l'information n'est pas perdue en traduction d'une méthode d'encodage à une autre.

Des Résultats Impressionnants

Sur le modèle Llama-3.2-1B, X-Token démontre une supériorité constante :

  • Sur les benchmarks courants—une amélioration de 3,82 points en moyenne par rapport à GOLD
  • Sur les tâches de mathématiques (GSM8k)—un bond de 2,56% à 15,54% de précision
  • Sur le test standard MMLU—une croissance de 24,0 à 24,7%

Ce n'est pas qu'un gain marginal—en mathématiques, la précision a augmenté de six fois. Pour un petit modèle d'1 milliard de paramètres, c'est critique : chaque point de pourcentage compte, car à ces échelles, même de petites améliorations de capacité aident à résoudre des tâches plus complexes.

Erreurs Structurelles de GOLD

La méthode GOLD précédente ignorait que le tokeniseur dans un petit modèle pourrait être complètement différent. Cela a conduit à deux problèmes : d'abord, les connaissances du grand modèle ont perdu de sens lorsque le petit modèle les a traduites dans son propre vocabulaire ; deuxièmement, la distillation ne pouvait pas utiliser efficacement toutes les capacités du petit modèle. X-Token intègre une projection entre différents espaces de jetons dans le processus de distillation. C'est comme un pont entre deux systèmes d'encodage d'information. C'est particulièrement important lorsque le petit modèle est conçu pour une exécution rapide sur des appareils mobiles ou edge et dispose de son propre tokeniseur unique pour économiser la mémoire.

Ce Que Cela Signifie

Les petits modèles sont nécessaires partout : sur les téléphones, dans les appareils IoT, sur les serveurs locaux, où il n'y a pas d'accès au cloud ou où la latence est critique. X-Token montre qu'on peut prendre les connaissances d'un énorme modèle et les 'compresser' efficacement dans un petit format—directement avec son propre vocabulaire. C'est la voie vers une IA qui fonctionne partout, pas seulement sur les ordinateurs cloud. Et une amélioration de sixfold en mathématiques est un signal que les petits modèles commencent à acquérir de vraies capacités pour les tâches pratiques. Bientôt, l'IA locale pourrait devenir le standard, pas l'exception.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Qu'en pensez-vous ?
Chargement des commentaires…