Habr AI→ original

BorisovAI a testé MoE sur une RTX 4090 et a montré pourquoi la perplexité fausse l’évaluation des LLM

BorisovAI a mené 22 expériences avec une architecture MoE où de nouveaux experts se branchent sur un modèle gelé comme des plugins. Sur une seule RTX 4090…

Traité par IA depuis Habr AI ; édité par Hamidun News
BorisovAI a testé MoE sur une RTX 4090 et a montré pourquoi la perplexité fausse l’évaluation des LLM
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

BorisovAI a publié une analyse de 22 expériences avec une architecture MoE, dans laquelle de nouveaux experts sont connectés au-dessus d'un modèle de langage gelé comme des plugins. Sur une seule RTX 4090, le schéma a démontré une image d'ingénierie presque idéale : dégradation zéro des anciennes compétences, routage précis et réduction notable de la perplexité. Mais lorsque le système a été testé sur un benchmark mathématique, il s'est avéré qu'une belle métrique pouvait mener dans une direction tout à fait erronée.

Comment le schéma a été construit

Le chercheur a gelé complètement le modèle de base et ajouté un petit expert entraînable à chaque couche MLP, plus un routeur en haut avec environ 37 mille paramètres. La logique est simple : la colonne vertébrale n'est pas touchée, la nouvelle compétence est entraînée séparément, puis seul le routeur est affiné pour envoyer les bons tokens au bon expert. L'entraînement d'un seul nouveau domaine a pris environ une demi-heure : environ 15 minutes pour l'expert isolé et 15 minutes supplémentaires pour l'intégration dans le système global. Sur trois échelles, le schéma s'est avéré très convaincant et sans presque aucun compromis :

  • GPT-2 124M avec 4 domaines a réduit la perplexité de 33,4%
  • Pythia-410M avec 6 domaines a réduit la perplexité de 34,3%
  • Pythia-1B avec 8 domaines a réduit la perplexité de 31,2%
  • La précision du routage a atteint 96%, et la dégradation des anciennes compétences est restée à 0,000%

De plus, l'auteur a testé plusieurs techniques populaires souvent recommandées pour MoE. Les pénalités d'équilibrage de charge ont aggravé les résultats de 11–27%, et l'entraînement conjoint des experts et du routeur a conduit à un effondrement de la qualité. L'équilibrage sans perte a fonctionné le mieux : il a gardé tous les experts « vivants » sans perte supplémentaire distincte. À ce stade, tout ressemblait à un argument solide en faveur des LLMs modulaires, où de nouvelles capacités pourraient être connectées sans réentraînement complet.

Où la métrique s'est cassée

Les problèmes ont commencé lorsque l'architecture a été transférée à Qwen 2.5 3B et qu'un expert mathématique a été ajouté. Selon les métriques internes, tout était à nouveau parfait : la perplexité sur les textes mathématiques a baissé de 23,9%, l'écart entre domaines a augmenté 64,9 fois, et le routeur sélectionnait le bon expert avec presque aucune erreur. Mais sur GSM8K, qui teste la capacité à résoudre des problèmes de mots scolaires, le modèle est tombé de 74,4% à 65,8%.

«

Un modèle qui parle le langage des mathématiques n'a absolument aucune capacité à résoudre des problèmes. »

C'est la conclusion clé de tout le travail. L'expert entraîné sur des manuels et des articles a réellement maîtrisé les statistiques du langage mathématique : où les formules apparaissent généralement, quels termes vont ensemble et à quoi ressemble le texte « correct » de ce domaine. Mais GSM8K nécessite non pas seulement la reconnaissance du style, mais des chaînes de raisonnement. Par conséquent, la réduction de la perplexité ici mesurait non pas une amélioration réelle de la pensée, mais simplement une meilleure modélisation du texte spécifique au domaine. Le chercheur a séparément revérifié les alternatives—dégeler les couches supérieures, entraînement conjoint et un schéma en deux phases—mais toutes les options sont restées aux mêmes moins 8,4–8,6 points de pourcentage.

Ce qui a mieux fonctionné

Une percée fonctionnelle s'est produite après l'auto-distillation. Au lieu de textes mathématiques bruts, l'expert a été entraîné sur des solutions étape par étape que le modèle de base lui-même avait déjà réussi à obtenir correctement. Pour cela, 750 tâches GSM8K ont été prises : le modèle en a résolu 638, et de ces solutions un ensemble de données de 119 mille tokens a été assemblé.

Ceci est 33 fois plus petit que le corpus de 4 millions de tokens de manuels et d'articles, mais le format s'est avéré être bien plus proche de l'inférence réelle. Le résultat s'est inversé par rapport aux attentes. Après cet entraînement, GSM8K a augmenté à 75,5% : c'est 1,1 points de pourcentage au-dessus du modèle de base et 9,7 points mieux que la variante de texte mathématique brut.

Pendant ce temps, la perplexité, au contraire, s'est aggravée de 17,8%.

De plus, il s'est avéré que même l'empaquetage des données compte : le format « question/réponse » a donné 2–3 points de plus que le format plus académique « problème/solution ». En d'autres termes, il est plus utile d'entraîner l'expert pour la forme d'utilisation future, plutôt que pour un corpus abstraitement « de haute qualité ». Une tentative de transformer cette approche en un cycle d'auto-amélioration n'a pas réussi.

Les premières exécutions ont suggéré une croissance de 75,5% à 76,0%, mais après avoir fixé la graine et étendu l'échantillon, l'effet s'est avéré être du bruit statistique. Au démarrage à froid, le nouvel expert a rapidement atteint un plateau, et au démarrage à chaud, la qualité a même diminué parce que les mêmes tâches se répétaient trop entre les cycles et l'expert s'est surappris. Le lissage des étiquettes a séparément échoué : en mathématiques, il a coûté 9 points supplémentaires.

Ce que cela signifie

Pour les développeurs de LLM, il y a immédiatement deux conclusions pratiques ici. D'abord, l'architecture modulaire avec des experts enfichables peut effectivement ajouter des compétences de domaine sans oubli catastrophique. Deuxièmement, évaluer ces systèmes par la perplexité est dangereux : elle peut s'améliorer précisément lorsque le modèle commence à raisonner moins bien. Si la tâche implique la logique, le code ou les mathématiques, le critère principal doit être les benchmarks comportementaux, pas seulement les belles métriques de langage.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…