Jiqizhixin (机器之心)→ original

Distillation de l'esprit : pourquoi les réseaux de neurones sont endommagés par des professeurs trop intelligents

Distillation de l'Esprit : Pourquoi les Réseaux de Neurones Souffrent des Professeurs Trop Intelligents Imaginez que vous essayez d'expliquer…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Distillation de l'esprit : pourquoi les réseaux de neurones sont endommagés par des professeurs trop intelligents
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Distillation de l'Esprit : Pourquoi les Réseaux de Neurones Souffrent des Professeurs Trop Intelligents

Imaginez que vous essayez d'expliquer l'électrodynamique quantique à un enfant de première année. Vous pourriez être un génie du niveau de Feynman, mais votre élève ne possède tout simplement pas l'appareil conceptuel nécessaire pour assimiler l'information. Dans le monde de l'intelligence artificielle, ce processus s'appelle la distillation, où un énorme modèle « professeur » comme GPT-4 tente de transférer ses connaissances à un modèle « élève » compact.

Jusqu'à présent, l'industrie croyait que plus nous alimentons un petit modèle avec des données, plus il deviendrait intelligent. Mais les chercheurs de l'Université de Fudan ont décidé de remettre en question cette approche quantitative, en prouvant que les montagnes de données se transforment souvent en bruit informatif. Le problème avec la distillation classique du raisonnement est que nous ne tenons pas compte du fossé cognitif entre les modèles.

Si une tâche est trop simple, le modèle élève connaît déjà la réponse et n'apprend rien. Si une tâche est trop difficile, il mémorise simplement la séquence de tokens sans comprendre la logique de l'inférence. Les scientifiques chinois ont introduit un concept élégant « d'étrangers familiers ».

Ce sont les points de données où le modèle élève hésite : il comprend le contexte, mais ne peut pas encore produire des résultats constamment corrects. C'est précisément dans cette « zone grise » que se produit la véritable croissance de l'intelligence. Pour trouver ces pépites d'or de données, l'équipe a proposé un indicateur simple mais efficace.

Au lieu de s'appuyer sur des évaluations complexes de poids ou des vérifications externes, ils regardent la confiance du modèle dans ses réponses. Si le modèle élève produit la bonne réponse avec une faible probabilité ou ne se trompe que légèrement, alors nous avons trouvé cet « étrangers familiers ». Cela ressemble à la zone de développement proximal en psychologie humaine : nous apprenons mieux lorsqu'une tâche nous met au défi, mais reste réalisable.

Les résultats expérimentaux ont l'air décourageants pour ceux qui ont l'habitude de simplement jeter des cartes vidéo H100 sur le problème. Il s'est avéré que s'entraîner sur 10 % d'« étrangers familiers » soigneusement sélectionnés surpasse en efficacité l'entraînement sur 100 % de données aléatoires du même ensemble. Ce n'est pas juste une petite optimisation, c'est un changement fondamental dans l'économie de l'entraînement des réseaux de neurones.

Nous passons d'une stratégie « plus c'est mieux » à une sélection chirurgicalement précise des exemples d'entraînement. Pourquoi c'est important pour nous maintenant ? La bataille pour l'IA se déplace des énormes fermes de serveurs vers nos poches.

Apple, Google et Samsung tentent désespérément de faire tenir des modèles de raisonnement puissants dans les téléphones intelligents. La méthodologie de l'Université de Fudan permet de rendre ces modèles locaux considérablement plus intelligents sans gonfler leur taille et sans dépenser des semaines à l'ajustement fin. Si nous apprenons à sélectionner efficacement les données pour la distillation, l'écart entre les géants du cloud et les assistants locaux se réduira beaucoup plus rapidement que ne l'avaient prédit les sceptiques.

En fin de compte, la recherche nous rappelle l'importance de la pédagogie même dans le monde du silicium. Un bon professeur n'est pas celui qui en sait le plus, mais celui qui comprend le niveau actuel de son élève et lui donne précisément la tâche qui forcera son cerveau (ou son réseau de neurones) à travailler à la limite de ses capacités. Il semble que l'ère de la consommation insouciante de téraoctets de texte touche à sa fin, cédant la place à un apprentissage intelligent et sélectif.

L'essentiel : L'efficacité de l'entraînement est maintenant plus importante que le volume de données. Verrons-nous dans l'année à venir des modèles locaux qui égalent GPT-4 en qualité de raisonnement grâce au filtrage approprié du savoir ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…