Jiqizhixin (机器之心)→ original

DeepMind et le « mining » des fonctions d'activation : pourquoi ReLU devrait prendre sa retraite

Pendant des décennies, nous avons vécu dans un monde où la fonction d'activation ReLU était un standard inébranlable. Elle était simple comme une brique et…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
DeepMind et le « mining » des fonctions d'activation : pourquoi ReLU devrait prendre sa retraite
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Pendant des décennies, nous avons vécu dans un monde où la fonction d'activation ReLU était un standard inébranlable. Elle était simple comme une brique et efficace juste assez pour ne pas gêner l'apprentissage des réseaux de neurones. Mais soyons honnêtes : ReLU (Rectified Linear Unit) est devenue populaire non pas parce qu'elle était idéale, mais parce qu'en 2012 nous n'avions pas les ressources pour essayer quelque chose de plus complexe.

Maintenant DeepMind a décidé qu'il était temps d'arrêter de deviner et a transformé la recherche de formules mathématiques en un véritable minage industriel. L'équipe de chercheurs a construit ce qu'ils appellent une "mine computationnelle." L'idée est simple et en même temps folle : si nous ne savons pas quelle fonction mathématique convient le mieux à l'apprentissage profond, testons-les toutes.

C'est la méthode classique de la force brute, poussée à son limite absolue. Au lieu de faire passer des années à des mathématiciens pour dériver des preuves élégantes, DeepMind a mobilisé des milliers de processeurs graphiques pour "extraire" l'algorithme parfait. Pourquoi cela se produit-il maintenant ?

Le marché des LLM a atteint un plafond d'efficacité. Nous continuons à augmenter le nombre de paramètres, mais les éléments constitutifs de base des modèles changent à peine. DeepMind s'est rendu compte que même un minuscule gain d'efficacité au niveau de la fonction d'activation, à l'échelle de GPT-4 ou Gemini, économise des millions de dollars d'électricité et des semaines de temps d'entraînement.

Ce n'est pas simplement un intérêt académique, c'est de l'économie pure. Lors de leur "minage," le système a testé des millions de combinaisons d'opérateurs mathématiques. Les chercheurs cherchaient des fonctions qui non seulement affichaient une haute précision sur le papier, mais qui "s'entendaient bien" avec le matériel moderne.

Il s'est avéré que de nombreuses fonctions théoriquement fortes sont trop complexes pour les calculs sur GPU, ce qui les rend inutiles en production réelle. DeepMind recherchait le juste milieu—la simplicité computationnelle et la flexibilité mathématique. Les résultats sont impressionnants.

Les fonctions découvertes surpassent non seulement la bonne vieille ReLU, mais aussi des alternatives plus modernes comme Swish ou GeLU. Le plus intéressant ici est le changement de paradigme. Nous passons de l'ère des "personnes intelligentes inventant des algorithmes" à l'ère des "systèmes intelligents cultivant des algorithmes."

C'est le vrai AutoML, dont nous rêvions depuis cinq ans, mais il a maintenant atteint les fondements mêmes des connexions neuronales. Qu'est-ce que cela signifie pour l'industrie ? Très probablement, dans la prochaine génération de grands modèles de langage, nous verrons des architectures qui nous sembleront étranges.

Elles utiliseront des fonctions qu'aucune personne sensée ne dériverait jamais au tableau, car elles ne paraissent pas "belles" du point de vue de l'analyse mathématique classique. Mais elles fonctionneront. Et elles fonctionneront plus vite que tout ce que nous avons jamais vu.

L'essentiel : DeepMind a clairement montré que la "ruée vers l'or" en IA se déplace du domaine des ensembles de données gigantesques au domaine de la réinvention des mathématiques fondamentales. Si vous pensiez que les fondements de l'apprentissage profond étaient déjà consolidés, préparez-vous—ils sont actuellement démolis à la pioche.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…