Milliards de paramètres : comment nous mesurons l'intelligence en chiffres
Chaque fois qu'un grand lancement d'IA se produit dans l'industrie, la première question dans les commentaires résonne toujours pareil : « Combien de…
Traité par IA depuis KDnuggets ; édité par Hamidun News
Chaque fois qu'un grand lancement d'IA se produit dans l'industrie, la première question dans les commentaires résonne toujours pareil : « Combien de paramètres a-t-il ? » Cela est devenu une sorte de mesure de sophistication, équivalente aux chevaux-vapeur dans le monde des moteurs à combustion interne. Nous nous sommes habitués à des chiffres comme 7, 70 ou même 175 milliards, mais nous nous demandons rarement ce qu'ils signifient exactement.
Si nous laissons de côté le marketing, un paramètre est simplement un nombre. Mais c'est à partir de ces nombres que se tisse le tissu de l'apprentissage automatique moderne. Pour comprendre l'essence, imaginez un énorme panneau de commande avec des milliards de boutons et d'interrupteurs.
Chacun de ces interrupteurs est un paramètre. Lorsqu'un modèle est créé, tous ces boutons sont réglés aléatoirement. Si vous demandiez à un modèle « vide » de ce type le sens de la vie, il produirait une chaîne aléatoire de caractères.
Le processus d'entraînement est le réglage méticuleux de chacun des milliards de paramètres jusqu'à ce que du texte ou des images significatifs apparaissent à la sortie.
Historiquement, nous avons suivi la voie de l'agrandissement. Les premiers réseaux de neurones se contentaient de milliers de paramètres et pouvaient seulement reconnaître les chiffres manuscrits. Puis vint l'ère du Deep Learning, et le comptage s'éleva à des millions.
La véritable percée s'est produite avec l'arrivée de l'architecture Transformer, qui a permis de mettre à l'échelle les modèles à des limites incroyables. Quand OpenAI a lancé GPT-3 avec 175 milliards de paramètres, le monde a tremblé. Il semblait que nous avions trouvé une formule universelle : il suffit d'ajouter plus de paramètres et de données, et le modèle devient plus intelligent.
Ce phénomène a été appelé Scaling Laws. Cependant, dans cette course à la taille, nous avons rencontré la loi des rendements décroissants. Les modèles massifs nécessitent une puissance de calcul colossale, consomment de l'électricité comme de petites villes et s'exécutent lentement.
Que font réellement ces paramètres à l'intérieur du modèle ? En termes techniques, ils se divisent en poids et biais. Les poids déterminent la force des connexions entre neurones : à quel point un mot en contexte doit influencer le choix du mot suivant.
Les biais aident le modèle à corriger ses prédictions lorsque les données s'écartent de la norme. Dans le processus de rétropropagation d'erreur (backpropagation), l'algorithme calcule dans quelle direction tourner chacun des milliards de « boutons » pour que la réponse suivante soit légèrement plus précise. Ce processus se répète des milliers de milliards de fois sur d'énormes ensembles de données provenant d'Internet, de livres et de code.
En résultat, les paramètres cristallisent le savoir humain en eux-mêmes, devenant une sorte de base de données comprimée qui ne sait pas seulement comment stocker les faits, mais aussi comment les combiner.
Cependant, la médaille a un revers : le surapprentissage. Si vous avez trop de paramètres mais pas assez de données de qualité, le modèle peut simplement « mémoriser » l'ensemble d'entraînement. Il devient un élève brillant aux examens avec des questions familières, mais échoue complètement dans la vie réelle quand il est confronté à une tâche inconnue.
C'est l'un des principaux défis du développement moderne : comment équilibrer la puissance du modèle avec sa capacité à généraliser. De plus, nous voyons de plus en plus que les astuces architecturales, telles que Mixture of Experts (MoE), permettent l'utilisation de milliards de paramètres sans les activer tous à la fois. Cela rend les modèles plus efficaces, bien que leur taille continue de croître formellement.
Aujourd'hui, l'industrie s'éloigne progressivement du culte du « gigantisme ». Nous voyons l'émergence de petits modèles de langage (SLM), qui avec 7 milliards de paramètres produisent de meilleurs résultats que les anciens géants avec 100 milliards. Cela se produit grâce à un nettoyage des données de meilleure qualité et à des méthodes d'entraînement intelligentes.
Les paramètres ont cessé d'être simplement un nombre dans un communiqué de presse ; ils sont devenus une ressource qui doit être dépensée avec sagesse. Ultimement, ce qui importe, ce n'est pas le nombre de « boutons » que vous avez sur votre panneau de commande, mais à quel point ils sont ajustés avec précision. Nous entrons dans une ère où l'efficacité architecturale et la densité de connaissance dans chaque paramètre comptent beaucoup plus que leur quantité totale.
L'essentiel : la course à la quantité de paramètres est remplacée par une course à leur qualité. Un modèle avec 1 milliard de paramètres pourrait-il un jour égaler le cerveau humain grâce à un ajustement parfait ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.