Loi de mise à l'échelle sur pilote automatique : l'IA a commencé à apprendre aux gens à construire des réseaux de neurones
Imaginez que vous construisez un gratte-ciel mais ne savez pas avec certitude si les fondations supporteront dix étages de plus. Dans le monde des grands…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Imaginez que vous construisez un gratte-ciel mais ne savez pas avec certitude si les fondations supporteront dix étages de plus. Dans le monde des grands modèles de langage, tout fonctionne à peu près de la même manière. Les ingénieurs dépensent des centaines de millions de dollars en entraînement, espérant que l'ajout de quelques milliers de cartes graphiques supplémentaires rendra le modèle plus intelligent, pas seulement plus cher.
Ces règles implicites du jeu s'appellent Lois d'Échelle (Scaling Laws), et jusqu'à présent, leur recherche ressemblait à de l'alchimie moderne. Mais il semble que l'époque de la divination arrive à sa fin, car des chercheurs de l'Université de Pékin et de Stanford ont décidé de confier ce travail ennuyeux et coûteux au réseau de neurones lui-même.
Le problème est que trouver ces lois est un processus éprouvant et prohibitivement coûteux. Rappelez-vous le célèbre travail de DeepMind sur le "modèle Chinchilla" (Chinchilla scaling laws). À l'époque, les chercheurs ont dû entraîner des dizaines de petits modèles, collecter des données sur leur performance et tenter de dériver une formule qui prédire le comportement du "grand frère". Une erreur dans les calculs à ce stade coûte non seulement du temps—elle coûte une fortune.
Le nouveau projet, portant le nom de travail "AI Scientist", change fondamentalement les règles du jeu. Au lieu de forcer les gens à sélectionner manuellement les coefficients et à construire des graphiques, les scientifiques ont créé un système qui analyse les résultats des exécutions d'essai et formule les dépendances mathématiques de lui-même. Ce qui est le plus ironique ici, c'est que ce scientifique virtuel a mieux exécuté la tâche que les experts vivants. Au cours des tests, le système a prédit la précision des modèles avec une marge d'erreur qui s'est avérée être considérablement inférieure à celle des scientifiques des données expérimentés.
Ce n'est pas simplement une question de vitesse ou de commodité. Nous avons l'habitude de penser que la découverte scientifique et l'intuition sont les derniers bastions de l'humanité, mais il s'avère que dans la recherche de modèles cachés dans d'énormes ensembles de données, notre cerveau est trop enclin à la simplification. L'IA ne recherche pas des nombres "jolis" ou des graphiques linéaires simples; elle trouve les dépendances qui fonctionnent réellement dans l'espace multidimensionnel des paramètres.
Pourquoi est-ce important maintenant? Nous avons atteint un point où l'ajout simple de puissance de calcul ne produit plus une croissance explosive en qualité. L'industrie chuchote de plus en plus sur un "plateau", et pour progresser, nous avons besoin non seulement de téraflops mais de précision chirurgicale dans l'architecture. Si auparavant OpenAI ou Google pouvaient se permettre de brûler l'électricité dans des villes entières pour le bien d'une expérience, maintenant les investisseurs exigent l'efficacité.
Automatiser la recherche des Lois d'Échelle est essentiellement créer un navigateur pour ceux qui marchaient autrefois aux instruments dans un brouillard épais. Maintenant, nous pouvons savoir à l'avance s'il vaut la peine de nourrir le modèle avec un billion de tokens supplémentaires ou s'il a déjà atteint sa limite.
Que signifie cela pour l'avenir de l'industrie? Nous verrons probablement une accélération abrupte des cycles de développement. Si auparavant, il fallait des mois pour vérifier une hypothèse fondamentale, maintenant un système automatisé peut exécuter des milliers de scénarios en quelques heures seulement. Cela nous rapproche du moment où les réseaux de neurones commencent à concevoir les générations suivantes d'elles-mêmes avec pratiquement aucune implication humaine. Nous avons toujours la main sur le disjoncteur, mais quelqu'un d'autre dessine les plans. Et ce "quelqu'un" comprend clairement bien mieux les mathématiques de l'apprentissage que nous.
En résumé: L'IA a finalement cessé d'être simplement un "chatbot intelligent" et est devenue un outil pour les découvertes scientifiques fondamentales. Si les réseaux de neurones ont appris à optimiser leur propre entraînement mieux que leurs créateurs, alors la question de l'émergence d'un véritable AGI devient simplement une question de temps et de la bonne formule—une qui sera probablement trouvée non par un humain.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.