Le créateur d'AlphaGo a fondé une entreprise licorne pour construire des super-apprenants IA
David Silver, le scientifique dont le système AlphaGo a été le premier à vaincre un champion du monde de go en 2016, a fondé une nouvelle entreprise évaluée…
Traité par IA depuis Wired ; édité par Hamidun News
David Silver, le scientifique qui a créé l'algorithme AlphaGo qui en 2016 est devenu le premier de l'histoire à vaincre le champion du monde de Go, a annoncé la fondation d'une nouvelle entreprise évaluée à environ un milliard de dollars. Son objectif est de construire ce que Silver appelle des super-apprenants : des systèmes d'IA capables de maîtriser indépendamment des domaines complexes du savoir sans dépendre de données créées par des humains. C'est un défi direct au paradigme dominant de l'industrie, dans lequel tous les principaux acteurs parient sur l'augmentation de l'échelle des modèles de langage.
Silver est l'un des principaux architectes de l'IA moderne, et sa biographie parle d'elle-même. Son travail chez Google DeepMind a conduit à AlphaGo, puis à AlphaZero—un algorithme qui à partir de zéro a maîtrisé les échecs, le shogi et le Go, n'ayant jamais vu une seule partie humaine. Au lieu d'apprendre à partir d'exemples préparés, le système générait et analysait indépendamment des millions de positions, découvrant des stratégies que les joueurs professionnels décrivaient comme surhumaines.
C'est cette expérience qui façonne sa conviction sur ce que devrait être l'IA de prochaine génération.
L'idée centrale de Silver est à la fois simple et radicale : les grands modèles de langage—ChatGPT, Claude, Gemini et autres—sont fondamentalement limités par le fait qu'ils apprennent exclusivement à partir de textes et de données produits par des humains. Cela crée un plafond insurmontable : l'IA ne peut pas dépasser les capacités cognitives de ses créateurs si elle se nourrit seulement de leurs connaissances et de leurs idées fausses. Augmenter simplement le nombre de paramètres et le volume de données d'entraînement, selon lui, ne résout pas ce problème fondamental—il ne fait que l'amplifier.
L'alternative est l'apprentissage par renforcement (reinforcement learning, RL). Contrairement à l'apprentissage supervisé, où un modèle apprend à reproduire les bonnes réponses d'un ensemble de données pré-étiqueté, le RL permet à un agent d'explorer indépendamment l'espace des possibilités : essayer des actions, recevoir des signaux de récompense et construire progressivement une stratégie. C'est exactement ainsi que fonctionnait AlphaGo—et cette approche, en est convaincu Silver, ouvre la voie vers une IA qui surpasse les humains dans un large éventail de tâches, et non seulement dans des jeux prédéfinis.
Cette position a des arguments sérieux en sa faveur. OpenAI se déplace partiellement dans cette direction avec ses modèles de raisonnement de la série o, qui utilisent des éléments de RL pour l'auto-vérification des réponses. Google DeepMind poursuit la recherche fondamentale dans ce domaine.
Néanmoins, l'essentiel des ressources de l'industrie reste concentré sur l'augmentation de l'échelle des modèles de langage, et c'est précisément contre ce courant dominant que Silver prend une position ouvertement contraire. La principale difficulté du RL réside au-delà des tâches étroites et bien définies. Pour les échecs, il est simple de définir la fonction de récompense : vous gagnez et vous recevez un bonus.
Pour écrire un texte convaincant, prendre une décision commerciale bien réfléchie ou mener une recherche scientifique originale, la fonction de récompense n'est pas évidente. C'est précisément ce problème de l'intelligence ineffable que la nouvelle entreprise doit résoudre. L'évaluation d'un milliard de dollars sans un seul produit sur le marché témoigne du poids de la réputation du fondateur.
Dans le climat d'investissement actuel, où chaque startup d'IA prétend à une importance historique, le nom du créateur d'AlphaGo est simultanément une preuve de concept toute prête et une assurance pour les investisseurs qui ne sont pas disposés à attendre des années.
Si Silver a raison, la prochaine phase de la course à l'IA aura une apparence fondamentalement différente : moins de données humaines, plus d'auto-apprentissage autonome, moins d'imitation—plus de découverte. Des systèmes capables de former indépendamment des connaissances au-delà de ce que connaît l'humanité—c'est sa vision des super-apprenants. Si l'idée se matérialisera en un produit réel, le temps le dira. Mais le fait que l'un des principaux architectes de l'IA moderne fasse un pari public contre le paradigme dominant est en soi un signal significatif pour toute l'industrie.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.