Jiqizhixin (机器之心)→ original

Le Transformer n'est plus nécessaire : l'ex-vice-président d'OpenAI construit un nouvel empire pour un milliard

Il semble que les couloirs d'OpenAI se vident. L'exode des cadres clés de l'entreprise de Sam Altman s'est transformé d'une malheureuse fuite des talents en…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Le Transformer n'est plus nécessaire : l'ex-vice-président d'OpenAI construit un nouvel empire pour un milliard
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Il semble que les couloirs d'OpenAI se vident. L'exode des cadres clés de l'entreprise de Sam Altman s'est transformé d'une malheureuse fuite des talents en une formation complète d'une nouvelle industrie. Cette fois-ci, les gros titres ont été remués par un ancien vice-président de la Recherche, qui n'a pas seulement quitté "vers le néant", mais a annoncé la création d'une startup avec des ambitions d'un milliard de dollars.

Et son objectif principal sonne presque sacrilège pour la communauté de l'IA moderne : il prévoit de défier l'architecture Transformer, qui est le fondement de tout ce que nous appelons l'intelligence artificielle moderne. Soyons honnêtes : Transformer, offert au monde par les chercheurs de Google en 2017, est devenu l'étalon-or. Tous ces GPT, Claude et Gemini sont essentiellement que des variations sur une même idée.

Mais cette architecture a des problèmes fondamentaux avec l'évolutivité de la mémoire et l'efficacité informatique. Plus le contexte est long, plus les réseaux de neurones ont du mal à "respirer". Les anciens dirigeants d'OpenAI, qui ont été aux origines de l'entraînement des modèles les plus puissants, comprennent parfaitement que l'augmentation infinie du nombre de GPU est une impasse.

Pour atteindre une véritable intelligence artificielle générale, il vous faut quelque chose de plus élégant et efficace que l'"attention" brute sur laquelle repose la pile technologique actuelle. La somme d'un milliard de dollars que le nouveau projet envisage d'attirer n'est pas seulement un joli chiffre pour les gros titres. C'est le prix d'entrée dans la ligue majeure.

Dans un monde où l'entraînement d'un modèle coûte des centaines de millions, tenter de créer une architecture alternative nécessite d'énormes ressources pour expérimenter avec le matériel et les données. Nous avons déjà vu des tentatives de mise en œuvre de State Space Models (SSM) ou d'architectures comme Mamba, mais aucune d'entre elles n'a réussi à détrôner le roi. Le fait que l'homme responsable du "post-entraînement" chez OpenAI relève ce défi suggère qu'il a une compréhension concrète de l'endroit exact où l'ancienne architecture commence à s'effondrer.

Ce départ fait partie d'une tendance plus large. Nous observons comment la "mafia d'OpenAI" s'étend dans la Silicon Valley, créant une concurrence que Microsoft et Google ne pouvaient que rêver. Anthropic était le premier signal, SSI (Safe Superintelligence) d'Ilya Sutskever le second.

Maintenant nous voyons la troisième vague : ceux qui veulent changer non pas seulement les méthodes d'entraînement ou les questions de sécurité, mais le fondement mathématique même des réseaux de neurones. Si cette startup peut prouver que son approche fonctionne mieux sur de longues distances, OpenAI se trouvera dans la position d'une entreprise qui a investi des milliards dans la perfection du moteur à vapeur au moment où le moteur à combustion interne est apparu. Les investisseurs semblent prêts à prendre le risque.

Dans la vallée en ce moment, il y a un étrange mélange d'euphorie et de peur de manquer "la prochaine grande chose". Tout le monde comprend que le succès actuel des LLMs pourrait être un maximum local. Et tandis que Sam Altman s'affaire à transformer OpenAI en une corporation commerciale et à chercher des billions pour les puces, ses anciens ingénieurs essaient de réinventer la roue.

C'est une histoire classique de David et Goliath, sauf que David a un milliard de dollars de capital-risque dans sa poche et la meilleure expérience de l'industrie. Qu'est-ce que cela signifie pour nous ? Très probablement, nous sommes à la veille d'un changement de paradigme.

Si la nouvelle architecture s'avère plus efficace, l'IA sera non seulement plus intelligente, mais aussi moins chère, plus accessible et peut-être plus autonome. Il est temps que nous nous habituions à l'idée que l'acronyme GPT pourrait devenir aussi anachronique que Netscape ou AltaVista. Dans le monde de l'IA, six mois est une ère, et un an est une éternité.

Et cette éternité semble appartenir à ceux qui ont osé appuyer sur le bouton "supprimer" du code Transformer. La question clé : La nouvelle architecture pourra-t-elle évoluer aussi prévisiblement que Transformer, ou verrons-nous une autre "bulle" d'ambitions qui éclate contre la dure réalité de l'informatique distribuée ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…