Un pionnier de la génération d’images vise une révolution dans l’AI textuelle
Stefano Ermon, l’un des créateurs de la technologie des modèles de diffusion qui sous-tend les générateurs d’images comme Stable Diffusion et DALL-E, a…
Traité par IA depuis Bloomberg Tech ; édité par Hamidun News
Lorsqu'un scientifique dont les idées ont façonné toute une industrie des médias générés par IA décide de pivoter vers l'IA textuelle, le marché doit prêter attention. Stefano Ermon, professeur à l'Université de Stanford et l'un des principaux chercheurs en modèles de diffusion, a présenté une technologie par le biais de sa startup Inception qui promet d'accélérer significativement les systèmes d'IA basés sur le texte—des chatbots aux assistants d'entreprise.
Pour comprendre l'ampleur de ce mouvement, nous devons nous rappeler qui est Ermon et pourquoi son nom a tant de poids. Ses recherches sur les modèles générés par score sont devenues l'un des fondements sur lesquels ont été construits Stable Diffusion, DALL-E et des dizaines d'autres services de création d'images et de vidéos. Les modèles de diffusion—la technologie qui permet de convertir des descriptions textuelles en images photoréalistes—doivent beaucoup de leur existence au travail d'Ermon et de ses collègues. Il ne s'agit pas simplement d'une contribution académique : nous parlons d'une technologie qui génère des milliards de dollars de chiffre d'affaires pour les entreprises du monde entier.
Désormais, Ermon vise un territoire solidement contrôlé par OpenAI, Google, Anthropic et Meta—le traitement du langage naturel. Sa startup Inception, dont on savait peu de choses jusqu'à récemment, a présenté une technologie capable d'accélérer la génération de texte dans les modèles de langage. Si les détails ne sont pas encore complètement révélés, selon Bloomberg, il s'agit d'une approche fondamentalement nouvelle de l'architecture de l'inférence—la partie du modèle responsable de la livraison des réponses aux utilisateurs en temps réel.
La vitesse d'inférence est l'un des défis centraux de l'industrie des grands modèles de langage. Chaque fois que vous posez une question à ChatGPT ou Claude, le modèle génère une réponse token par token, un processus qui nécessite d'énormes ressources informatiques. Les entreprises dépensent des milliards de dollars en clusters GPU pour assurer des temps de réponse acceptables à des centaines de millions d'utilisateurs.
Toute technologie capable de réduire le temps de génération ne serait-ce que de dizaines de pour cent a une valeur économique colossale. C'est pourquoi des dizaines de startups et de laboratoires de recherche se concentrent désormais sur l'optimisation de l'inférence—de Groq avec ses puces spécialisées à diverses solutions logicielles pour la quantification et le décodage spéculatif.
Le fait qu'Ermon apporte l'expérience du monde des modèles de diffusion à cette course pourrait s'avérer être un avantage inattendu. Les modèles de diffusion fonctionnent fondamentalement différemment des transformers autoregressifs : au lieu de la génération séquentielle de tokens, ils affinent itérativement les résultats à partir du bruit. Les chercheurs expérimentent depuis des années le transfert des principes de diffusion à la génération de texte, et certains résultats semblent prometteurs. Si Inception a trouvé un moyen d'appliquer ces idées pour l'accélération pratique des modèles de texte, cela pourrait représenter une véritable avancée—non pas une amélioration évolutive, mais un changement de paradigme.
Cela dit, le scepticisme est également justifié. Le marché des startups d'IA est inondé de promesses ambitieuses, et loin de toutes elles résistent à la réalité à grande échelle. C'est une chose de démontrer des résultats impressionnants dans des conditions de laboratoire ; c'en est une autre de déployer la technologie pour des millions d'utilisateurs tout en maintenant la qualité des réponses. Les grands acteurs comme OpenAI et Google possèdent non seulement l'infrastructure la plus puissante, mais aussi d'énormes équipes d'ingénieurs qui ont affiné leurs systèmes au fil des années. Concurrencer avec eux sur leur propre terrain est une tâche d'un ordre complètement différent que la publication d'un article de recherche.
Néanmoins, la réputation et les antécédents d'Ermon font d'Inception l'une des startups les plus intéressantes du paysage actuel. Le marché de l'infrastructure pour l'inférence d'IA est estimé à des dizaines de milliards de dollars et croît rapidement. Si la technologie d'Inception fonctionne réellement, l'entreprise a plusieurs voies stratégiques : licence aux grands fournisseurs, création de son propre service d'API, ou, tout aussi probablement, acquisition par l'un des géants de la technologie.
L'histoire d'Inception reflète aussi une tendance plus large : les frontières entre différents domaines de l'IA générative s'estompent. Les idées nées dans le monde des images migrent vers le texte, et vice versa. La multimodalité cesse d'être simplement un terme marketing et devient une réalité d'ingénierie. Si un scientifique qui a transformé la génération d'images peut tout aussi radicalement influencer le traitement du texte, ce sera la meilleure preuve que l'industrie de l'IA est encore loin de sa maturité—et les percées les plus intéressantes pourraient être à venir.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.