Jiqizhixin (机器之心)→ original

Emu2 dans Nature : les scientifiques chinois ont trouvé le code unique de la réalité

Depuis longtemps, l'intelligence artificielle moderne ressemblait à un monstre de Frankenstein de haute technologie. Nous avions l'habitude que les réseaux…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Emu2 dans Nature : les scientifiques chinois ont trouvé le code unique de la réalité
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Depuis longtemps, l'intelligence artificielle moderne ressemblait à un monstre de Frankenstein de haute technologie. Nous avions l'habitude que les réseaux de neurones possèdent différents « organes » pour différents sens : les modèles de langage comme GPT excellaient brillamment avec le texte par autorégression, prédisant le prochain mot, tandis que les générateurs d'images comme Midjourney ou Stable Diffusion vivaient dans un monde de diffusion, extrayant l'ordre du chaos des pixels aléatoires. Cette division semblait fondamentale et inviolable, comme la différence entre la logique et l'imagination.

Cependant, les chercheurs de l'Académie de Pékin pour l'Intelligence Artificielle (BAAI) ont décidé que ce dualisme architectural méritait d'être relégué au passé. Leur nouveau travail sur le modèle multimodal Emu2, récemment publié dans la revue Nature, fait une affirmation audacieuse : pour comprendre et créer ce monde, un seul et unique principe algorithmique suffit. L'essence de la percée réside dans l'unification.

Les scientifiques ont réussi à prouver que n'importe quelle information—qu'il s'agisse d'un traité philosophique, d'une vidéo d'un chat qui court ou d'un schéma de microchip—peut être réduite à un seul format de token. Dans le système Emu2, une image n'est plus un ensemble de pixels au sens conventionnel. Elle se transforme en une séquence de « mots visuels » que le réseau de neurones apprend à prédire exactement comme nous prédisons la fin de cette phrase.

Cette approche, appelée apprentissage autorégressif, a longtemps été considérée comme trop encombrante pour les graphiques. Mais les ingénieurs chinois, en utilisant un modèle avec 37 milliards de paramètres, ont démontré qu'avec la bonne approche, l'autorégression non seulement égale la diffusion en qualité, mais la dépasse en flexibilité. Pourquoi casser quelque chose qui fonctionnait bien?

Le problème des systèmes actuels réside dans leurs « coutures ». Quand vous essayez de marier un cerveau textuel avec des yeux visuels, vous devez construire des ponts-adaptateurs complexes, sur lesquels le sens et le contexte se perdent inévitablement. Emu2, cependant, possède une multimodalité inhérente.

Elle ne traduit pas du langage des images au langage des mots—elle pense intrinsèquement dans un langage où le pixel et la lettre ont égale valeur. Cela permet au modèle de démontrer une efficacité effrayante dans l'apprentissage en contexte. Vous pouvez lui montrer un couple d'exemples de comment éditer une photo, et elle saisi instantáneamente la logique de la tâche sans aucun entraînement supplémentaire.

C'est précisément la magie qui a autrefois fait du GPT-3 une sensation mondiale, mais maintenant elle s'est étendue à tout l'espace visuel. Le contexte de cet événement ne peut pas être ignoré. La publication dans Nature est le plus haut signe de qualité dans le monde scientifique, et le fait qu'elle soit allée à BAAI en dit long.

Tandis que les géants occidentaux comme OpenAI ou Google rivalisent dans le secret de leurs laboratoires, les chercheurs chinois construisent méthodiquement les fondations théoriques pour la prochaine génération d'IA. Emu2 tire effectivement un trait sur l'ère des outils spécialisés. Nous entrons dans une ère de moteurs universels de prédiction de la réalité.

Si tout autour de nous est une séquence de données, alors le gagnant sera celui dont le modèle prédit le mieux l'élément suivant de cette séquence, quelle que soit sa nature. Bien sûr, la transition vers l'autorégression pure nécessite des ressources informatiques colossales. C'est un jeu pour ceux qui ont un accès illimité aux GPU et une patience infinie dans l'ajustement des hyperparamètres.

Mais l'histoire de la technologie nous enseigne : l'universalité élégante vainc toujours les solutions spécialisées à long terme. Nous avons déjà vu comment les transformateurs ont « dévoré » les réseaux récurrents en linguistique. Maintenant, nous observons comment ils commencent à absorber le monde de la vision par ordinateur.

Ce n'est pas qu'un autre modèle, c'est un manifeste d'une nouvelle pureté architecturale qui forcera beaucoup à reconsidérer leurs feuilles de route pour les prochaines années. L'essentiel : Pékin a officiellement sécurisé sa position de leader en théorie fondamentale de l'IA, prouvant que l'avenir appartient aux modèles autoregressifs unifiés. Cela signifie-t-il que les réseaux de neurones de diffusion sont destinés à la poubelle de l'histoire, ou trouveront-ils leur créneau dans les tâches fortement spécialisées?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…