Yann LeCun présente LeWorldModel — Modèle JEPA sans effondrement de représentation à partir de pixels
Yann LeCun et ses collègues ont introduit LeWorldModel — un nouveau JEPA world model qui apprend directement à partir de données de pixels sans…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Une équipe de chercheurs dirigée par Yann LeCun a présenté LeWorldModel, ou LeWM—un nouveau world model pour entraîner des agents directement sur des données de pixels. Les auteurs affirment que le modèle résout l'un des principaux problèmes de l'approche JEPA—l'effondrement de représentation—tout en accélérant considérablement la planification.
Pourquoi JEPA S'Effondre
Les world models sont nécessaires aux agents pour construire une carte interne compacte de l'environnement et calculer les actions non pas sur des images brutes, mais dans un espace latent. Cependant, lors d'un entraînement direct sur des images, ces systèmes tombent souvent dans l'effondrement de représentation : différentes scènes commencent à être codées de manière similaire, et le modèle exécute formellement la tâche de prédiction mais perd la structure utile du monde. C'est pourquoi les développeurs doivent assurer l'entraînement avec des techniques auxiliaires—stop-gradient, EMA, encodeurs gelés et fonctions de perte multi-composants.
Le problème est particulièrement pénible pour les agents qui doivent planifier de longues chaînes d'actions : si l'espace latent dégénère, le planificateur cesse de distinguir les bons scénarios des mauvais.
Comment Fonctionne LeWM
LeWM tente d'éliminer cette complexité. L'architecture se compose de deux parties principales : un encodeur qui traduit une image en une représentation latente compacte et un prédicteur qui estime l'état suivant en fonction de l'état actuel et de l'action. L'implémentation utilise ViT-Tiny avec environ 5 millions de paramètres et un prédicteur transformer avec environ 10 millions, de sorte que l'ensemble du système s'adapte à 15 millions de paramètres et, selon les auteurs, s'entraîne sur une seule GPU en quelques heures.
L'idée clé est de ne pas créer d'objectifs auxiliaires, mais de conserver uniquement la prédiction du prochain embedding et le régularisateur SIGReg. SIGReg force les vecteurs latents à rester divers et proches d'une distribution gaussienne isotrope. Pour ce faire, le modèle ne regarde pas l'espace entier dans son ensemble, mais un ensemble de projections unidimensionnelles aléatoires et vérifie leurs statistiques. Cette approche devrait réduire le risque de représentations dégénérées sans surcharge d'ingénierie lourde.
En termes pratiques, LeWM ne conserve qu'un seul hyperparamètre vraiment important—le poids de régularisation λ—alors que l'alternative end-to-end la plus proche, PLDM, a nettement plus de paramètres. Les auteurs notent également séparément que pour la stabilité, un dropout de 0,1 dans le prédicteur et une petite couche de projection après l'encodeur ont aidé.
Ce Que les Tests Ont Montré
Selon les résultats de l'article, LeWM s'est avéré non seulement plus stable lors de l'entraînement, mais aussi plus rapide au stade de la planification. Les auteurs le comparent avec PLDM et DINO-WM sur des tâches de navigation, de manipulation et de contrôle dans des environnements 2D et 3D. Le modèle fonctionne directement avec des pixels, sans encodeur foundation gelé et sans dépendre de tâches nécessitant une récompense, tout en restant compétitif sur plusieurs benchmarks.
- environ 200 fois moins de tokens par image par rapport à DINO-WM
- jusqu'à 48 fois plus rapide pour la planification : environ 0,98 secondes contre 47 secondes par cycle
- seulement deux fonctions de perte au lieu de sept dans les approches basées sur PLDM utilisant VICReg
- un hyperparamètre principal au lieu d'un ensemble de réglages manuels
- l'espace latent capture les quantités physiques et identifie les événements « impossibles » comme la téléportation d'objets
Les auteurs ont testé séparément si le modèle comprend la logique physique de la scène, plutôt que simplement de prédire les images suivantes. Dans les tests de violation d'attente, le système a réagi plus fortement aux événements physiquement implausibles, comme la téléportation soudaine d'un objet, qu'aux changements purement visuels. Un autre effet intéressant est le redressement de la trajectoire latente temporelle : à mesure que l'entraînement progresse, les trajectoires dans l'espace latent deviennent plus lisses et linéaires même sans une pénalité séparée qui imposerait explicitement un tel comportement. C'est important car les trajectoires latentes plus lisses simplifient généralement la recherche d'actions lors de la planification.
Ce Que Cela Signifie
Pour le marché des agents, c'est un signal important : les world models redeviennent une direction pratique, pas seulement une idée académique. Si LeWM et des approches similaires confirment les résultats au-delà des benchmarks de laboratoire, les développeurs pourront construire des agents plus rapides et moins chers qui planifient dans un espace d'état compact sans encodeurs foundation lourds. C'est particulièrement intéressant pour la robotique, l'apprentissage hors ligne et les systèmes où le coût de l'erreur et de la latence est critique. Essentiellement, LeWM montre que la lutte contre l'effondrement de représentation peut se faire non pas en compliquant la pile, mais en formulant plus soigneusement la tâche d'apprentissage elle-même.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.