يان لوكن يقدم LeWorldModel — نموذج JEPA بدون انهيار التمثيلات من البيكسل
قدم يان لوكن وزملاؤه LeWorldModel — نموذج عالمي JEPA جديد يتعلم مباشرة من بيانات البيكسل دون stop-gradient و EMA والمشفرات المتجمدة. يحتوي النموذج على دالتي خسا

Команда исследователей во главе с Яном Лекуном представила LeWorldModel, или LeWM, — новую world model для обучения агентов напрямую на пиксельных данных. Авторы утверждают, что модель решает одну из главных проблем JEPA-подхода — коллапс представлений — и при этом заметно ускоряет планирование.
Почему JEPA ломается
World models нужны агентам для того, чтобы строить компактную внутреннюю карту среды и просчитывать действия не в сырых кадрах, а в латентном пространстве. Но при обучении прямо на изображениях такие системы часто сваливаются в representation collapse: разные сцены начинают кодироваться слишком похоже, и модель формально выполняет задачу предсказания, но теряет полезную структуру мира. Из-за этого разработчикам приходится страховать обучение вспомогательными приёмами — stop-gradient, EMA, замороженными энкодерами и многокомпонентными функциями потерь. Проблема особенно болезненна для агентов, которым нужно планировать длинные цепочки действий: если скрытое пространство вырождается, планировщик перестаёт различать хорошие и плохие сценарии.
Как устроен LeWM LeWM пытается убрать эту сложность.
Архитектура состоит из двух основных частей: энкодера, который переводит кадр в компактное латентное представление, и предиктора, который по текущему состоянию и действию оценивает следующее. В реализации используют ViT-Tiny примерно на 5 млн параметров и трансформер-предиктор примерно на 10 млн, так что вся система укладывается в 15 млн параметров и, по словам авторов, обучается на одной GPU за несколько часов. Ключевая идея — не плодить вспомогательные цели, а оставить только предсказание следующего embedding и регуляризатор SIGReg.
SIGReg заставляет латентные векторы оставаться разнообразными и близкими к изотропному гауссовскому распределению. Для этого модель смотрит не на всё пространство целиком, а на множество случайных одномерных проекций и проверяет их статистику. Такой ход должен снижать риск вырожденных представлений без тяжёлой инженерной обвязки.
В практическом плане у LeWM остаётся один реально важный гиперпараметр — вес регуляризации λ, тогда как у ближайшей end-to-end альтернативы PLDM таких настроек существенно больше. Авторы также отдельно отмечают, что для устойчивости помогли dropout 0,1 в предикторе и небольшой проекционный слой после энкодера.
Что показали тесты
По результатам статьи, LeWM оказался не просто стабильнее на обучении, но и быстрее на этапе планирования. Авторы сравнивают его с PLDM и DINO-WM на задачах навигации, манипуляции и управления в 2D и 3D-средах. Модель работает напрямую с пикселями, без замороженного foundation-энкодера и без привязки к задачам, где нужна награда, но при этом остаётся конкурентоспособной на нескольких бенчмарках.
около 200 раз меньше токенов на кадр по сравнению с DINO-WM до 48 раз быстрее планирование: примерно 0,98 секунды против 47 секунд на цикл всего две функции потерь вместо семи у PLDM-подходов на базе VICReg один основной гиперпараметр вместо набора ручных настроек * латентное пространство улавливает физические величины и выделяет «невозможные» события вроде телепортации объектов Отдельно авторы проверяли, понимает ли модель физическую логику сцены, а не только угадывает следующие кадры. В тестах violation-of-expectation система сильнее реагировала на физически неправдоподобные события, например внезапную телепортацию объекта, чем на чисто визуальные изменения. Ещё один интересный эффект — temporal latent path straightening: по мере обучения траектории в латентном пространстве становились более гладкими и линейными даже без отдельного штрафа, который бы специально навязывал такое поведение.
Это важно, потому что более ровные латентные траектории обычно упрощают поиск действий при планировании.
Что это значит
Для рынка агентов это важный сигнал: world models снова становятся практичным направлением, а не только академической идеей. Если LeWM и похожие подходы подтвердят результаты за пределами лабораторных бенчмарков, разработчики смогут строить более быстрых и дешёвых агентов, которые планируют в компактном пространстве состояний без тяжёлых foundation-энкодеров. Это особенно интересно для робототехники, офлайн-RL и систем, где цена ошибки и задержки критична. По сути, LeWM показывает, что борьбу с коллапсом представлений можно вести не усложнением стека, а более аккуратной постановкой самой задачи обучения.