Мировые модели: как AI учится понимать реальность вместо текста
MIT провела дискуссию о мировых моделях — нового направления в AI. Компании разрабатывают системы, которые видят и понимают физический мир, как люди. Это попытк

На майской конференции MIT Technology Review обсуждали мировые модели (world models) — то, что может стать следующим большим скачком в развитии искусственного интеллекта. Редактор-в-главе Мат Хонан и старший редактор по AI Уилл Дуглас Хевен разбирали, как компании пытаются научить нейросети не просто обрабатывать текст, но действительно понимать окружающую реальность.
Что такое мировые модели Мировая модель — это не очередная версия LLM.
Это принципиально другая система, которая может смотреть на видео, анализировать изображения, взаимодействовать с окружающей средой и предсказывать последствия действий. Как человек, который видит кубик на краю стола и понимает, что он упадёт. Нейросеть должна приобрести это понимание без явных инструкций, выучив его из наблюдения за физическим миром. Такие модели меняют парадигму обучения. Вместо классической схемы «вот текст, ответь на вопрос» появляется новая: «смотри видео, предсказывай, что произойдёт дальше». Это требует совершенно другой архитектуры, другого набора данных, другого способа оценивать ошибки модели.
Почему текста явно недостаточно
Современные большие языковые модели — это чемпионы по обработке информации, но они слепы в прямом смысле слова. Они знают о гравитации только потому, что люди написали про это миллионы раз в интернете. Но они никогда не видели падающий предмет, не чувствовали инерцию, не экспериментировали с физикой. Это создаёт конкретные слепые пятна: Не могут предсказать физические взаимодействия из первых принципов Путаются в пространственных отношениях между объектами в видео Не способны понять причинно-следственные связи в последовательности кадров Не в состоянии спланировать действия с опорой на реальную физику * Ошибаются в предсказании траекторий и столкновений Это ограничение особенно заметно, когда AI пытается управлять роботом, планировать логистику или предсказать последствия манипуляций в реальности.
Кто работает над world models
OpenAI, DeepMind, Tesla и другие крупные компании активно вкладывают ресурсы в развитие мировых моделей. Подходы варьируются. OpenAI и DeepMind работают на видео-датасетах из YouTube и синтетических симуляциях. Tesla использует миллионы часов видео из камер своих автомобилей, чтобы научить систему видеть мир так же, как видят люди на дороге. Некоторые компании начинают с supervised learning на помеченных видео. Другие используют reinforcement learning в контролируемых симуляциях, где модель может ошибаться миллион раз без реальных последствий, постепенно совершенствуя своё понимание.
Что это значит
Если компаниям удастся масштабировать мировые модели так же успешно, как они масштабировали LLM, AI переходит на новый уровень. От символьной обработки информации к чему-то ближе к подлинному пониманию физической реальности. Робототехника выйдет из лабораторий. Автономные системы станут надёжнее. Планирование сложных процессов ускорится. Но это ещё в начале дороги. MIT Technology Review обращает на это внимание потому, что мировые модели — вероятно, самое важное направление в AI на ближайшие несколько лет. Компании, которые первыми научат нейросети видеть и понимать мир, получат огромное конкурентное преимущество.