Модель мира
Модель мира — нейросетевая система, обученная предсказывать, как состояние среды изменится в ответ на действие агента. Располагая такой моделью, агент может планировать «в воображении» без реального взаимодействия со средой.
Модель мира — нейросетевая система, усваивающая компактное латентное представление среды и предсказывающая её будущие состояния. Концепция восходит к когнитивной науке (Кеннет Крейк, 1943) и получила вычислительную формализацию в контексте обучения с подкреплением: агент с моделью мира может «мечтать» — прогнозировать последствия действий в воображаемом пространстве и искать оптимальную политику без реального взаимодействия, что критически важно там, где реальные эксперименты дороги или опасны.
Архитектурно модель мира обычно включает энкодер (сжимающий наблюдение в латентный вектор), динамическую модель (предсказывающую следующее состояние по текущему и выбранному действию) и опционально декодер. DreamerV3 (Google DeepMind, 2023) обучал единую модель мира на 150 разных средах — от Atari до задач локомоции — без изменения гиперпараметров. Genie (Google DeepMind, 2024) научился генерировать интерактивные игровые среды по одному входному изображению. JEPA (Joint Embedding Predictive Architecture, Meta) предсказывает абстрактные признаки вместо пикселей, существенно снижая вычислительные затраты.
Модели мира критически важны для робототехники и автономного вождения: система может заранее проигрывать сценарии в уме, прежде чем выполнить манёвр, сокращая число реальных ошибок. В игровой индустрии их применяют для процедурной генерации уровней и обучения NPC. Отдельное направление — использование LLM в качестве «текстовых» моделей мира для символического планирования в робототехнике.
К 2026 году понятие вышло за рамки академической дискуссии: Waymo и Tesla применяют нейросетевые симуляции реальных дорожных ситуаций для валидации алгоритмов автопилота; стартап World Labs (основан Фэй-Фэй Ли, 2024) специализируется на пространственных моделях мира, извлекаемых из видеоданных. Ключевой открытой проблемой остаётся обобщение за пределы обучающего распределения: модели деградируют при значительном изменении условий среды.