36Kr (36氪)→ оригинал

Мировые модели: станут ли они ключом к автопилоту?

Автопроизводители активно используют «мировые модели» для обучения и тестирования систем автопилотирования. Это позволяет создавать более реалистичные симуляции

Мировые модели: станут ли они ключом к автопилоту?
Источник: 36Kr (36氪). Коллаж: Hamidun News.

В последние пару лет, говоря об интеллектуальном вождении, автопроизводители обязательно упоминали различные новые технические термины. После сквозного обучения и VLA, «мировая модель» – самое модное слово в области интеллектуального вождения. Разные компании даже придали ему новые формы – Xiaopeng представила «Мировую базовую модель», NIO назвала ее «Сквозной мировой моделью», а Huawei – «Мировой моделью поведения» (WA). Помимо них, Horizon Robotics, Li Auto, Yuanrong Qixing и Momenta также работают над мировыми моделями.

Однако, судя по их пресс-конференциям, трудно понять, является ли мировая модель, о которой они говорят, одним и тем же? Какую проблему она решает и в какую часть архитектуры интеллектуального вождения она помещена? Если посмотреть на более широкий контекст, то «мировая модель» по сути представляет собой воссоздание реального мира в виртуальном мире, технологию, позволяющую искусственному интеллекту понимать реальный мир, познавать физические законы, причинно-следственные связи вещей и динамику окружающей среды, подобно человеку.

Большинство ученых и технологических компаний считают мировые модели ключевым элементом в «физическом мире ИИ». Профессор Стэнфордского университета Ли Фэйфэй однажды отметила, что пространственный интеллект – это следующее десятилетие ИИ, а мировая модель – ключевая технология для построения пространственного интеллекта. Ученые и технологические компании, идущие в авангарде отрасли, все еще находятся в стадии изучения, но китайская автомобильная промышленность уже заняла позиции с помощью различных новых концептуальных терминов.

Фактически, «мировая модель», о которой сегодня говорят в индустрии интеллектуального вождения, – это всего лишь различие в названиях, и в технологическом плане нет большой разницы. Это всего лишь обновление технологической парадигмы для оригинальных инструментов моделирования в отрасли, решение проблем тестирования и проверки сквозных моделей в виртуальном мире с более высокой степенью восстановления, более высокой детализацией, более богатыми сценами и более высокой степенью свободы. Все это для обучения более эффективной и человекоподобной сквозной модели интеллектуального вождения.

Другими словами, производители интеллектуального вождения и автопроизводители на самом деле не создают полную цифровую физическую реальность, а просто используют идею мировой модели для создания симулятора. Возможно, у каждой компании разные ожидания от мировой модели, но, насколько нам известно, на данный момент мировая модель в индустрии интеллектуального вождения применяется только в облаке и не используется в автомобилях.

Повсеместное распространение сквозного обучения высветило недостатки симуляторов. В последние два-три года ведущие решения для интеллектуального вождения перешли от стека правил к управлению на основе ИИ и завершили «формальное» объединение. Восприятие, прогнозирование и планирование были максимально интегрированы в одну сеть, плюс более крупные модели и более высокая вычислительная мощность. Как часто говорят автопроизводители на своих пресс-конференциях, «интеллектуальное вождение после сквозного обучения больше похоже на вождение человека».

Но в реальном применении возникло контринтуитивное явление: новые версии OTA после сквозного обучения не обязательно становятся лучше и могут даже «деградировать». Основная проблема заключается не в том, что модель стала хуже, а в том, что управление на основе ИИ затрудняет оценку и регрессию. В то время многие специалисты по интеллектуальному вождению считали, что пока фронтенд обучен достаточно хорошо, автомобиль будет ездить как человек.

Этот путь не безрезультатен, и ранние результаты сквозного обучения потрясли многих специалистов по интеллектуальному вождению, но «черный ящик» сквозного обучения также имеет побочные эффекты. Когда модель ошибается, разработчикам трудно узнать, почему произошла ошибка? Как доказать, что это не повторится в следующий раз?

Хороша модель или нет, зависит не только от того, «достаточно ли она велика и достаточно ли данных», но и от того, как вы обнаруживаете проблемы, определяете проблемы и проверяете проблемы. Производители постепенно осознали, что им нужен лучший симулятор для оценки производительности модели на этапе проверки модели.

Большинство ведущих игроков создают мировые модели для использования в качестве симуляторов. Чтобы позволить идеальной VLA проводить обучение с подкреплением в среде моделирования, Li Auto в 2025 году предложила модель вождения мира, включающую траектории как своих, так и других транспортных средств, выступающую в качестве учителя оценки; Xiaopeng, хотя и заявила только о «Мировой базовой модели», которая по сути не связана с мировой моделью, но, по данным 36Kr Auto, Xiaopeng также использует мировую модель для моделирования. Тестирование для оценки возможностей алгоритма новой версии модели.

Повсеместное распространение сквозного обучения высветило недостатки традиционных симуляторов. «Когда сквозное обучение не было таким популярным, стоимость проверки для всех не была такой высокой, и они все еще могли проверять систему по частям. Теперь, когда есть сквозное обучение, нет возможности проверить систему по частям, и в это время проблема симулятора становится очевидной», – сказал разработчик в отрасли.

В эпоху правил автопроизводители делали симуляции, которые часто служили двум целям: одна – воспроизведение проблем с перехватом на полпути, возвращение и воспроизведение фрагментов, которые произошли во время дорожных испытаний; другая – использование симуляторов для увеличения богатства данных о крайних случаях, создание нескольких типичных перекрестков, пешеходов, пересекающих дорогу, и сценариев вставки транспортных средств в симуляторе, чтобы система могла их пройти. В то время симулятор играл роль «увеличительного стекла», но после сквозного обучения модель трудно разделить на части, и трудно систематически генерировать более мелкие, управляемые крайние случаи, и еще труднее поддерживать масштабную замкнутую проверку, необходимую для сквозного обучения – и это именно то, почему была введена мировая модель.

В эпоху сквозного обучения мировая модель является «тренером» модели интеллектуального вождения. «В настоящее время уровень мировых моделей отечественных автопроизводителей находится на определенном расстоянии от Tesla, но разница составляет менее года», – сказал инсайдер отрасли.

Tesla не использовала концепцию «мировой модели», а использовала термин «мировой симулятор» (вице-президент Tesla по автоматическому вождению Ашок Эллусвами впервые упомянул об этом на прошлогодней ICCV). Симулятор основан на огромном наборе данных, созданном Tesla самостоятельно, и генерирует будущее состояние на основе текущего состояния и следующих действий. Таким образом, он замкнут с базовой сквозной моделью на стороне автомобиля для оценки реального эффекта.

Инсайдер отрасли отметил, что Tesla больше похожа на использование нейронных сетей для «подгонки» мира. Процесс рендеринга генерируется путем вычислений, чтобы свести к минимуму явное наложение физических правил; библиотека материалов не полностью предопределена людьми заранее, а сохраняет определенный вес вероятности и пространство комбинаций. Преимущество этого подхода в том, что модель обладает более сильной обобщающей способностью.

Отечественные автопроизводители идут по другому, более «контролируемому» пути. По словам поставщика, который общался с 36Kr Auto, Li Auto использует 3D-реконструкцию Гаусса – это также один из методов, используемых большинством автопроизводителей в настоящее время.

Независимо от того, какой маршрут выбран, мировая модель в конечном итоге указывает на одну и ту же позицию в инженерном плане: мировая модель используется автопроизводителями в качестве «системы проверки и опровержения» в эпоху сквозного обучения, чтобы воспроизводить, переписывать и расширять ситуации, которые могут произойти в реальном вождении, в облаке, проверять, является ли выход большой модели на стороне автомобиля стабильным и воспроизводимым, и превращать «где неправильно и почему неправильно» обратно в отслеживаемую цепочку доказательств.

Роль мировой модели подобна роли тренера, и отличный тренер может обучить отличных спортсменов. «По мере того, как облачная мировая модель становится все сильнее и сильнее, теоретически способность сквозной модели, обученной на стороне, должна становиться все сильнее и сильнее», – сказал разработчик.

Основные возможности мировой модели в основном включают два аспекта: один – это цифровое моделирование и абстрагирование физического мира; другой – это разумное воображение и прогнозирование физического мира на основе такого моделирования, например, прогнозирование того, как будущий мир изменится на основе заданных изображений. Хороша мировая модель или нет, зависит от того, может ли она генерировать достаточно реальные и разнообразные данные в облаке. «Если автопроизводитель использует только реальные данные, собранные для моделирования, то он явно не создает мировую модель, а просто создает набор процессов воспроизведения данных», – сказал менеджер по продукции поставщика.

Мировой модели необходимо изучать режим работы мира на основе данных из физического мира, поэтому качество данных обучения мировой модели будет существенно влиять на качество, генерируемое моделью. Мао Цзимин, руководитель линейки продуктов компании JIJIA Vision, упомянул: «Для такой генеративной модели, как мировая модель, ее результаты генерации в конечном итоге будут соответствовать закономерностям распределения характеристик входных данных. В процессе коммерциализации реальной мировой модели мы обнаружили, что если качество данных составляет всего 60 баллов, то качество данных, генерируемых на основе этой мировой модели, может составлять всего 55 баллов».

Основываясь на мировой модели, автопроизводители могут неограниченно генерировать необходимые сценарии из различных измерений при моделировании в облаке и могут генерировать видео в качестве данных обучения в соответствии с инструкциями. «Эффективность не просто немного выше, чем при реальном сборе, а затем обучении, а скорость итерации модели будет лидировать в эпоху», – сказал разработчик поставщика.

Но это все идеализированные результаты. «Мировая модель является большим обновлением по сравнению с симулятором, используемым для интеллектуального вождения, или, другими словами, отсутствием информации о моделировании, и может быть проверена только с использованием автономных данных, но она все еще далека от идеального симулятора».

Алгоритм мировой модели еще не созрел, и все еще есть много «галлюцинаций». В настоящее время отрасль в целом находится на стадии «только начала».

Разработчик автопроизводителя сообщил 36Kr Auto, что отечественные производители могут генерировать видеоклипы продолжительностью 30-60 секунд на основе мировой модели, но согласованность динамических объектов не очень хорошая, и существуют большие проблемы как с пространственно-временной согласованностью, так и с многовидовой согласованностью.

Основу мировой модели составляет генеративная модель, а генеративная модель по своей природе сопряжена с риском «галлюцинаций». «Самое сложное в мировой модели в настоящее время – это то, как гарантировать, что генерируемые вещи являются реальными. Если генерируется человек, как гарантировать, что его поведение и траектория могут произойти в реальном мире», – сказал менеджер по продукции поставщика. «Если мировая модель создает путаницу, это приведет к тому, что модель научится неправильным вещам, что приведет к очень плохому эффекту модели, развернутой на стороне автомобиля».

Крайний пример: если автомобили, сгенерированные в облаке, движутся боком, то модель будет считать, что автомобиль в левой передней части мгновенно переместится в правую переднюю часть. В процессе фактического вождения модель может затормозить.

Если симулятор не может приблизиться к ключевым причинно-следственным связям реального мира, таким как влияние скользкой дороги на тормозной путь, вероятность ложного обнаружения неподвижных объектов при контровом свете, стратегия торга встречного транспортного средства при смене полосы движения и т. д., то сгенерированный им «крайний случай» может оказаться ложным; оптимизация по ложным проблемам равносильна трате ресурсов разработки на фантомы.

Многие считают, что узким местом мировой модели являются данные и вычислительная мощность, но Ся Чжунпу, бывший руководитель «сквозной» модели автономного вождения Li Auto, больше согласен с точкой зрения Лекуна: «В алгоритме мировой модели нет больших прорывов, и самоконтролируемое обучение моделей изображений еще не нашло относительно плавную парадигму, как язык».

Причина, по которой языковые модели могут быстро масштабироваться, заключается в том, что сам язык имеет высокую плотность информации, и каждое слово несет четкие семантические ограничения. И плотность информации изображения низкая, и для «решения о вождении» полезная информация составляет лишь небольшую часть.

Например, модели не нужно прогнозировать траекторию автомобиля, находящегося далеко позади, и не нужно прогнозировать изменения далеких зданий, это все шумовые данные; но она должна прогнозировать, внезапно ли резко затормозит впереди идущий автомобиль на этой полосе движения, собирается ли автомобиль на соседней полосе движения перестроиться, собирается ли пешеход внезапно пересечь дорогу, модель должна сначала знать, «на что обращать внимание».

«В настоящее время алгоритм интеллектуального вождения не может извлечь достаточно полезной информации об изображении для вождения», – сказал Ся Чжунпу. Изображение может содержать миллионы пикселей, но только 20 или более пикселей связаны с принятием решений, а остальные – шум. Модель должна сначала научиться извлекать 1‰ или даже 1‱ эффективного сигнала из шума, а затем говорить о том, как организовать сигнал в структуру, которую можно использовать для рассуждений и прогнозирования.

По мнению Ся Чжунпу, алгоритм мировой модели еще не прорвался, не говоря уже о том, достаточно ли данных и сколько вычислительной мощности необходимо. Именно потому, что базовая технология мировой модели еще не увидела четкого прорыва, инвестиции автопроизводителей носят скорее исследовательский характер, и даже некоторые боссы автопроизводителей смущены этим.

Если мировая модель сделана достаточно хорошо, и ее можно разместить на стороне автомобиля, если вычислительная мощность может ее поддерживать. «В настоящее время в Китае в основном используют мировую модель в качестве системы моделирования, и степень понимания технологии принятия решений для интеллектуального вождения еще недостаточно высока», – сказал Ся Чжунпу.

Это также объясняет поверхностное противоречие: почему все говорят о мировых моделях, но разница в пользовательском опыте не очевидна – потому что мировая модель большинства людей все еще находится на первом этапе «используется для обучения и проверки», а не на втором этапе «может поддерживать планирование решений».

«Развертывание мировой модели на стороне – самое сложное», – сказал Ся Чжунпу. В настоящее время ни одна компания не применяет мировую модель на стороне. Он также отметил: «Использование метода больших моделей для моделирования физического мира, прогнозирования изменений в развитии мира посредством взаимодействия с физическим миром и, следовательно, влияние на мир посредством принятия решений для развития в направлении, выгодном для себя. Если мировая модель достигнет этого уровня, можно будет решить проблемы, связанные с автоматическим вождением и роботами».

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…