General Motors показала, как обучает автопилот в симуляциях в 50 000 раз быстрее реальности
General Motors раскрыла, как учит AI для автономного вождения через симуляции, reinforcement learning и VLA-модели. Компания утверждает, что абстрактная среда B

General Motors в спонсорском материале рассказала, как строит масштабируемый AI для автономного вождения. Ставка — на симуляции, reinforcement learning и VLA-модели, которые помогают отрабатывать не обычные поездки, а редкие и опасные ситуации, от которых зависит реальная безопасность системы.
Почему сложен крайний случай
Для автопилота проблема не в том, чтобы ехать по пустой трассе в хорошую погоду. Основной риск — так называемый long tail: редкие, неоднозначные и плохо предсказуемые эпизоды, которые встречаются нечасто, но именно они показывают, можно ли выпускать систему на дороги без постоянного контроля человека. GM прямо пишет, что путь к режиму eyes-off на шоссе и дальше к полной автономности упирается именно в этот последний процент сложности.
Сюда относятся не только экзотические случаи вроде матраса на дороге, прорвавшегося гидранта или массового отключения светофоров. Не меньше проблем создают вполне бытовые сцены в плотном городском потоке, где водитель должен проявить вежливость, здравый смысл и быстро понять контекст. Например, как встроиться в очередь на парковке, не заблокировав поток, или как проехать стройку, где движение регулирует рабочий жестами, а не обычными знаками.
неожиданные препятствия на дороге временные схемы движения в зоне ремонта жесты регулировщика, противоречащие сигналу светофора сложные манёвры в тесных парковках * каскадные сбои городской инфраструктуры ## Как GM учит модель Один из ключевых компонентов — Vision Language Action-модели. По сути, компания берёт базовую vision-language архитектуру, которая умеет понимать изображение на уровне общих понятий, и дообучает её на задачи вождения. После этого модель не просто «видит» картинку, а интерпретирует траектории машин, выделяет 3D-объекты и помогает понять, что именно происходит в дорожной сцене.
Это нужно, чтобы машина могла распознать, что жест полицейского важнее красного сигнала или что перед ней зона высадки у терминала, а не обычная полоса. Проблема в том, что глубокое семантическое понимание часто даёт лишнюю задержку, а в вождении каждая доля секунды критична. Поэтому GM разрабатывает схему Dual Frequency VLA: крупная модель работает медленнее и отвечает за смысловые решения высокого уровня, а компактная — за быстрый контур управления, то есть руль, торможение и удержание траектории.
Такой гибрид, по замыслу компании, должен сочетать «здравый смысл» foundation-моделей и реакцию, достаточную для реальной дороги.
Симуляции вместо дорог Основная часть обучения идёт не на настоящих улицах, а в симуляторах.
GM пишет, что ежедневно прогоняет миллионы высокоточных closed-loop сценариев — это эквивалент десятков тысяч дней человеческого вождения, сжатых в часы вычислений. Компания может брать реальные поездки, менять в них погоду и освещение через diffusion-модели, добавлять новые машины или полностью собирать сцены с нуля по текстовому описанию и spatial bounding boxes. Для задач тактического поведения фотореализм не всегда нужен, поэтому GM использует абстрактную среду Boxworld внутри собственного RL-симулятора GM Gym.
Там остаются только важные параметры: положение объектов, скорость, правила движения и взаимодействие машин. Это позволяет запускать огромные объёмы экспериментов, где модель учится не копировать человека, а искать стратегию с измеримыми целями вроде безопасности и прогресса. За счёт этого обучение идёт на другой скорости: до 50 000 раз быстрее реального времени около 1 000 км виртуального вождения за секунду GPU-времени тысячи виртуальных водителей в секунду в одной среде 30 минут distillation вместо примерно 12 часов «сырого» RL После этого знания из абстрактной среды переносятся в более реалистичную модель через On Policy Distillation: упрощённая RL-политика выступает «учителем» для модели, которая потом будет работать в автомобиле.
Отдельно GM использует pipeline SHIFT3D, чтобы специально создавать объекты, на которых perception-система может ошибиться, и добавляет модуль epistemic uncertainty, который помечает сцены, где модель по-настоящему «не уверена». По данным компании, дообучение на таких тяжёлых кейсах уже снизило число near-miss столкновений более чем на 30%.
Что это значит
Подход GM показывает, куда двигается индустрия автономного вождения: не к одной «умной» модели, а к целой связке симуляторов, генеративных world models, RL и систем оценки неопределённости. Если такая схема действительно масштабируется, ключевым активом в гонке автопилотов станет не только парк машин на дорогах, но и качество инфраструктуры, которая умеет быстро придумывать, проверять и ломать редкие сценарии раньше, чем они встретятся пользователю.