General Motors mostrou como treina o autopiloto em simulações 50 mil vezes mais rápido que a realidade
A General Motors revelou como ensina IA para condução autônoma através de simulações, aprendizado de reforço e modelos VLA. A empresa afirma que o ambiente…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
General Motors, em material patrocinado, explicou como constrói IA escalável para condução autônoma. A ênfase está em simulações, aprendizado por reforço e modelos VLA que ajudam a treinar não em viagens típicas, mas em situações raras e perigosas que determinam se o sistema pode ser realmente lançado nas ruas.
Por que casos extremos são difíceis
Para um autopiloto, o problema não está em dirigir em uma rodovia vazia com bom tempo. O principal risco é o chamado long tail: episódios raros, ambíguos e mal previsíveis que ocorrem com pouca frequência mas que mostram precisamente se um sistema pode ser implantado nas ruas sem supervisão constante de um humano. GM afirma diretamente que o caminho para o modo eyes-off em rodovias e além rumo à autonomia total depende deste último percentual de complexidade.
Isso inclui não apenas casos exóticos como um colchão na estrada, um hidrante arrebentado ou um apagão de semáforos em massa. Igualmente problemáticos são cenários cotidianos no trânsito denso da cidade, onde um motorista deve demonstrar cortesia, bom senso e compreender rapidamente o contexto. Por exemplo, como se integrar em uma fila de estacionamento sem bloquear o fluxo de tráfego, ou como navegar em um canteiro de obras onde o movimento é regulado por gestos de um trabalhador em vez de sinais padrão.
obstáculos inesperados na estrada esquemas temporários de tráfego em zonas de reparo gestos de regulador de tráfego contradizendo sinais de trânsito manobras complexas em estacionamentos apertados * falhas em cascata da infraestrutura urbana ## Como GM treina seu modelo Um dos componentes-chave são os modelos Vision Language Action. Essencialmente, a empresa pega uma arquitetura basic vision-language que entende imagens no nível de conceitos gerais e a adapta para tarefas de direção. Depois disso, o modelo não apenas "vê" uma imagem, mas interpreta trajetórias de veículos, isola objetos 3D e ajuda a entender o que está realmente acontecendo em uma cena de estrada.
Isso é necessário para que a máquina possa reconhecer que um gesto de um policial tem precedência sobre uma luz vermelha ou que à frente está uma zona de desembarque de terminal, não uma faixa comum. O problema é que a compreensão semântica profunda frequentemente introduz latência desnecessária, e na direção, cada fração de segundo é crítica. Então a GM está desenvolvendo um esquema Dual Frequency VLA: um modelo grande funciona mais lentamente e é responsável por decisões semânticas de alto nível, enquanto um compacto lida com loops de controle rápido—direção, frenagem e manutenção de trajetória.
Este híbrido, de acordo com o plano da empresa, deve combinar o "bom senso" de modelos de fundação e velocidade de reação suficiente para estradas reais.
Simulações em vez de estradas A maior parte do treinamento não
acontece em ruas reais, mas em simuladores. GM relata que executa diariamente milhões de cenários closed-loop de alta precisão—equivalente a dezenas de milhares de dias de direção humana comprimidos em horas de computação. A empresa pode pegar unidades reais, alterar clima e iluminação através de modelos de difusão, adicionar novos veículos ou montar cenas do zero com base em descrições textuais e bounding boxes espaciais.
Para tarefas de comportamento tático, fotorrealismo nem sempre é necessário, então a GM usa um ambiente abstrato chamado Boxworld dentro de seu próprio simulador de RL GM Gym. Apenas parâmetros importantes permanecem: posição de objetos, velocidade, regras de trânsito e interações de veículos. Isso permite executar volumes enormes de experimentos onde o modelo aprende não a copiar humanos, mas a encontrar estratégia com objetivos mensuráveis como segurança e progresso.
Este treinamento acontece em velocidades diferentes: até 50.000 vezes mais rápido do que o tempo real aproximadamente 1.000 km de direção virtual por segundo de tempo GPU milhares de motoristas virtuais por segundo em um único ambiente 30 minutos de destilação versus aproximadamente 12 horas de RL bruto Depois disso, o conhecimento do ambiente abstrato é transferido para um modelo mais realista através de On Policy Distillation: uma política RL simplificada atua como um "professor" para o modelo que funcionará posteriormente no veículo.
Separadamente, a GM usa um pipeline SHIFT3D para criar especificamente objetos onde o sistema de percepção pode falhar e adiciona um módulo de incerteza epistêmica que marca cenas onde o modelo é genuinamente "incerto." De acordo com a empresa, o fine-tuning em casos tão difíceis já reduziu colisões por pouco mais de 30%.
O que isso significa A abordagem da GM mostra para onde a indústria de
direção autônoma está indo: não em direção a um único modelo "inteligente", mas em direção a todo um ecossistema de simuladores, modelos de mundo generativos, RL e sistemas de avaliação de incerteza. Se tal esquema realmente dimensiona, o ativo-chave na corrida do autopiloto não será apenas uma frota de veículos nas estradas, mas também a qualidade da infraestrutura que pode rapidamente imaginar, testar e quebrar cenários raros antes que os usuários os encontrem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.