IEEE Spectrum AI→ original

General Motors mostró cómo entrena el autopilot en simulaciones 50,000 veces más rápido que la realidad

General Motors reveló cómo enseña IA para conducción autónoma a través de simulaciones, aprendizaje por refuerzo y modelos VLA. La empresa afirma que el…

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
General Motors mostró cómo entrena el autopilot en simulaciones 50,000 veces más rápido que la realidad
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

General Motors, en un material patrocinado, explicó cómo construye IA escalable para conducción autónoma. El énfasis está en simulaciones, aprendizaje por refuerzo y modelos VLA que ayudan a entrenar no en viajes típicos, sino en situaciones raras y peligrosas que determinan si el sistema puede ser realmente lanzado a las carreteras.

Por qué los casos extremos son difíciles

Para un autopiloto, el problema no está en conducir en una carretera vacía con buen tiempo. El riesgo principal es el llamado long tail: episodios raros, ambiguos e impredecibles que ocurren con poca frecuencia pero que muestran precisamente si un sistema puede ser desplegado en carreteras sin supervisión constante de un humano. GM afirma directamente que el camino hacia el modo eyes-off en autopistas y más allá hacia la autonomía completa depende de este último porcentaje de complejidad.

Esto incluye no solo casos exóticos como un colchón en la carretera, un hidrante reventado o un apagón masivo de semáforos. Igualmente problemáticos son escenarios cotidianos en el tráfico denso de la ciudad, donde un conductor debe demostrar cortesía, sentido común y comprender rápidamente el contexto. Por ejemplo, cómo integrarse en una fila de estacionamiento sin bloquear el flujo de tráfico, o cómo navegar una obra donde el movimiento es regulado por gestos de un trabajador en lugar de señales estándar.

obstáculos inesperados en la carretera esquemas temporales de tráfico en zonas de reparación gestos de regulador de tráfico que contradicen señales de semáforo maniobras complejas en estacionamientos estrechos * fallos en cascada de la infraestructura urbana ## Cómo entrena GM su modelo Uno de los componentes clave son los modelos Vision Language Action. Esencialmente, la empresa toma una arquitectura vision-language básica que entiende imágenes a nivel de conceptos generales y la adapta para tareas de conducción. Después de esto, el modelo no solo "ve" una imagen sino que interpreta trayectorias de vehículos, aísla objetos 3D y ayuda a entender qué está realmente sucediendo en una escena de carretera.

Esto es necesario para que la máquina pueda reconocer que un gesto de un policía tiene precedencia sobre un semáforo en rojo o que adelante hay una zona de desembarque de terminal, no una carril común. El problema es que la comprensión semántica profunda a menudo introduce latencia innecesaria, y en la conducción, cada fracción de segundo es crítica. Así que GM está desarrollando un esquema Dual Frequency VLA: un modelo grande funciona más lentamente y es responsable de decisiones semánticas de alto nivel, mientras que uno compacto maneja bucles de control rápido—dirección, frenado y mantenimiento de trayectoria.

Este híbrido, según el plan de la empresa, debe combinar el "sentido común" de modelos de fundación y velocidad de reacción suficiente para carreteras reales.

Simulaciones en lugar de carreteras

La mayor parte del entrenamiento ocurre no en calles reales sino en simuladores. GM informa que ejecuta diariamente millones de escenarios closed-loop de alta precisión—equivalente a decenas de miles de días de conducción humana comprimidos en horas de computación. La empresa puede tomar viajes reales, cambiar clima e iluminación a través de modelos de difusión, añadir nuevos vehículos o ensamblar escenas desde cero basadas en descripciones textuales y bounding boxes espaciales.

Para tareas de comportamiento táctico, el fotorrealismo no siempre es necesario, así que GM usa un entorno abstracto llamado Boxworld dentro de su propio simulador RL GM Gym. Solo permanecen parámetros importantes: posición de objetos, velocidad, reglas de tráfico e interacciones de vehículos. Esto permite ejecutar volúmenes enormes de experimentos donde el modelo aprende no a copiar humanos sino a encontrar estrategia con objetivos medibles como seguridad y progreso.

Este entrenamiento ocurre a velocidades diferentes: hasta 50.000 veces más rápido que el tiempo real aproximadamente 1.000 km de conducción virtual por segundo de tiempo GPU miles de conductores virtuales por segundo en un único entorno 30 minutos de destilación versus aproximadamente 12 horas de RL bruto Después de esto, el conocimiento del entorno abstracto se transfiere a un modelo más realista a través de On Policy Distillation: una política RL simplificada actúa como un "profesor" para el modelo que funcionará posteriormente en el vehículo.

Por separado, GM usa un pipeline SHIFT3D para crear específicamente objetos donde el sistema de percepción podría fallar y añade un módulo de incertidumbre epistémica que marca escenas donde el modelo genuinamente está "incierto." Según la empresa, el fine-tuning en casos tan difíciles ya ha reducido colisiones cercanas en más del 30%.

Qué significa esto

El enfoque de GM muestra hacia dónde se dirige la industria de conducción autónoma: no hacia un único modelo "inteligente" sino hacia un ecosistema completo de simuladores, modelos de mundo generativos, RL y sistemas de evaluación de incertidumbre. Si tal esquema realmente escala, el activo clave en la carrera de autopiloto no será solo una flota de vehículos en carreteras sino también la calidad de la infraestructura que puede rápidamente imaginar, probar y romper escenarios raros antes de que los usuarios los encuentren.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…