Modelos mundiales: ¿serán la clave para el piloto automático?
Los fabricantes de automóviles utilizan activamente «modelos mundiales» para entrenar y probar sistemas de conducción autónoma. Esto permite crear…
Procesado por IA desde 36Kr (36氪); editado por Hamidun News
En los últimos años, al hablar de conducción inteligente, los fabricantes de automóviles siempre mencionaban varios términos técnicos nuevos. Después del aprendizaje end-to-end y VLA, el «modelo mundial» es la palabra más de moda en la conducción inteligente. Diferentes empresas incluso le dieron nuevas formas: Xiaopeng presentó el «Modelo Base Mundial», NIO lo llamó «Modelo Mundo End-to-End», y Huawei lo llamó «Modelo de Comportamiento del Mundo» (WA). Además de ellos, Horizon Robotics, Li Auto, Yuanrong Qixing y Momenta también están trabajando en modelos mundiales.
Sin embargo, según sus conferencias de prensa, es difícil entender si el modelo mundial del que hablan es el mismo. ¿Qué problema resuelve y en qué parte de la arquitectura de conducción inteligente se coloca? Si se mira en un contexto más amplio, el «modelo mundial» es esencialmente la recreación del mundo real en un mundo virtual, una tecnología que permite que la inteligencia artificial comprenda el mundo real, aprenda las leyes físicas, las relaciones de causa y efecto de las cosas y la dinámica del entorno, similar a como lo hace un humano.
La mayoría de los científicos y empresas tecnológicas consideran que los modelos mundiales son un elemento clave en la «IA del mundo físico». La profesora de la Universidad de Stanford, Li Fei-Fei, señaló una vez que la inteligencia espacial es la próxima década de la IA, y el modelo mundial es una tecnología clave para construir inteligencia espacial. Los científicos y las empresas tecnológicas que están a la vanguardia de la industria aún se encuentran en etapa de investigación, pero la industria automotriz china ya ha tomado posiciones utilizando varios términos conceptuales nuevos.
De hecho, el «modelo mundial» del que se habla hoy en la industria de la conducción inteligente es solo una diferencia en los nombres, y tecnológicamente no hay una gran diferencia. Es simplemente una actualización del paradigma tecnológico para las herramientas de simulación originales en la industria, resolviendo problemas de prueba y verificación de modelos end-to-end en el mundo virtual con un mayor grado de fidelidad, mayor detalle, escenarios más ricos y mayor grado de libertad. Todo esto para entrenar un modelo end-to-end de conducción inteligente más eficiente y antropomorfo.
En otras palabras, los productores de conducción inteligente y los fabricantes de automóviles en realidad no crean una realidad física digital completa, sino que simplemente utilizan la idea del modelo mundial para crear un simulador. Es posible que cada empresa tenga diferentes expectativas del modelo mundial, pero, según lo que sabemos, en este momento el modelo mundial en la industria de conducción inteligente se aplica solo en la nube y no se usa en los vehículos.
La adopción generalizada del aprendizaje end-to-end ha puesto de relieve las deficiencias de los simuladores. En los últimos dos o tres años, las principales soluciones de conducción inteligente han pasado de una arquitectura basada en reglas a un control basado en IA y han completado la integración «formal». La percepción, predicción y planificación se han integrado al máximo en una sola red, con modelos más grandes y mayor potencia computacional. Como suelen decir los fabricantes de automóviles en sus conferencias de prensa, «la conducción inteligente después del aprendizaje end-to-end se parece más a la conducción humana».
Pero en la aplicación práctica surgió un fenómeno contraintuitivo: las nuevas versiones OTA después del aprendizaje end-to-end no son necesariamente mejores y pueden incluso «degradarse». El problema principal no es que el modelo haya empeorado, sino que el control basado en IA dificulta la evaluación y la regresión. En ese momento, muchos especialistas en conducción inteligente creían que mientras el frontend se entrenara lo suficientemente bien, el automóvil conduciría como un humano.
Este camino no es improductivo, y los primeros resultados del aprendizaje end-to-end han sorprendido a muchos especialistas en conducción inteligente, pero la «caja negra» del aprendizaje end-to-end también tiene efectos secundarios. Cuando el modelo comete un error, es difícil para los desarrolladores saber por qué ocurrió el error. ¿Cómo probar que no volverá a suceder?
Si un modelo es bueno o no depende no solo de «si es lo suficientemente grande y tiene datos suficientes», sino también de cómo detecta, identifica y verifica problemas. Los fabricantes gradualmente se dieron cuenta de que necesitaban un mejor simulador para evaluar el desempeño del modelo en la etapa de verificación del modelo.
La mayoría de los jugadores líderes están creando modelos mundiales para usarlos como simuladores. Para permitir que un VLA ideal realice aprendizaje por refuerzo en un entorno de simulación, Li Auto en 2025 propuso un modelo de conducción mundial que incluye trayectorias tanto de sus propios vehículos como de otros, actuando como evaluador de maestros. Xiaopeng, aunque solo anunció el «Modelo Base Mundial», que esencialmente no está relacionado con el modelo mundial, pero según 36Kr Auto, Xiaopeng también usa el modelo mundial para simulación y pruebas para evaluar las capacidades del algoritmo de la nueva versión del modelo.
La adopción generalizada del aprendizaje end-to-end ha revelado las deficiencias de los simuladores tradicionales. «Cuando el aprendizaje end-to-end no era tan popular, el costo de la verificación no era tan alto para todos, y aún podían verificar el sistema por partes. Ahora, con el aprendizaje end-to-end, no hay forma de verificar el sistema por partes, y en este momento el problema del simulador se vuelve evidente», dijo un desarrollador de la industria.
En la era de las reglas, los fabricantes de automóviles hacían simulaciones que a menudo servían para dos propósitos: uno era reproducir problemas de interceptación a mitad de camino, devolver y reproducir fragmentos que ocurrieron durante las pruebas en carretera; otro era usar simuladores para aumentar la riqueza de datos de casos extremos, crear varios cruces típicos, peatones cruzando la calle y escenarios de inserción de vehículos en el simulador para que el sistema pudiera pasarlos. En ese momento, el simulador jugaba el papel de una «lupa», pero después del aprendizaje end-to-end, el modelo es difícil de dividir en partes, y es difícil generar sistemáticamente casos extremos más pequeños y manejables, y aún más difícil mantener la verificación cerrada a gran escala necesaria para el aprendizaje end-to-end. Esa es exactamente la razón por la que se introdujo el modelo mundial.
En la era del aprendizaje end-to-end, el modelo mundial es el «entrenador» del modelo de conducción inteligente. «En este momento, el nivel de los modelos mundiales de los fabricantes de automóviles nacionales está a cierta distancia de Tesla, pero la diferencia es menor a un año», dijo un informante de la industria.
Tesla no utilizó el concepto de «modelo mundial», sino que utilizó el término «simulador mundial» (el vicepresidente de conducción autónoma de Tesla, Ashok Elluswami, lo mencionó por primera vez en la ICCV del año pasado). El simulador se basa en un conjunto masivo de datos creado por Tesla por sí solo y genera un estado futuro basado en el estado actual y las acciones siguientes. Por lo tanto, se cierra con el modelo end-to-end base en el lado del vehículo para evaluar el efecto real.
Un informante de la industria señaló que Tesla se parece más a usar redes neuronales para «ajustar» el mundo. El proceso de renderizado se genera mediante cálculos para minimizar la aplicación explícita de reglas físicas; la biblioteca de materiales no está completamente predeterminada por las personas de antemano, sino que mantiene cierto peso de probabilidad y espacio de combinaciones. La ventaja de este enfoque es que el modelo posee una mayor capacidad de generalización.
Los fabricantes de automóviles nacionales toman un camino diferente, más «controlado». Según un proveedor que habló con 36Kr Auto, Li Auto utiliza la reconstrucción 3D gaussiana, que también es uno de los métodos utilizados por la mayoría de los fabricantes de automóviles en la actualidad.
Independientemente de la ruta elegida, el modelo mundial finalmente apunta a la misma posición en el plan de ingeniería: los fabricantes de automóviles utilizan el modelo mundial como un «sistema de verificación y refutación» en la era del aprendizaje end-to-end para reproducir, reescribir y expandir situaciones que pueden ocurrir en la conducción real en la nube, verificar si la salida del modelo grande en el lado del vehículo es estable y reproducible, y convertir «dónde está mal y por qué está mal» de nuevo en una cadena de pruebas rastreable.
El papel del modelo mundial es similar al de un entrenador, y un gran entrenador puede entrenar a grandes atletas. «A medida que el modelo mundial en la nube se vuelve cada vez más fuerte, teóricamente la capacidad del modelo end-to-end entrenado en el lado del vehículo debería volverse cada vez más fuerte», dijo un desarrollador.
Las capacidades principales del modelo mundial incluyen básicamente dos aspectos: uno es la modelización digital y la abstracción del mundo físico; el otro es la imaginación razonable y la predicción del mundo físico basada en tal modelización, por ejemplo, predecir cómo cambiará el mundo futuro basándose en imágenes dadas. Si un modelo mundial es bueno o no depende de si puede generar datos suficientemente reales y diversos en la nube. «Si un fabricante de automóviles solo usa datos reales recopilados para modelización, entonces obviamente no está creando un modelo mundial, sino solo creando un conjunto de procesos de reproducción de datos», dijo un gerente de productos del proveedor.
El modelo mundial necesita aprender el modo de funcionamiento del mundo basándose en datos del mundo físico, por lo que la calidad de los datos de entrenamiento del modelo mundial afectará significativamente a la calidad que genera el modelo. Mao Jimin, jefe de línea de productos de JIJIA Vision, mencionó: «Para un modelo generativo como un modelo mundial, sus resultados de generación finalmente corresponderán a los patrones de distribución de las características de los datos de entrada. En el proceso de comercialización de un modelo mundial real, descubrimos que si la calidad de los datos es solo de 60 puntos, la calidad de los datos generados basándose en ese modelo mundial puede ser solo de 55 puntos».
Basándose en el modelo mundial, los fabricantes de automóviles pueden generar ilimitadamente los escenarios necesarios desde varias dimensiones al simular en la nube y pueden generar vídeos como datos de entrenamiento de acuerdo con las instrucciones. «La eficiencia no es solo un poco más alta que la recopilación real y luego el entrenamiento, sino que la velocidad de iteración del modelo liderará la era», dijo un desarrollador del proveedor.
Pero estos son todos resultados idealizados. «El modelo mundial es una gran actualización en comparación con el simulador utilizado para la conducción inteligente, o en otras palabras, la ausencia de información de simulación, y puede verificarse solo con datos autónomos, pero aún está lejos del simulador ideal».
El algoritmo del modelo mundial aún no ha madurado y todavía hay muchas «alucinaciones». En la actualidad, la industria en general se encuentra en la etapa de «apenas comenzar».
Un desarrollador de un fabricante de automóviles informó a 36Kr Auto que los productores nacionales pueden generar videoclips de 30-60 segundos basándose en el modelo mundial, pero la consistencia de los objetos dinámicos no es muy buena, y existen grandes problemas tanto con la consistencia espacio-temporal como con la consistencia multivista.
La base del modelo mundial es un modelo generativo, y un modelo generativo por naturaleza conlleva el riesgo de «alucinaciones». «Lo más difícil del modelo mundial en este momento es cómo garantizar que las cosas generadas sean reales. Si se genera una persona, ¿cómo garantizar que su comportamiento y trayectoria pueden ocurrir en el mundo real?» dijo un gerente de productos del proveedor. «Si el modelo mundial genera confusión, hará que el modelo aprenda cosas incorrectas, lo que resultará en un efecto muy pobre del modelo implementado en el lado del vehículo».
Un ejemplo extremo: si los automóviles generados en la nube se mueven de lado, el modelo considerará que el automóvil en la parte frontal izquierda se moverá instantáneamente a la parte frontal derecha. En el proceso de conducción real, el modelo puede frenar.
Si el simulador no puede acercarse a las relaciones de causa y efecto clave del mundo real, como el impacto de una carretera resbaladiza en la distancia de frenado, la probabilidad de falsa detección de objetos estacionarios bajo iluminación trasera, la estrategia de negociación de vehículos que se aproximan al cambiar de carril, etc., entonces el «caso extremo» generado por él puede resultar falso. La optimización de problemas falsos es equivalente a gastar recursos de desarrollo en fantasmas.
Muchos creen que el cuello de botella del modelo mundial son los datos y la potencia computacional, pero Xia Zhongpu, exjefe del modelo end-to-end de conducción autónoma de Li Auto, está más de acuerdo con el punto de vista de LeCun: «No hay grandes avances en el algoritmo del modelo mundial, y el aprendizaje autosupervisado de modelos de imágenes aún no ha encontrado un paradigma relativamente fluido como el del lenguaje».
La razón por la que los modelos de lenguaje pueden escalar rápidamente es que el lenguaje en sí tiene una alta densidad de información, y cada palabra lleva restricciones semánticas claras. Y la densidad de información de la imagen es baja, y para «tomar una decisión de conducción» la información útil constituye solo una pequeña parte.
Por ejemplo, el modelo no necesita predecir la trayectoria de un automóvil que está muy atrás, y no necesita predecir cambios en edificios distantes; todos estos son datos ruidosos. Pero debe predecir si el automóvil que va adelante en este carril frenará repentinamente, si el automóvil en el carril adyacente tiene la intención de cambiar de carril, si un peatón tiene la intención de cruzar repentinamente la calle. El modelo debe primero saber «en qué enfocarse».
«En este momento, el algoritmo de conducción inteligente no puede extraer suficiente información útil de la imagen para conducir», dijo Xia Zhongpu. Una imagen puede contener millones de píxeles, pero solo 20 o más píxeles están relacionados con la toma de decisiones, y el resto es ruido. El modelo debe primero aprender a extraer 1‰ o incluso 1‱ de señal efectiva del ruido, y luego hablar sobre cómo organizar la señal en una estructura que se pueda usar para razonamiento y predicción.
Según Xia Zhongpu, el algoritmo del modelo mundial aún no ha tenido un avance, por no mencionar si hay suficientes datos y cuánta potencia computacional se necesita. Es precisamente porque la tecnología base del modelo mundial aún no ha visto un avance claro que las inversiones de los fabricantes de automóviles sean más bien de naturaleza investigadora, e incluso algunos jefes de fabricantes de automóviles están confundidos al respecto.
Si el modelo mundial está hecho lo suficientemente bien y se puede implementar en el lado del vehículo, siempre que la potencia computacional pueda soportarlo. «En este momento en China, el modelo mundial se utiliza principalmente como un sistema de simulación, y el grado de comprensión de la tecnología de toma de decisiones para la conducción inteligente aún no es lo suficientemente alto», dijo Xia Zhongpu.
Esto también explica la contradicción aparente: por qué todos hablan de modelos mundiales, pero la diferencia en la experiencia del usuario no es obvia, porque el modelo mundial de la mayoría de las personas aún se encuentra en la primera etapa «se usa para entrenamiento y verificación», en lugar de la segunda etapa «puede soportar planificación de decisiones».
«La implementación del modelo mundial en el lado del vehículo es lo más difícil», dijo Xia Zhongpu. En la actualidad, ninguna empresa aplica el modelo mundial en el lado del vehículo. También señaló: «El uso del método de modelos grandes para simular el mundo físico, predecir cambios en la evolución del mundo a través de la interacción con el mundo físico y, por lo tanto, influir en el mundo a través de la toma de decisiones para evolucionar en una dirección beneficiosa para uno mismo. Si el modelo mundial alcanza este nivel, se podrán resolver los problemas asociados con la conducción autónoma y los robots».
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.