36Kr (36氪)→ original

Modelos Mundiais: Serão eles a chave para o autopiloto?

Os fabricantes de automóveis estão usando ativamente 'modelos mundiais' para treinar e testar sistemas de pilotagem autônoma. Isso permite criar simulações…

Processado por IA de 36Kr (36氪); editado por Hamidun News
Modelos Mundiais: Serão eles a chave para o autopiloto?
Fonte: 36Kr (36氪). Colagem: Hamidun News.
◐ Ouvir artigo

Nos últimos anos, ao falar sobre condução inteligente, os fabricantes de automóveis mencionam regularmente vários novos termos técnicos. Após o treinamento end-to-end e VLA, 'modelo mundial' é a palavra mais em voga na área de condução inteligente. Diferentes empresas até deram a ele novas formas - a Xiaopeng apresentou um 'Modelo de Base Mundial', a NIO chamou de 'Modelo Mundial End-to-End', e a Huawei de 'Modelo de Comportamento Mundial' (WA). Além delas, Horizon Robotics, Li Auto, Yuanrong Qixing e Momenta também estão trabalhando em modelos mundiais.

Portanto, baseando-se em suas coletivas de imprensa, é difícil entender se o modelo mundial do qual falam é o mesmo. Qual problema ele resolve e em qual parte da arquitetura de condução inteligente ele se encaixa? Se olharmos para um contexto mais amplo, um 'modelo mundial' é essencialmente uma recriação do mundo real em um mundo virtual, uma tecnologia que permite à IA compreender o mundo real, entender as leis físicas, as relações de causa e efeito das coisas e a dinâmica do ambiente circundante, assim como os humanos.

A maioria dos cientistas e empresas de tecnologia consideram modelos mundiais um elemento-chave na 'IA do mundo físico'. A professora de Stanford, Li Fei-Fei, observou certa vez que inteligência espacial é a próxima década da IA, e modelo mundial é a tecnologia-chave para construir inteligência espacial. Cientistas e empresas de tecnologia na vanguarda da indústria ainda estão em fase de exploração, mas a indústria automóvel chinesa já ocupou posições usando vários novos termos conceituais.

Na verdade, o 'modelo mundial' do qual falam hoje na indústria de condução inteligente é apenas uma diferença de nomenclatura, e não há grande diferença tecnológica. É apenas uma atualização do paradigma tecnológico para as ferramentas de modelagem originais da indústria, resolvendo problemas de teste e validação de modelos end-to-end em um mundo virtual com maior grau de reconstrução, maior detalhe, cenários mais ricos e maior grau de liberdade. Tudo isso para treinar um modelo end-to-end de condução inteligente mais eficiente e humanóide.

Em outras palavras, os fabricantes de sistemas de condução inteligente e os fabricantes de automóveis na verdade não estão criando uma realidade física digital completa, mas simplesmente usando a ideia de modelo mundial para criar um simulador. Pode ser que cada empresa tenha expectativas diferentes em relação ao modelo mundial, mas pelo que sabemos, no momento, o modelo mundial na indústria de condução inteligente é aplicado apenas na nuvem e não é usado nos veículos.

A proliferação generalizada do treinamento end-to-end destacou as deficiências dos simuladores. Nos últimos dois ou três anos, as principais soluções de condução inteligente evoluíram da arquitetura baseada em regras para o controle baseado em IA e completaram a integração 'formal'. Percepção, previsão e planejamento foram maximamente integrados em uma única rede, mais modelos maiores e maior poder computacional. Como os fabricantes de automóveis frequentemente dizem em suas coletivas de imprensa, 'condução inteligente após treinamento end-to-end se parece mais com condução humana'.

Mas na aplicação real, um fenômeno contra-intuitivo surgiu: novas versões OTA após treinamento end-to-end não necessariamente melhoram e podem até 'degradar'. O principal problema não é que o modelo piorou, mas que o controle baseado em IA dificulta a avaliação e regressão. Na época, muitos especialistas em condução inteligente acreditavam que, desde que o frontend fosse treinado adequadamente, o carro andaria como um humano.

Esse caminho não é fútil, e os primeiros resultados do treinamento end-to-end impressionaram muitos especialistas em condução inteligente, mas a 'caixa preta' do treinamento end-to-end também tem efeitos colaterais. Quando o modelo erra, é difícil para os desenvolvedores saber por que o erro ocorreu? Como provar que não acontecerá novamente?

Se um modelo é bom ou não depende não apenas de 'ser grande o suficiente e ter dados suficientes', mas também de como você detecta problemas, identifica problemas e valida problemas. Os fabricantes gradualmente perceberam que precisavam de um melhor simulador para avaliar o desempenho do modelo na fase de validação.

A maioria dos principais players está criando modelos mundiais para usar como simuladores. Para permitir que uma VLA ideal conduza treinamento por reforço em um ambiente de simulação, a Li Auto em 2025 propôs um modelo de condução mundial que inclui trajetórias tanto do seu próprio quanto de outros veículos, servindo como professor de avaliação; a Xiaopeng, embora tenha anunciado apenas um 'Modelo de Base Mundial', que na verdade não está relacionado ao modelo mundial, mas, de acordo com 36Kr Auto, a Xiaopeng também usa modelo mundial para simulação. Teste para avaliar as capacidades do algoritmo da nova versão do modelo.

A proliferação generalizada do treinamento end-to-end destacou as deficiências dos simuladores tradicionais. 'Quando o treinamento end-to-end não era tão popular, o custo de validação não era tão alto e ainda era possível validar o sistema por partes. Agora que há treinamento end-to-end, não há como validar o sistema por partes, e neste momento o problema do simulador se torna óbvio', disse um desenvolvedor da indústria.

Na era das regras, os fabricantes de automóveis criavam simulações que frequentemente serviam a dois objetivos: um era reproduzir problemas de interceptação intermediária, retorno e reprodução de fragmentos que ocorreram durante testes em estradas; outro era usar simuladores para aumentar a riqueza de dados sobre casos extremos, criando vários cruzamentos típicos, pedestres atravessando a rua e cenários de inserção de veículos no simulador para que o sistema pudesse passar por eles. Naquela época, o simulador desempenhava o papel de 'lupa', mas após o treinamento end-to-end, é difícil dividir o modelo em partes e é difícil gerar sistematicamente casos extremos menores e controláveis, e é ainda mais difícil manter a validação em ciclo fechado em larga escala necessária para treinamento end-to-end - e esta é exatamente a razão pela qual o modelo mundial foi introduzido.

Na era do treinamento end-to-end, o modelo mundial é um 'treinador' do modelo de condução inteligente. 'Atualmente, o nível de modelos mundiais dos fabricantes de automóveis domésticos está a uma certa distância da Tesla, mas a diferença é inferior a um ano', disse um insider da indústria.

A Tesla não usou o conceito de 'modelo mundial', mas usou o termo 'simulador mundial' (o vice-presidente de direção autônoma da Tesla, Ashok Elluswamy, mencionou isso pela primeira vez na ICCV do ano passado). O simulador é baseado em um enorme conjunto de dados criado independentemente pela Tesla e gera o estado futuro com base no estado atual e ações subsequentes. Assim, ele está conectado com o modelo end-to-end base no lado do veículo para avaliar o efeito real.

Um insider da indústria observou que a Tesla se parece mais com o uso de redes neurais para 'ajustar' o mundo. O processo de renderização é gerado através de cálculos para minimizar a imposição explícita de regras físicas; a biblioteca de materiais não é totalmente predeterminada pelas pessoas antecipadamente, mas mantém certos pesos de probabilidade e espaço de combinações. A vantagem dessa abordagem é que o modelo possui capacidade de generalização mais forte.

Os fabricantes de automóveis domésticos estão seguindo um caminho diferente e mais 'controlado'. De acordo com um fornecedor que falou com 36Kr Auto, a Li Auto usa reconstrução 3D Gaussiana - este é também um dos métodos usados pela maioria dos fabricantes de automóveis atualmente.

Independentemente de qual rota seja escolhida, o modelo mundial acaba apontando para a mesma posição em termos de engenharia: o modelo mundial é usado pelos fabricantes de automóveis como um 'sistema de verificação e refutação' na era do treinamento end-to-end para reproduzir, reescrever e estender situações que podem ocorrer na condução real na nuvem, verificar se a saída do grande modelo no lado do veículo é estável e reproduzível, e transformar 'onde está errado e por que está errado' em uma cadeia de evidências rastreável.

O papel do modelo mundial é semelhante ao papel de um treinador, e um grande treinador pode treinar grandes atletas. 'À medida que o modelo mundial da nuvem se torna cada vez mais forte, teoricamente a capacidade do modelo end-to-end treinado no lado do veículo deve se tornar cada vez mais forte', disse um desenvolvedor.

As principais capacidades do modelo mundial incluem principalmente dois aspectos: um é a modelagem digital e abstração do mundo físico; o outro é a imaginação inteligente e previsão do mundo físico baseada em tal modelagem, por exemplo, prever como o mundo futuro mudará com base em imagens fornecidas. Se um modelo mundial é bom ou não depende de se ele pode gerar dados suficientemente reais e variados na nuvem. 'Se um fabricante de automóveis usa apenas dados reais coletados para modelagem, então claramente ele não está criando um modelo mundial, mas apenas criando um conjunto de processos de reprodução de dados', disse um gerente de produtos de um fornecedor.

O modelo mundial precisa aprender o padrão operacional do mundo a partir de dados do mundo físico, portanto a qualidade dos dados de treinamento do modelo mundial afetará significativamente a qualidade gerada pelo modelo. Mao Jimin, chefe da linha de produtos da JIJIA Vision, mencionou: 'Para um modelo generativo como um modelo mundial, seus resultados de geração em última análise corresponderão aos padrões de distribuição das características dos dados de entrada. No processo de comercialização de um modelo mundial real, descobrimos que se a qualidade dos dados é apenas 60 pontos, a qualidade dos dados gerados com base neste modelo mundial pode ser apenas 55 pontos'.

Com base no modelo mundial, os fabricantes de automóveis podem gerar indefinidamente os cenários necessários de várias dimensões durante a simulação em nuvem e podem gerar vídeos como dados de treinamento de acordo com instruções. 'A eficiência não é apenas um pouco maior do que na coleta real e depois treinamento, mas a velocidade de iteração do modelo será líder na era', disse um desenvolvedor de um fornecedor.

Mas estes são todos resultados idealizados. 'O modelo mundial é uma grande atualização em comparação com o simulador usado para condução inteligente, ou em outras palavras, falta de informações de simulação, e pode ser validado apenas usando dados autônomos, mas ainda está longe de um simulador ideal'.

O algoritmo do modelo mundial ainda não amadureceu, e ainda há muitas 'alucinações'. Atualmente a indústria como um todo está no estágio de 'apenas começando'.

Um desenvolvedor de um fabricante de automóveis informou à 36Kr Auto que os produtores domésticos podem gerar clipes de vídeo de 30 a 60 segundos com base no modelo mundial, mas a consistência dos objetos dinâmicos não é muito boa, e existem grandes problemas tanto na consistência espaço-temporal quanto na consistência multi-vista.

O fundamento do modelo mundial é um modelo generativo, e um modelo generativo é inerentemente associado ao risco de 'alucinações'. 'O mais desafiador no modelo mundial atualmente é como garantir que as coisas geradas sejam reais. Se uma pessoa for gerada, como garantir que seu comportamento e trajetória possam ocorrer no mundo real', disse um gerente de produtos de um fornecedor. 'Se o modelo mundial cria confusão, isso levará o modelo a aprender coisas erradas, resultando em um efeito muito ruim do modelo implantado no lado do veículo'.

Um exemplo extremo: se os carros gerados na nuvem se moverem lateralmente, o modelo considerará que o carro na frente esquerda instantaneamente se moverá para a frente direita. Durante a condução real, o modelo pode travar.

Se o simulador não conseguir se aproximar das relações causais-chave do mundo real, como o efeito da estrada escorregadia na distância de frenagem, a probabilidade de detecção falsa de objetos estacionários sob luz de fundo, estratégia de negociação do veículo oncoming ao mudar de faixa, etc., então o 'caso extremo' por ele gerado pode acabar sendo falso; otimizar em problemas falsos é equivalente a desperdiçar recursos de desenvolvimento em fantasmas.

Muitos acreditam que o gargalo do modelo mundial é dados e poder computacional, mas Xia Zhongpu, ex-chefe do modelo 'end-to-end' de condução autônoma da Li Auto, concorda mais com o ponto de vista de LeCun: 'Não há grandes avanços no algoritmo do modelo mundial, e o treinamento auto-supervisionado de modelos de imagem ainda não encontrou um paradigma tão suave quanto o da linguagem'.

A razão pela qual os modelos de linguagem podem escalar rapidamente é que a língua em si tem alta densidade de informação, e cada palavra carrega restrições semânticas claras. E a densidade de informação da imagem é baixa, e para 'decisões de condução' a informação útil representa apenas uma pequena fração.

Por exemplo, o modelo não precisa prever a trajetória de um carro que está bem atrás, e não precisa prever mudanças em edifícios distantes, isso é tudo ruído de dados; mas deve prever se o carro à frente freia abruptamente nesta faixa, se o carro na faixa adjacente pretende mudar de faixa, se o pedestre pretende atravessar repentinamente a rua, o modelo deve primeiro saber 'em que prestar atenção'.

'Atualmente, o algoritmo de condução inteligente não consegue extrair informações suficientemente úteis da imagem para condução', disse Xia Zhongpu. Uma imagem pode conter milhões de pixels, mas apenas 20 ou mais pixels estão relacionados à tomada de decisão, e o resto é ruído. O modelo deve primeiro aprender a extrair 1‰ ou até 1‱ de sinal eficaz do ruído, e então falar sobre como organizar o sinal em uma estrutura que pode ser usada para raciocínio e previsão.

Na opinião de Xia Zhongpu, o algoritmo do modelo mundial ainda não alcançou um avanço, sem falar se há dados suficientes e quanto poder computacional é necessário. Justamente porque a tecnologia base do modelo mundial ainda não viu um avanço claro, os investimentos dos fabricantes de automóveis têm caráter mais de pesquisa, e até alguns chefes de fabricantes de automóveis estão confusos sobre isso.

Se o modelo mundial fosse feito bem o suficiente, e pudesse ser implantado no lado do veículo, se o poder computacional pudesse suportá-lo. 'Atualmente, na China, principalmente usam o modelo mundial como um sistema de simulação, e a compreensão da tecnologia de tomada de decisão para condução inteligente ainda não é alta o suficiente', disse Xia Zhongpu.

Isso também explica a contradição superficial: por que todos falam sobre modelos mundiais, mas a diferença na experiência do usuário não é óbvia - porque o modelo mundial da maioria das pessoas ainda está no primeiro estágio de 'ser usado para treinamento e validação', em vez do segundo estágio de 'pode suportar planejamento de decisões'.

'Implantar o modelo mundial no lado do veículo é o mais desafiador', disse Xia Zhongpu. Atualmente, nenhuma empresa está usando modelo mundial no lado do veículo. Ele também observou: 'Usar o método de grandes modelos para modelar o mundo físico, prever mudanças no desenvolvimento do mundo através da interação com o mundo físico e, portanto, influenciar o mundo através da tomada de decisão para se desenvolver numa direção que seja benéfica para si mesmo. Se o modelo mundial atingir esse nível, será possível resolver problemas relacionados à condução autônoma e robôs'.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…