Habr AI→ original

AMI Labs Aposta em Modelos de Mundo Além de LLM e Vê Caminho para Produtos via VLA

AMI Labs, um projeto de Yann LeCun, avança modelos de mundo como o próximo passo após LLM: em vez de prever tokens—entender o ambiente e as consequências das…

Processado por IA de Habr AI; editado por Hamidun News
AMI Labs Aposta em Modelos de Mundo Além de LLM e Vê Caminho para Produtos via VLA
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Após o boom dos LLMs, a AMI Labs propõe deslocar o centro de gravidade da IA da linguagem para a compreensão do ambiente físico: uma máquina não pode apenas continuar o texto se deve atuar com segurança no mundo real, planejar passos e avaliar as consequências de suas decisões antecipadamente. AMI Labs é uma empresa de pesquisa fundada por Yann LeCun, um dos principais pioneiros do aprendizado profundo. O projeto atraiu 1,03 bilhão de dólares em uma avaliação de 3,5 bilhões de dólares pré-investimento, demonstrando que o interesse em modelos de mundo ultrapassou a discussão acadêmica.

A empresa opera a partir de uma premissa simples: dados de câmeras, sensores e instrumentos são estruturados diferentemente do texto. Eles são contínuos, ruidosos, multidimensionais e mal adaptados à lógica de "prever o próximo token". Em vez de adaptar LLMs a qualquer cenário, a AMI se apoia em uma camada fundamental diferente—um modelo de mundo.

Aqui, um modelo de mundo não é um gerador de vídeo nem simplesmente um sistema multimodal com imagens, texto e ações como entrada. Refere-se a um modelo que constrói uma representação interna oculta do ambiente, identifica relações estáveis e descarta detalhes aleatórios. O que importa não é cada pixel do quadro futuro, mas a estrutura do que está acontecendo: onde os objetos estão localizados, como se movem, quais restrições o ambiente tem e o que mudará após o agente atuar.

Tal arquitetura deve responder não apenas "o que vejo" mas também "o que acontecerá se eu fizer isso". É precisamente por isso que JEPA—Joint Embedding Predictive Architecture—se torna central na abordagem. Nesta lógica, o modelo prevê não dados brutos ou uma sequência de tokens, mas estado em um espaço de representação.

Isso permite ao sistema evitar gastar computação em ruído e variações aleatórias, e em vez disso aprender com características verdadeiramente significativas da cena. Um argumento prático para essa abordagem já apareceu na pesquisa V-JEPA 2: o sistema foi primeiro pré-treinado em mais de um milhão de horas de vídeo da internet, e depois refinado com uma versão condicionada por ação em menos de 62 horas de vídeo robótico não rotulado. Depois disso, o modelo em modo zero-shot conseguiu trabalhar com manipuladores Franka em novos laboratórios, realizando preensão e deslocamento de objetos sem coletar dados especificamente para aquele ambiente e sem uma função de recompensa.

Mas o próprio modelo de mundo ainda não é um agente completo. Pode prever como as situações se desdobrarão, mas alguém deve traduzir essa compreensão em ação específica. É aqui que VLA, camada visual-linguagem-ação, aparece, conectando percepção, intenção do usuário, comando linguístico e as ações permitidas do sistema.

Uma tese importante da AMI e trabalho relacionado é que VLA e modelos de mundo não competem. Pelo contrário, sem previsão interna, VLA permanece muito reativo: pode produzir a ação correta "por agora", mas se sai mal em cenários longos, frágeis e fisicamente sensíveis onde é necessário simular mentalmente as consequências do toque, movimento, colisão ou erro. É por isso que os mercados mais óbvios para essa abordagem não são interfaces de chat, mas indústrias com alto custo de falha: automação industrial, robótica, dispositivos vestíveis e saúde.

Se um modelo de texto comete um erro ao resumir um artigo, o dano é limitado. Se um sistema inteligente interpreta mal o estado do equipamento, avalia incorretamente os riscos em medicina ou calcula mal a trajetória de um robô, as consequências já são físicas. Notavelmente, o primeiro parceiro da AMI é nomeado Nabla da medicina digital.

Isso não significa que a empresa já resolveu a tarefa de IA confiável para ambientes clínicos, mas mostra a direção: menos foco em demonstrações chamativas e mais foco em controlabilidade, previsibilidade e simulação interna do ambiente antes de tomar ação. A conclusão principal é que após a era dos LLMs, a conversa sobre IA está gradualmente se deslocando da descrição linguística do mundo para sua modelagem interna. A abordagem da AMI ainda permanece um programa de pesquisa e não uma substituição pronta para grandes modelos de linguagem: o termo "modelo de mundo" já está se tornando nebuloso, e a transferência para novos ambientes ainda está por ser comprovada.

Mas se essa linha funcionar, o próximo avanço prático em IA pode não vir de outro chatbot, mas de sistemas que primeiro compreendem a realidade física e só depois atuam dentro dela.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…