AMI Labs Aposta em Modelos de Mundo Além de LLM e Vê Caminho para Produtos via VLA
AMI Labs, um projeto de Yann LeCun, avança modelos de mundo como o próximo passo após LLM: em vez de prever tokens—entender o ambiente e as consequências das…
Processado por IA de Habr AI; editado por Hamidun News
Após o boom dos LLMs, a AMI Labs propõe deslocar o centro de gravidade da IA da linguagem para a compreensão do ambiente físico: uma máquina não pode apenas continuar o texto se deve atuar com segurança no mundo real, planejar passos e avaliar as consequências de suas decisões antecipadamente. AMI Labs é uma empresa de pesquisa fundada por Yann LeCun, um dos principais pioneiros do aprendizado profundo. O projeto atraiu 1,03 bilhão de dólares em uma avaliação de 3,5 bilhões de dólares pré-investimento, demonstrando que o interesse em modelos de mundo ultrapassou a discussão acadêmica.
A empresa opera a partir de uma premissa simples: dados de câmeras, sensores e instrumentos são estruturados diferentemente do texto. Eles são contínuos, ruidosos, multidimensionais e mal adaptados à lógica de "prever o próximo token". Em vez de adaptar LLMs a qualquer cenário, a AMI se apoia em uma camada fundamental diferente—um modelo de mundo.
Aqui, um modelo de mundo não é um gerador de vídeo nem simplesmente um sistema multimodal com imagens, texto e ações como entrada. Refere-se a um modelo que constrói uma representação interna oculta do ambiente, identifica relações estáveis e descarta detalhes aleatórios. O que importa não é cada pixel do quadro futuro, mas a estrutura do que está acontecendo: onde os objetos estão localizados, como se movem, quais restrições o ambiente tem e o que mudará após o agente atuar.
Tal arquitetura deve responder não apenas "o que vejo" mas também "o que acontecerá se eu fizer isso". É precisamente por isso que JEPA—Joint Embedding Predictive Architecture—se torna central na abordagem. Nesta lógica, o modelo prevê não dados brutos ou uma sequência de tokens, mas estado em um espaço de representação.
Isso permite ao sistema evitar gastar computação em ruído e variações aleatórias, e em vez disso aprender com características verdadeiramente significativas da cena. Um argumento prático para essa abordagem já apareceu na pesquisa V-JEPA 2: o sistema foi primeiro pré-treinado em mais de um milhão de horas de vídeo da internet, e depois refinado com uma versão condicionada por ação em menos de 62 horas de vídeo robótico não rotulado. Depois disso, o modelo em modo zero-shot conseguiu trabalhar com manipuladores Franka em novos laboratórios, realizando preensão e deslocamento de objetos sem coletar dados especificamente para aquele ambiente e sem uma função de recompensa.
Mas o próprio modelo de mundo ainda não é um agente completo. Pode prever como as situações se desdobrarão, mas alguém deve traduzir essa compreensão em ação específica. É aqui que VLA, camada visual-linguagem-ação, aparece, conectando percepção, intenção do usuário, comando linguístico e as ações permitidas do sistema.
Uma tese importante da AMI e trabalho relacionado é que VLA e modelos de mundo não competem. Pelo contrário, sem previsão interna, VLA permanece muito reativo: pode produzir a ação correta "por agora", mas se sai mal em cenários longos, frágeis e fisicamente sensíveis onde é necessário simular mentalmente as consequências do toque, movimento, colisão ou erro. É por isso que os mercados mais óbvios para essa abordagem não são interfaces de chat, mas indústrias com alto custo de falha: automação industrial, robótica, dispositivos vestíveis e saúde.
Se um modelo de texto comete um erro ao resumir um artigo, o dano é limitado. Se um sistema inteligente interpreta mal o estado do equipamento, avalia incorretamente os riscos em medicina ou calcula mal a trajetória de um robô, as consequências já são físicas. Notavelmente, o primeiro parceiro da AMI é nomeado Nabla da medicina digital.
Isso não significa que a empresa já resolveu a tarefa de IA confiável para ambientes clínicos, mas mostra a direção: menos foco em demonstrações chamativas e mais foco em controlabilidade, previsibilidade e simulação interna do ambiente antes de tomar ação. A conclusão principal é que após a era dos LLMs, a conversa sobre IA está gradualmente se deslocando da descrição linguística do mundo para sua modelagem interna. A abordagem da AMI ainda permanece um programa de pesquisa e não uma substituição pronta para grandes modelos de linguagem: o termo "modelo de mundo" já está se tornando nebuloso, e a transferência para novos ambientes ainda está por ser comprovada.
Mas se essa linha funcionar, o próximo avanço prático em IA pode não vir de outro chatbot, mas de sistemas que primeiro compreendem a realidade física e só depois atuam dentro dela.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.