Yann LeCun apresenta LeWorldModel — Modelo JEPA sem colapso de representações a partir de pixels
Yann LeCun e colegas apresentaram LeWorldModel — um novo JEPA world model que aprende diretamente de dados de pixels sem stop-gradient, EMA e codificadores…
Processado por IA de MarkTechPost; editado por Hamidun News
Uma equipe de pesquisadores liderada por Yann LeCun apresentou LeWorldModel, ou LeWM—um novo world model para treinar agentes diretamente em dados de pixels. Os autores afirmam que o modelo resolve um dos principais problemas da abordagem JEPA—colapso de representação—enquanto também acelera significativamente o planejamento.
Por que JEPA Falha
World models são necessários aos agentes para construir um mapa interno compacto do ambiente e calcular ações não em quadros brutos, mas em espaço latente. No entanto, ao treinar diretamente em imagens, esses sistemas frequentemente caem em colapso de representação: cenas diferentes começam a ser codificadas de forma semelhante, e o modelo formalmente executa a tarefa de predição, mas perde a estrutura útil do mundo. Por isso, os desenvolvedores precisam garantir o treinamento com técnicas auxiliares—stop-gradient, EMA, codificadores congelados e funções de perda multi-componentes. O problema é particularmente doloroso para agentes que precisam planejar longas sequências de ações: se o espaço latente degenera, o planejador para de distinguir entre cenários bons e ruins.
Como LeWM Funciona
LeWM tenta remover essa complexidade. A arquitetura consiste em duas partes principais: um codificador que traduz um quadro em uma representação latente compacta e um preditor que estima o próximo estado baseado no estado atual e na ação. A implementação usa ViT-Tiny com aproximadamente 5 milhões de parâmetros e um preditor transformer com aproximadamente 10 milhões, então todo o sistema se encaixa em 15 milhões de parâmetros e, segundo os autores, é treinado em uma única GPU em algumas horas.
A ideia-chave é não criar objetivos auxiliares, mas manter apenas a predição do próximo embedding e o regularizador SIGReg. SIGReg força vetores latentes a permanecerem diversos e próximos a uma distribuição Gaussiana isotrópica. Para isso, o modelo observa não o espaço inteiro, mas um conjunto de projeções unidimensionais aleatórias e verifica suas estatísticas. Essa abordagem deve reduzir o risco de representações degeneradas sem sobrecarga de engenharia pesada.
Em termos práticos, LeWM retém apenas um hiperparâmetro realmente importante—o peso de regularização λ—enquanto a alternativa end-to-end mais próxima, PLDM, tem significativamente mais configurações. Os autores também observam separadamente que para a estabilidade, dropout de 0,1 no preditor e uma pequena camada de projeção após o codificador ajudaram.
O Que os Testes Mostraram
Com base nos resultados do artigo, LeWM provou ser não apenas mais estável durante o treinamento, mas também mais rápido na fase de planejamento. Os autores o comparam com PLDM e DINO-WM em tarefas de navegação, manipulação e controle em ambientes 2D e 3D. O modelo funciona diretamente com pixels, sem um codificador foundation congelado e sem dependência de tarefas que exigem recompensa, mas permanece competitivo em vários benchmarks.
- aproximadamente 200 vezes menos tokens por quadro em comparação com DINO-WM
- até 48 vezes mais rápido no planejamento: aproximadamente 0,98 segundos versus 47 segundos por ciclo
- apenas duas funções de perda em vez de sete em abordagens baseadas em PLDM usando VICReg
- um hiperparâmetro principal em vez de um conjunto de ajustes manuais
- o espaço latente captura quantidades físicas e identifica eventos "impossíveis" como teleportação de objetos
Os autores testaram separadamente se o modelo entende a lógica física da cena, em vez de apenas prever os próximos quadros. Em testes de violação de expectativa, o sistema reagiu mais fortemente a eventos fisicamente implausíveis, como teleportação repentina de objetos, do que a mudanças puramente visuais. Outro efeito interessante é o endireitamento de trajetória latente temporal: conforme o treinamento progredia, as trajetórias no espaço latente ficavam mais suaves e lineares, mesmo sem uma penalidade separada que explicitamente impusesse tal comportamento. Isso é importante porque trajetórias latentes mais suaves normalmente simplificam a busca de ações durante o planejamento.
O Que Isso Significa
Para o mercado de agentes, este é um sinal importante: world models estão se tornando uma direção prática novamente, não apenas uma ideia acadêmica. Se LeWM e abordagens similares confirmarem resultados além de benchmarks de laboratório, os desenvolvedores poderão construir agentes mais rápidos e baratos que planejam em um espaço de estado compacto sem codificadores foundation pesados. Isso é particularmente interessante para robótica, offline RL e sistemas onde o custo do erro e da latência é crítico. Essencialmente, LeWM mostra que combater o colapso de representação pode ser feito não complicando a stack, mas enquadrando mais cuidadosamente a tarefa de aprendizagem em si.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.