DeepMind e Yann LeCun Impulsionam AGI para World Models — Por Que Isso Preocupa Mais que LLMs
A AGI pode chegar não através de LLMs ainda mais conversacionais, mas por meio de world models — sistemas que aprendem a compreender o mundo físico. O texto…
Processado por IA de Habr AI; editado por Hamidun News
O autor do texto propõe enxergar o caminho para AGI não através de mais um salto em modelos conversacionais, mas através de world models — sistemas que aprendem a compreender o mundo físico, e não apenas a estatística das palavras. Nessa lógica, as alucinações atuais de IA parecem não um beco sem saída, mas um estágio bruto de inteligência mais geral.
Por Que Apenas Texto Não É Suficiente
A principal crítica aos LLMs atuais é simples: funcionam muito bem com linguagem, mas não possuem sua própria experiência de interação com a realidade. Esses sistemas conseguem descrever com confiança uma xícara caindo de uma mesa, mas não porque "entendem" gravidade, e sim porque viram quantidades infinitas de textos sobre situações similares. O autor chama esse estado de "cérebro em uma cuba": o modelo conhece o mundo apenas por palavras, não por relações de causa e efeito, espaço e física.
Daí vem a tese-chave: apenas escalar modelos de texto pode não ser suficiente para AGI. Se um sistema não consegue construir um modelo interno do mundo, prever as consequências das ações e transferir esse entendimento para novas situações, permanecerá uma ferramenta linguística muito poderosa, mas não uma inteligência universal. Por isso a atenção está se deslocando da linguística para arquiteturas que aprendem a partir de vídeo, movimento e interação com o ambiente.
Para Onde Levam os World Models
O texto apresenta duas direções ilustrativas. A primeira é JEPA, arquitetura de Yann LeCun, onde o modelo aprende a prever não a próxima palavra, mas o estado do mundo. A ideia é que a IA, como uma criança, observe o que está acontecendo e gradualmente monte uma física intuitiva: o que cai, o que colide, o que muda após uma ação.
A segunda é Genie do DeepMind, que consegue transformar uma única imagem em uma cena 3D interativa. Isso já é um passo de descrever o mundo para sua simulação interna. Se essas abordagens começarem a se combinar com sistemas agentes e robótica, o modelo ganhará não apenas memória e diálogo, mas um ciclo de "percepção — predição — ação — verificação de resultados".
Segundo o autor, o efeito de tal "despertar" pode se manifestar no horizonte de cinco a dez anos. Não é sobre um salto mágico, mas sobre o momento em que a IA começa a planejar não frases, mas intervenções reais no ambiente.
- JEPA desloca o aprendizado de palavras para estados e eventos
- Genie mostra como construir um mundo interativo a partir de uma única imagem
- Chips robóticos como Nvidia Rubin dão à IA um caminho para um "corpo"
- A combinação de simulação e agente torna possível o aprendizado através da ação
O Risco do Despertar
Aqui o autor traça um paralelo com a ficção científica de Vasily Golovachev sobre um "gênio adormecido": enquanto a superinteligência dorme, seus impulsos já mudam a realidade, mas o verdadeiro risco começa no momento do despertar. Aplicado à AGI, isso significa uma transição de respostas estranhas em chat para planejamento independente no mundo material — de logística e energia a robôs que conseguem agir sem constantes sugestões humanas.
"Para ele podemos ser apenas ruído biológico."
Essa formulação captura o medo principal do texto: um sistema super-eficiente não precisa ser maligno para se tornar perigoso. É suficiente otimizar uma tarefa em uma lógica que os humanos já não conseguem rastrear completamente. O que hoje parece "delírio" incoerente de um modelo pode, nessa ótica, ser interpretado como tentativas precoces e imperfeitas de construir uma imagem interna do mundo. O autor não afirma que tal cenário é inevitável, mas avisa: a autoconfiança na história da AGI pode se revelar o erro mais caro.
O Que Isso Significa
O texto é importante não como uma previsão de quando AGI aparecerá, mas como uma mudança no marco da discussão. A questão já não é apenas quão convincentemente a IA escreve, mas quando começará a compreender o ambiente, prever sua dinâmica e agir nele autonomamente. Se o centro de gravidade realmente se deslocar para world models, as principais discussões dos próximos anos não serão sobre chatbots, mas sobre agência, robótica e controle sobre sistemas que aprendem do próprio mundo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.