Modelos do mundo: como a IA aprende a entender a realidade em vez de texto
O MIT realizou uma discussão sobre modelos do mundo — uma nova direção na IA. Empresas desenvolvem sistemas que veem e entendem o mundo físico assim como as…
Processado por IA de MIT Technology Review; editado por Hamidun News
Na conferência de maio da MIT Technology Review, discutiu-se sobre modelos do mundo (world models) — o que pode ser o próximo grande salto no desenvolvimento da inteligência artificial. O editor-chefe Matt Hannon e o editor sênior de IA Will Douglas Heaven discutiram como as empresas tentam ensinar às redes neurais não apenas processar texto, mas realmente entender a realidade circundante.
O que são modelos do mundo
Um modelo do mundo não é apenas outra versão de LLM. É um sistema fundamentalmente diferente que pode ver vídeos, analisar imagens, interagir com o ambiente e prever as consequências das ações. Como uma pessoa que vê um cubo na beira de uma mesa e entende que ele vai cair. A rede neural deve adquirir esse entendimento sem instruções explícitas, aprendendo-o através da observação do mundo físico. Esses modelos mudam o paradigma de aprendizado. Em vez do esquema clássico 'aqui está o texto, responda a pergunta', surge um novo: 'assista ao vídeo, preveja o que acontecerá em seguida'. Isso requer uma arquitetura completamente diferente, um conjunto de dados diferente, uma maneira diferente de avaliar os erros do modelo.
Por que o texto claramente não é suficiente
Os grandes modelos de linguagem modernos são campeões no processamento de informações, mas são cegos no sentido literal. Eles conhecem a gravidade apenas porque as pessoas escreveram sobre isso milhões de vezes na internet. Mas nunca viram um objeto caindo, não sentiram inércia, não experimentaram com física. Isso cria pontos cegos específicos:
- Não conseguem prever interações físicas a partir dos primeiros princípios
- Ficam confusos nas relações espaciais entre objetos em vídeos
- Não conseguem entender relações de causa e efeito na sequência de quadros
- Não conseguem planejar ações com base em física real
- Erram na previsão de trajetórias e colisões
Essa limitação é especialmente aparente quando a IA tenta controlar um robô, planejar logística ou prever as consequências de manipulações na realidade.
Quem está trabalhando em modelos do mundo
OpenAI, DeepMind, Tesla e outras grandes empresas estão investindo recursos ativamente no desenvolvimento de modelos do mundo. As abordagens variam. OpenAI e DeepMind trabalham com conjuntos de dados de vídeo do YouTube e simulações sintéticas. Tesla usa milhões de horas de vídeo das câmeras de seus carros para ensinar o sistema a ver o mundo da mesma forma que as pessoas veem na estrada. Algumas empresas começam com aprendizado supervisionado em vídeos rotulados. Outras usam aprendizado por reforço em simulações controladas, onde o modelo pode cometer erros um milhão de vezes sem consequências reais, melhorando gradualmente sua compreensão.
O que isso significa
Se as empresas conseguirem dimensionar os modelos do mundo com o mesmo sucesso que dimensionaram os LLMs, a IA passará para um novo nível. Do processamento simbólico de informações para algo mais próximo de uma compreensão genuína da realidade física. A robótica sairá dos laboratórios. Os sistemas autônomos se tornarão mais confiáveis. O planejamento de processos complexos será acelerado. Mas isso ainda está no início da jornada. O MIT Technology Review chama atenção para isso porque os modelos do mundo são — provavelmente — a direção mais importante da IA nos próximos anos. As empresas que forem as primeiras a ensinar às redes neurais a ver e entender o mundo ganharão uma enorme vantagem competitiva.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.