Modelo de Mundo
Um modelo de mundo é uma representação interna que um sistema de IA aprende da dinâmica de seu ambiente, permitindo-lhe prever as consequências de ações e simular estados futuros sem interagir diretamente com o mundo real.
Um modelo de mundo é uma representação aprendida e compacta da dinâmica de transição de um ambiente — como os estados evoluem em resposta a ações, que observações são prováveis em cada estado e quais recompensas resultam. Em vez de mapear observações diretamente para ações (uma política reativa), um agente com um modelo de mundo pode simular mentalmente futuros hipotéticos: imaginando o que aconteceria sob a ação A versus ação B e escolhendo com base nos resultados simulados. O conceito origina-se na ciência cognitiva, onde a capacidade de simular mentalmente o ambiente é considerada central para o planejamento e raciocínio causal humano.
Modelos de mundo são tipicamente implementados como redes neurais treinadas para prever estados latentes futuros — ou observações brutas — dada uma história de observações passadas e ações. DreamerV3 (Google DeepMind, 2023) aprende um modelo de dinâmica de espaço latente compacto no qual uma política e função de valor são otimizadas em conjunto inteiramente dentro de rollouts imaginados, reduzindo substancialmente o número de interações de ambiente real necessárias para dominar uma tarefa. No domínio visual, grandes modelos de geração de vídeo — incluindo Sora (2024) da OpenAI e Genie (2024) do Google DeepMind — funcionam como modelos de mundo implícitos: treinados para prever quadros de vídeo futuros plausíveis, eles codificam plausibilidade física, permanência de objetos e dinâmica de cenas como propriedades emergentes. Google DeepMind e outros explicitamente enquadraram predição de próximo quadro de vídeo como um caminho tratável para modelos de mundo de uso geral para agentes encorporados.
Modelos de mundo importam por vários motivos. Primeiro, eles permitem aprendizagem eficiente de amostra: um agente que simula seu ambiente internamente precisa de muito poucas interações do mundo real custosas ou perigosas. Segundo, eles apoiam planejamento interpretável, porque um agente pode relatar qual futuro simulado justificou sua ação escolhida — uma propriedade valiosa em domínios críticos de segurança. Terceiro, modelos de mundo generalizam melhor para situações novas codificando estrutura causal em vez de mapeamentos estímulo-resposta, permitindo-lhes extrapolar para combinações de estado-ação não vistas durante o treinamento.
A partir de 2026, modelos de mundo são um foco de pesquisa primário em robótica, direção autônoma e IA para jogos. Em robótica, Physical Intelligence (pi0), divisão de robótica do Google DeepMind e Figure usam pré-treinamento de vídeo estilo modelo de mundo para transferir habilidades de manipulação através de objetos e ambientes diversos. Em direção autônoma, Waymo e Wayve treinam ambientes de simulação aprendidos que substituem milhas de teste do mundo real custosas. O limite entre modelos de mundo e geração de vídeo de uso geral se tornou produtivamente ambíguo: sistemas que produzem vídeo fisicamente consistente estão sendo ativamente repurposados como simuladores de ambiente para treinamento de agentes encorporados.