SIMA 2 da DeepMind: o primeiro agente pensante para videogames e robótica
A DeepMind apresentou o SIMA 2 — um agente que evoluiu de um executor obediente para um companheiro interativo. O agente agora não apenas segue comandos, mas…
Processado por IA de DeepMind Blog; editado por Hamidun News
A DeepMind apresentou o SIMA 2 — um agente para mundos virtuais 3D que evoluiu de um simples seguidor de instruções para um assistente interativo capaz de raciocinar, conversar e melhorar continuamente. Este é um progresso significativo no sentido de uma inteligência artificial de novo nível.
Da Obediência para o Pensamento
Um ano atrás, a DeepMind lançou o primeiro SIMA — um agente que podia executar mais de 600 habilidades em videogames: "vire à esquerda", "suba as escadas", "abra o mapa". O agente agiu como um humano — olhava para a tela e controlava o teclado e mouse virtuais, sem acesso aos mecanismos internos dos jogos.
O SIMA 2 é um salto qualitativo na arquitetura. Sua base agora é o modelo Gemini, que dá ao agente uma capacidade real de raciocínio. Isso significa que, em vez de simplesmente executar o comando "encontre a fogueira", o agente agora pode compreender um objetivo de alto nível, dividi-lo em subtarefas, analisar o ambiente e planejar ações.
O que o SIMA 2 pode fazer
O agente foi treinado em dois tipos de dados: gravações em vídeo de ações reais de humanos com comentários detalhados e rótulos gerados automaticamente pela própria Gemini. Essa abordagem híbrida permitiu ao SIMA 2 desenvolver novas capacidades:
- Decompor um objetivo complexo do usuário em passos lógicos e executá-los na sequência correta
- Explicar suas intenções e raciocinar sobre cada ação
- Responder a perguntas de esclarecimento do usuário e interagir em diálogo
- Aprender com seus erros e melhorar a cada tentativa
- Transferir habilidades para jogos completamente novos que o agente nunca viu antes
Nas demonstrações, o SIMA 2 encontrou com sucesso a fogueira em jogos desconhecidos, onde a primeira versão simplesmente travava. O agente generaliza uma compreensão abstrata da tarefa, em vez de repetir mecanicamente comandos aprendidos.
No Caminho para Robôs Físicos
A DeepMind enfatiza que essa pesquisa vai muito além dos videogames. A arquitetura do SIMA 2 — visão de tela, raciocínio sobre objetivos, execução de ações através do controle da interface — é exatamente o que é necessário para o desenvolvimento de robôs reais. No mundo físico, o robô usará uma câmera em vez de uma tela, mas a tarefa permanece a mesma: compreender o ambiente, planejar a ação, interagir com os objetos.
O primeiro SIMA já demonstrou transferência de videogames para simuladores de realidade. O SIMA 2, com sua capacidade de raciocínio, deve se tornar uma ferramenta ainda mais versátil para robótica. Os desenvolvedores chamam isso de um passo significativo em direção à AGI — Inteligência Artificial Geral. O problema da generalização (aplicação do aprendizado em situações completamente novas) tem sido uma pedra no caminho da IA por muitos anos. O SIMA 2 mostra progresso concreto em sua solução: o agente pode se adaptar a ambientes e objetivos desconhecidos.
O que Isso Significa
A linha entre IA estreita e orientada por tarefas e o pensamento geral está se tornando borrada. O SIMA 2 não é simplesmente um executor de comandos, mas um assistente interativo que entende o contexto, pode discutir estratégia e aprender conforme avança. Para robótica, isso significa que as tecnologias-chave — visão, raciocínio, adaptação — já estão próximas da aplicação prática.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.