SIMA 2 da DeepMind: o primeiro agente pensante para videogames e robótica

A DeepMind apresentou o SIMA 2 — um agente que evoluiu de um executor obediente para um companheiro interativo. O agente agora não apenas segue comandos, mas raciocina sobre objetivos, conversa com o usuário e se autoaperfeiçoa. Vê a tela como um humano e controla o mouse e o teclado. Integra o modelo Gemini. Os pesquisadores chamam isso de um passo em direção à AGI e ao futuro dos robôs pessoais.

Khamidun Zhemal

Monitoramento de AI · DeepMind Blog

28 de mai. de 2026· 2 min·atualizado 12 de jul. de 2026

Processado por IA de DeepMind Blog; editado por Hamidun News

SIMA 2 da DeepMind: o primeiro agente pensante para videogames e robótica — Fonte: DeepMind Blog. Colagem: Hamidun News.

◐ Ouvir artigo

A DeepMind apresentou o SIMA 2 — um agente para mundos virtuais 3D que evoluiu de um simples seguidor de instruções para um assistente interativo capaz de raciocinar, conversar e melhorar continuamente. Este é um progresso significativo no sentido de uma inteligência artificial de novo nível.

Da Obediência para o Pensamento

Um ano atrás, a DeepMind lançou o primeiro SIMA — um agente que podia executar mais de 600 habilidades em videogames: "vire à esquerda", "suba as escadas", "abra o mapa". O agente agiu como um humano — olhava para a tela e controlava o teclado e mouse virtuais, sem acesso aos mecanismos internos dos jogos.

O SIMA 2 é um salto qualitativo na arquitetura. Sua base agora é o modelo Gemini, que dá ao agente uma capacidade real de raciocínio. Isso significa que, em vez de simplesmente executar o comando "encontre a fogueira", o agente agora pode compreender um objetivo de alto nível, dividi-lo em subtarefas, analisar o ambiente e planejar ações.

O que o SIMA 2 pode fazer

O agente foi treinado em dois tipos de dados: gravações em vídeo de ações reais de humanos com comentários detalhados e rótulos gerados automaticamente pela própria Gemini. Essa abordagem híbrida permitiu ao SIMA 2 desenvolver novas capacidades:

Decompor um objetivo complexo do usuário em passos lógicos e executá-los na sequência correta
Explicar suas intenções e raciocinar sobre cada ação
Responder a perguntas de esclarecimento do usuário e interagir em diálogo
Aprender com seus erros e melhorar a cada tentativa
Transferir habilidades para jogos completamente novos que o agente nunca viu antes

Nas demonstrações, o SIMA 2 encontrou com sucesso a fogueira em jogos desconhecidos, onde a primeira versão simplesmente travava. O agente generaliza uma compreensão abstrata da tarefa, em vez de repetir mecanicamente comandos aprendidos.

No Caminho para Robôs Físicos

A DeepMind enfatiza que essa pesquisa vai muito além dos videogames. A arquitetura do SIMA 2 — visão de tela, raciocínio sobre objetivos, execução de ações através do controle da interface — é exatamente o que é necessário para o desenvolvimento de robôs reais. No mundo físico, o robô usará uma câmera em vez de uma tela, mas a tarefa permanece a mesma: compreender o ambiente, planejar a ação, interagir com os objetos.

O primeiro SIMA já demonstrou transferência de videogames para simuladores de realidade. O SIMA 2, com sua capacidade de raciocínio, deve se tornar uma ferramenta ainda mais versátil para robótica. Os desenvolvedores chamam isso de um passo significativo em direção à AGI — Inteligência Artificial Geral. O problema da generalização (aplicação do aprendizado em situações completamente novas) tem sido uma pedra no caminho da IA por muitos anos. O SIMA 2 mostra progresso concreto em sua solução: o agente pode se adaptar a ambientes e objetivos desconhecidos.

O que Isso Significa

A linha entre IA estreita e orientada por tarefas e o pensamento geral está se tornando borrada. O SIMA 2 não é simplesmente um executor de comandos, mas um assistente interativo que entende o contexto, pode discutir estratégia e aprender conforme avança. Para robótica, isso significa que as tecnologias-chave — visão, raciocínio, adaptação — já estão próximas da aplicação prática.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 50 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →