Google DeepMind apresenta Gemini Robotics-ER 1.6 para tarefas autônomas no mundo real
Google DeepMind atualizou Gemini Robotics-ER para versão 1.6 e se concentrou em cenários do mundo real: desde reconhecimento de objetos e verificação de…
Processado por IA de DeepMind Blog; editado por Hamidun News
Google DeepMind apresentou o Gemini Robotics-ER 1.6 em 14 de abril de 2026 — um modelo de raciocínio atualizado para robôs, projetado não apenas para executar comandos, mas para entender o ambiente físico. A empresa está apostando no embodied reasoning, ou seja, na capacidade do sistema de conectar percepção visual, contexto da tarefa e ação no mundo real.
A nova versão enfatiza raciocínio espacial mais preciso, compreensão de cena com múltiplas câmeras, determinação de conclusão de tarefa e leitura de instrumentos industriais. Em essência, é um "cérebro" de alto nível para o robô que pode invocar ferramentas externas, modelos VLA e funções customizadas para executar cenários complexos no mundo real. Uma das melhorias-chave é o trabalho com tarefas espaciais.
DeepMind explica que para um robô, uma operação básica como apontar para um objeto não é uma trivialidade, mas uma base para comportamento mais complexo. Por meio de pontos, o modelo não pode apenas encontrar objetos, mas também contá-los, comparar tamanhos, construir relações entre objetos, selecionar pontos de preensão ideais e verificar restrições do prompt. Por exemplo, se o sistema precisa mostrar todos os objetos que caibam em uma xícara azul, ele deve reconhecer simultaneamente a forma, tamanho e posição relativa dos itens.
Nas demonstrações, Gemini Robotics-ER 1.6 determinou com mais precisão o número de ferramentas no quadro, não apontou para objetos ausentes e, em geral, se saiu significativamente melhor em tais tarefas do que Gemini Robotics-ER 1.5 e Gemini 3.
0 Flash. O segundo componente importante é a compreensão de cena com múltiplas vistas e o chamado success detection, ou seja, a capacidade de determinar se uma tarefa foi realmente concluída. Para robótica autônoma, isso é crítico: não basta um robô começar uma ação; ele deve entender se uma nova tentativa é necessária ou se pode prosseguir para a próxima etapa do plano.
Em configurações do mundo real, isso é especialmente desafiador porque câmeras frequentemente olham para a cena de cima e do manipulador simultaneamente, alguns objetos podem estar oclusos, e a iluminação e fundo mudam. Gemini Robotics-ER 1.6 alinha melhor múltiplos fluxos de vídeo e monta uma imagem coerente deles.
Como exemplo, DeepMind mostra um cenário onde o sistema, com base em várias vistas, determina se a tarefa "colocar a caneta azul no suporte preto para canetas" foi concluída. A inovação mais prática é a leitura de instrumentos. DeepMind desenvolveu essa capacidade junto com Boston Dynamics, baseando-se em tarefas de inspeção de instalações industriais.
Em fábricas e salas técnicas, robôs precisam verificar regularmente termômetros, manômetros, medidores de nível químico, visores e displays digitais. Para isso, não basta reconhecer uma imagem: o sistema deve entender a posição do ponteiro, nível de fluido, limites da escala, divisões, rótulos de unidades de medida e às vezes até alinhar leituras de múltiplos ponteiros correspondentes a diferentes dígitos. Se se tratar de um visor, deve-se também levar em conta distorções devido ao ângulo da câmera.
De acordo com DeepMind, a precisão da leitura de instrumentos subiu de 23% em Gemini Robotics-ER 1.5 e 67% em Gemini 3.0 Flash para 86% em Gemini Robotics-ER 1.
6. Com o modo agentic vision ativado, o número chega a 93%: o modelo primeiro amplia a área desejada, depois usa apontamento para pontos-chave e execução de código para avaliar proporções e intervalos, após o qual interpreta o valor final. DeepMind enfatiza separadamente a segurança.
A empresa chama Gemini Robotics-ER 1.6 de seu modelo mais seguro para robótica no momento. Ele adere melhor às políticas Gemini em tarefas espaciais adversariais e respeita significativamente mais com precisão as restrições físicas — por exemplo, quando o sistema não pode trabalhar com líquidos ou levantar objetos mais pesados do que 20 quilogramas.
Além disso, em cenários baseados em relatórios reais de lesões, Robotics-ER mostra vantagem sobre Gemini 3.0 Flash: mais 6 pontos percentuais em tarefas textuais e mais 10 pontos em tarefas de vídeo relacionadas ao reconhecimento de riscos. Para desenvolvedores, o modelo já está disponível através da Gemini API e Google AI Studio, e junto com o lançamento, DeepMind publicou um exemplo Colab e convidou parceiros a enviar imagens anotadas de erros típicos para melhorar versões futuras.
Esta atualização mostra para onde a competição em robótica está se deslocando: a mecânica sozinha está decidindo menos e a camada de raciocínio acima dela está decidindo mais. Se um modelo consegue ver uma cena de múltiplos pontos de vista, usar ferramentas, ler instrumentos, verificar resultados e ao mesmo tempo levar em conta restrições de segurança, um robô se torna não apenas um dispositivo de execução, mas um sistema capaz de trabalhar situacionalmente. Para inspeções industriais, armazéns e cenários de serviço, este é um dos sinais mais práticos de que grandes modelos de IA estão se aproximando de uma verdadeira autonomia fora do laboratório.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.