DeepMind Blog→ original

Google DeepMind apresenta Gemini Robotics-ER 1.6 para tarefas autônomas no mundo real

Google DeepMind atualizou Gemini Robotics-ER para versão 1.6 e se concentrou em cenários do mundo real: desde reconhecimento de objetos e verificação de…

Processado por IA de DeepMind Blog; editado por Hamidun News
Google DeepMind apresenta Gemini Robotics-ER 1.6 para tarefas autônomas no mundo real
Fonte: DeepMind Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Google DeepMind apresentou o Gemini Robotics-ER 1.6 em 14 de abril de 2026 — um modelo de raciocínio atualizado para robôs, projetado não apenas para executar comandos, mas para entender o ambiente físico. A empresa está apostando no embodied reasoning, ou seja, na capacidade do sistema de conectar percepção visual, contexto da tarefa e ação no mundo real.

A nova versão enfatiza raciocínio espacial mais preciso, compreensão de cena com múltiplas câmeras, determinação de conclusão de tarefa e leitura de instrumentos industriais. Em essência, é um "cérebro" de alto nível para o robô que pode invocar ferramentas externas, modelos VLA e funções customizadas para executar cenários complexos no mundo real. Uma das melhorias-chave é o trabalho com tarefas espaciais.

DeepMind explica que para um robô, uma operação básica como apontar para um objeto não é uma trivialidade, mas uma base para comportamento mais complexo. Por meio de pontos, o modelo não pode apenas encontrar objetos, mas também contá-los, comparar tamanhos, construir relações entre objetos, selecionar pontos de preensão ideais e verificar restrições do prompt. Por exemplo, se o sistema precisa mostrar todos os objetos que caibam em uma xícara azul, ele deve reconhecer simultaneamente a forma, tamanho e posição relativa dos itens.

Nas demonstrações, Gemini Robotics-ER 1.6 determinou com mais precisão o número de ferramentas no quadro, não apontou para objetos ausentes e, em geral, se saiu significativamente melhor em tais tarefas do que Gemini Robotics-ER 1.5 e Gemini 3.

0 Flash. O segundo componente importante é a compreensão de cena com múltiplas vistas e o chamado success detection, ou seja, a capacidade de determinar se uma tarefa foi realmente concluída. Para robótica autônoma, isso é crítico: não basta um robô começar uma ação; ele deve entender se uma nova tentativa é necessária ou se pode prosseguir para a próxima etapa do plano.

Em configurações do mundo real, isso é especialmente desafiador porque câmeras frequentemente olham para a cena de cima e do manipulador simultaneamente, alguns objetos podem estar oclusos, e a iluminação e fundo mudam. Gemini Robotics-ER 1.6 alinha melhor múltiplos fluxos de vídeo e monta uma imagem coerente deles.

Como exemplo, DeepMind mostra um cenário onde o sistema, com base em várias vistas, determina se a tarefa "colocar a caneta azul no suporte preto para canetas" foi concluída. A inovação mais prática é a leitura de instrumentos. DeepMind desenvolveu essa capacidade junto com Boston Dynamics, baseando-se em tarefas de inspeção de instalações industriais.

Em fábricas e salas técnicas, robôs precisam verificar regularmente termômetros, manômetros, medidores de nível químico, visores e displays digitais. Para isso, não basta reconhecer uma imagem: o sistema deve entender a posição do ponteiro, nível de fluido, limites da escala, divisões, rótulos de unidades de medida e às vezes até alinhar leituras de múltiplos ponteiros correspondentes a diferentes dígitos. Se se tratar de um visor, deve-se também levar em conta distorções devido ao ângulo da câmera.

De acordo com DeepMind, a precisão da leitura de instrumentos subiu de 23% em Gemini Robotics-ER 1.5 e 67% em Gemini 3.0 Flash para 86% em Gemini Robotics-ER 1.

6. Com o modo agentic vision ativado, o número chega a 93%: o modelo primeiro amplia a área desejada, depois usa apontamento para pontos-chave e execução de código para avaliar proporções e intervalos, após o qual interpreta o valor final. DeepMind enfatiza separadamente a segurança.

A empresa chama Gemini Robotics-ER 1.6 de seu modelo mais seguro para robótica no momento. Ele adere melhor às políticas Gemini em tarefas espaciais adversariais e respeita significativamente mais com precisão as restrições físicas — por exemplo, quando o sistema não pode trabalhar com líquidos ou levantar objetos mais pesados do que 20 quilogramas.

Além disso, em cenários baseados em relatórios reais de lesões, Robotics-ER mostra vantagem sobre Gemini 3.0 Flash: mais 6 pontos percentuais em tarefas textuais e mais 10 pontos em tarefas de vídeo relacionadas ao reconhecimento de riscos. Para desenvolvedores, o modelo já está disponível através da Gemini API e Google AI Studio, e junto com o lançamento, DeepMind publicou um exemplo Colab e convidou parceiros a enviar imagens anotadas de erros típicos para melhorar versões futuras.

Esta atualização mostra para onde a competição em robótica está se deslocando: a mecânica sozinha está decidindo menos e a camada de raciocínio acima dela está decidindo mais. Se um modelo consegue ver uma cena de múltiplos pontos de vista, usar ferramentas, ler instrumentos, verificar resultados e ao mesmo tempo levar em conta restrições de segurança, um robô se torna não apenas um dispositivo de execução, mas um sistema capaz de trabalhar situacionalmente. Para inspeções industriais, armazéns e cenários de serviço, este é um dos sinais mais práticos de que grandes modelos de IA estão se aproximando de uma verdadeira autonomia fora do laboratório.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…