Google Gemini: seu smartphone agora pertence oficialmente à rede neural
Lembra daquele sentimento quando você pedia ao Google Assistant para colocar um temporizador e ele abria uma pesquisa pela frase "colocar temporizador"?…
Processado por IA de 3DNews AI; editado por Hamidun News
Lembra daquele sentimento quando você pedia ao Google Assistant para colocar um temporizador e ele abria uma pesquisa pela frase "colocar temporizador"? Parece que a era dessa encantadora incompetência está chegando ao fim. Enquanto discutíamos se o ChatGPT conseguia raciocinar sobre o significado da vida, nos bastidores do Google estava em ebulição um trabalho sobre algo muito mais mundano e ao mesmo tempo assustador. Estamos falando sobre o Project Astra, cujos rastros foram recentemente descobertos no código de atualizações recentes do Google. Em resumo: seu smartphone deixa de ser apenas um conjunto de ícones e se torna um órgão executivo para o Gemini.
Vamos relembrar o contexto. Na última conferência I/O, nos mostraram uma demonstração onde a IA, através da câmera de óculos, via o mundo, reconhecia código em um quadro-branco e lembrava onde o usuário tinha deixado os óculos. Parecia magia, mas a pergunta principal ficou de fora: essa coisa conseguiria pressionar o botão "comprar" ou "reservar" por conta própria? Descobertas recentes no código confirmam que o Google planeja dar ao Gemini direitos de administrador sobre sua interface de usuário. Este é um passo lógico na evolução de LLM (modelos de linguagem grande) para LAM (modelos de ação). Passamos anos ensinando redes neurais a falar; agora é hora de ensinar a elas a trabalhar.
Por que isso está acontecendo agora? Google está em uma posição de alcançador em termos de inteligência "pura" dos modelos, mas a empresa tem um trunfo que nem OpenAI nem Anthropic têm. É o Android. Com acesso profundo às APIs do sistema, Google pode permitir que Gemini veja o que está acontecendo na tela em qualquer aplicativo e simule pressionamentos de teclas. Enquanto Apple apenas promete algo semelhante com seu Intelligence, Google já está lançando a base para que seu telefone possa planejar independentemente uma noite: desde reservar uma mesa em um restaurante até pedir um táxi na hora certa, sem passar pelo estágio de sua participação pessoal em folhear o menu.
Tecnicamente, isso é implementado através da análise do fluxo visual. Gemini não apenas lê texto; ela compreende a hierarquia dos elementos da interface. Ela sabe que o pequeno carrinho de compras no canto é a transição para o checkout, e que aquele X é fechar um anúncio. Isso remove uma enorme carga do usuário, mas ao mesmo tempo abre uma caixa de Pandora em termos de segurança. Imagine um agente de IA que por engano ou alucinação confirmou uma transferência de dinheiro ou deletou um chat de trabalho importante. É por isso que Google está implementando essas funcionalidades com cuidado, escondendo-as atrás de camadas de código até que o sistema se torne suficientemente confiável.
A indústria agora está à beira de uma "revolução dos agentes". Já vimos tentativas de criar dispositivos separados para isso, como Rabbit R1 ou Humane Pin, mas falharam justamente porque tentavam substituir o smartphone. Google é mais inteligente: a empresa está transformando o tijolo já em seu bolso em um assistente autônomo. Isso muda o próprio paradigma de uso do gadget. Um smartphone deixa de ser um dispositivo em que você olha por horas e se torna um processador de fundo executando suas tarefas. Se isso funcionar, o próprio conceito de "aplicativo" pode se tornar coisa do passado—por que você precisaria abrir a interface do Uber se Gemini fizesse tudo através de uma API ou captura de tela?
No final, é uma batalha pelo nosso tempo. Google entende que se não fizer do Gemini um operador completo do Android, alguém mais fará através de gambiarras e extensões. Agora estamos vendo os primeiros passos tímidos de um sistema que em breve conhecerá a estrutura de seus aplicativos melhor do que você. Só nos resta esperar que Gemini não decida que sua presença no processo de escolher pizza é também um ruído excessivo que vale a pena otimizar.
O ponto principal: Gemini se tornará um "piloto automático" completo para Android ainda neste ano, ou teremos outra série de testes beta infinitos?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.