Google Gemini: tu smartphone ahora oficialmente pertenece a la red neuronal
¿Recuerdas ese sentimiento cuando le pedías a Google Assistant que pusiera un temporizador y en cambio abría una búsqueda de la frase "pon un temporizador"?…
Procesado por IA desde 3DNews AI; editado por Hamidun News
¿Recuerdas ese sentimiento cuando le pedías a Google Assistant que pusiera un temporizador y en cambio abría una búsqueda de la frase "pon un temporizador"? Parece que la era de esta encantadora incompetencia está llegando a su fin. Mientras debatíamos si ChatGPT podía razonar sobre el significado de la vida, en las profundidades de Google se cocía un trabajo sobre algo mucho más mundano y simultáneamente aterrador. Hablamos del Project Astra, cuyas huellas fueron descubiertas recientemente en el código de las actualizaciones recientes de Google. En resumen: tu smartphone deja de ser solo un conjunto de iconos y se convierte en un órgano ejecutivo para Gemini.
Recordemos el contexto. En la última conferencia I/O, nos mostraron una demostración donde la IA, a través de la cámara de unas gafas, veía el mundo, reconocía código en una pizarra y recordaba dónde el usuario había dejado las gafas. Se veía como magia, pero la pregunta principal quedó fuera de pantalla: ¿podría esta cosa presionar el botón "comprar" o "reservar" por sí sola?
Los hallazgos recientes en el código confirman que Google planea otorgar a Gemini derechos de administrador sobre tu interfaz de usuario. Este es un paso lógico en la evolución de LLM (modelos de lenguaje grande) a LAM (modelos de acción). Hemos pasado años enseñando a las redes neuronales a hablar; ahora es hora de enseñarles a trabajar.
¿Por qué está sucediendo esto ahora? Google está en una posición de alcance en términos de inteligencia "pura" de los modelos, pero la empresa tiene una carta de triunfo que ni OpenAI ni Anthropic tienen. Es Android. Con acceso profundo a las APIs del sistema, Google puede permitir que Gemini vea lo que está sucediendo en la pantalla en cualquier aplicación e imite pulsaciones de teclas. Mientras Apple solo promete algo similar con su Intelligence, Google ya está sentando las bases para que tu teléfono pueda planificar independientemente una noche: desde reservar una mesa en un restaurante hasta pedir un taxi en el momento adecuado, sin pasar por la etapa de tu participación personal en ojear el menú.
Técnicamente, esto se implementa a través del análisis del flujo visual. Gemini no solo lee texto; entiende la jerarquía de los elementos de la interfaz. Sabe que el pequeño carrito de compras en la esquina es la transición al pago y que esa X es cerrar un anuncio. Esto elimina una enorme carga del usuario, pero al mismo tiempo abre una caja de Pandora en términos de seguridad. Imagina un agente de IA que por error o alucinación confirmó una transferencia de dinero o eliminó un chat importante del trabajo. Por eso Google implementa estas funciones con cuidado, ocultándolas tras capas de código hasta que el sistema sea suficientemente confiable.
La industria ahora está al borde de una "revolución de agentes". Ya hemos visto intentos de crear dispositivos separados para esto, como Rabbit R1 o Humane Pin, pero fracasaron precisamente porque intentaban reemplazar al smartphone. Google es más inteligente: la empresa está convirtiendo el ladrillo ya en tu bolsillo en un asistente autónomo.
Esto cambia el paradigma mismo del uso del gadget. Un smartphone deja de ser un dispositivo en el que miras durante horas y se convierte en un procesador de fondo que ejecuta tus tareas. Si esto funciona, el mismo concepto de "aplicación" podría quedar en el pasado—¿por qué necesitarías abrir la interfaz de Uber si Gemini hiciera todo a través de una API o captura de pantalla?
Al final, esta es una batalla por nuestro tiempo. Google entiende que si no hace de Gemini un operador completo de Android, alguien más lo hará a través de soluciones chapuceras y extensiones. Ahora estamos viendo los primeros pasos vacilantes de un sistema que pronto conocerá la estructura de tus aplicaciones mejor que tú mismo. Solo nos queda esperar que Gemini no decida que tu presencia en el proceso de elegir pizza es también un ruido excesivo que vale la pena optimizar.
Lo clave: ¿Se convertirá Gemini en un "piloto automático" completo para Android ya este año, o nos espera otra serie de pruebas beta interminables?
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.