3DNews AI→ original

Google Gemini : votre smartphone appartient maintenant officiellement au réseau de neurones

Vous souvenez-vous de cette sensation lorsque vous aviez demandé à Google Assistant de mettre un minuteur, et qu'il ouvrait plutôt une recherche pour la…

Traité par IA depuis 3DNews AI ; édité par Hamidun News
Google Gemini : votre smartphone appartient maintenant officiellement au réseau de neurones
Source : 3DNews AI. Collage: Hamidun News.
◐ Écouter l'article

Vous souvenez-vous de cette sensation lorsque vous aviez demandé à Google Assistant de mettre un minuteur, et qu'il ouvrait plutôt une recherche pour la phrase "mettre un minuteur" ? Il semble que l'ère de cette charmante incompétence arrive à sa fin. Pendant que nous débattions si ChatGPT pouvait raisonner sur le sens de la vie, dans les profondeurs de Google bouillonnait un travail sur quelque chose de bien plus terre-à-terre et simultanément terrifiant. Nous parlons du Project Astra, dont les traces ont été récemment découvertes dans le code des dernières mises à jour de Google. En bref : votre smartphone cesse d'être simplement un ensemble d'icônes et devient un organe exécutif pour Gemini.

Rappelons le contexte. À la dernière conférence I/O, on nous a montré une démo où l'IA, à travers la caméra de lunettes, voyait le monde, reconnaissait le code sur un tableau blanc et se souvenait où l'utilisateur avait laissé les lunettes. Cela ressemblait à de la magie, mais la question principale est restée hors champ : cette chose pourrait-elle appuyer sur le bouton "acheter" ou "réserver" d'elle-même ?

Les découvertes récentes dans le code confirment que Google prévoit de donner à Gemini les droits d'administrateur sur votre interface utilisateur. C'est une étape logique dans l'évolution des LLM (grands modèles de langage) vers les LAM (modèles d'action). Nous avons passé des années à enseigner aux réseaux de neurones à parler ; maintenant il est temps de leur apprendre à travailler.

Pourquoi cela se produit-il maintenant ? Google est dans une position de rattrapage en termes d'intelligence "pure" des modèles, mais l'entreprise possède un atout que ni OpenAI ni Anthropic n'ont. C'est Android. Avec un accès profond aux APIs système, Google peut permettre à Gemini de voir ce qui se passe à l'écran dans n'importe quelle application et de simuler les appuis sur les touches. Alors qu'Apple ne promet que quelque chose de similaire avec son Intelligence, Google jette déjà les bases pour que votre téléphone puisse planifier indépendamment une soirée : de la réservation d'une table de restaurant à la commande d'un taxi au moment opportun, en contournant l'étape de votre participation personnelle au feuillettage du menu.

Techniquement, ceci est implémenté par l'analyse du flux visuel. Gemini ne lit pas simplement du texte ; elle comprend la hiérarchie des éléments de l'interface. Elle sait que le petit panier dans le coin est la transition vers le paiement, et que cette croix ferme une publicité. Cela enlève un énorme fardeau à l'utilisateur, mais ouvre simultanément la boîte de Pandore en matière de sécurité. Imaginez un agent IA qui par erreur ou hallucination a confirmé un virement bancaire ou supprimé un important chat professionnel. C'est pourquoi Google implémente ces fonctionnalités avec prudence, les cachant derrière des couches de code jusqu'à ce que le système soit suffisamment fiable.

L'industrie est maintenant au seuil d'une "révolution des agents". Nous avons déjà vu des tentatives de créer des appareils séparés pour cela, comme le Rabbit R1 ou le Humane Pin, mais elles ont échoué précisément parce qu'elles tentaient de remplacer le smartphone. Google est plus intelligent : l'entreprise transforme la brique déjà dans votre poche en un assistant autonome. Cela change le paradigme même de l'utilisation du gadget. Un smartphone cesse d'être un appareil dans lequel vous regardez pendant des heures et devient un processus d'arrière-plan exécutant vos tâches. Si cela fonctionne, le concept même d'"application" pourrait devenir chose du passé—pourquoi auriez-vous besoin d'ouvrir l'interface d'Uber si Gemini faisait tout via une API ou une capture d'écran ?

En fin de compte, c'est une bataille pour notre temps. Google comprend que s'ils ne font pas de Gemini un opérateur à part entière d'Android, quelqu'un d'autre le fera via des contournements et des extensions. Nous voyons maintenant les premiers pas hésitants d'un système qui connaîtra bientôt la structure de vos applications mieux que vous-même. On ne peut qu'espérer que Gemini ne décidera pas que votre présence dans le processus de choix d'une pizza est aussi un bruit excessif qu'il faut optimiser.

L'essentiel : Gemini deviendra-t-il un véritable "pilote automatique" pour Android dès cette année, ou sommes-nous en attente d'une autre série de tests bêta sans fin ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…