Google Gemini 3.5 Flash peut désormais piloter un ordinateur à la place de l’utilisateur
Google a ajouté la fonction Computer Use à Gemini 3.5 Flash : le modèle pilote désormais l’ordinateur à la place de l’utilisateur, clique sur l’écran…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
Google Gemini 3.5 Flash a reçu la fonctionnalité Computer Use —la capacité de contrôler autonomement un ordinateur : appuyer sur des boutons, remplir des formulaires, basculer entre les applications et exécuter des tâches multi-étapes sans intervention humaine. Google la positionne comme un outil d'entreprise pour automatiser les processus opérationnels, accessible via la plateforme cloud Vertex AI.
Comment Fonctionne le Contrôle de l'Ordinateur
Le principe ressemble au travail d'un opérateur à l'écran : le modèle reçoit une capture d'écran, analyse l'interface, détermine l'action suivante—un clic, une saisie de texte, un défilement de page—et répète le cycle jusqu'à ce que la tâche soit terminée. Gemini 3.5 Flash voit l'écran de la même manière qu'un humain, mais agit plus rapidement et sans fatigue.
Le choix de la version Flash est délibéré : c'est le modèle le plus rapide de la gamme Gemini 3.5. Pour les tâches d'agent avec de longues chaînes d'actions séquentielles, la vitesse de réaction est critique—un agent lent accumule les retards à chaque étape, et des scénarios comme l'automatisation de dizaines de formulaires se transforment en processus de plusieurs heures.
Flash résout ce problème grâce à une faible latence.
Parmi les capacités déclarées:
- Navigation dans le navigateur et interaction avec les formulaires web
- Contrôle des applications de bureau via GUI
- Exécution de tâches multi-étapes sans intervention de l'utilisateur
- Fonctionnement via Vertex AI avec contrôle d'accès d'entreprise
- Journalisation des actions pour l'audit et la conformité de sécurité
Pour Qui et Comment Obtenir l'Accès
Google divise le développement de Gemini en deux directions. La première est une intégration profonde avec Workspace : un assistant intelligent dans Gmail, Docs, Sheets et Slides qui aide un large public sans connaissances techniques particulières. La deuxième comprend les capacités d'agent pour le secteur d'entreprise, auxquelles appartient Computer Use. La fonctionnalité est disponible via Vertex AI—la plateforme cloud d'entreprise de Google. Les entreprises pourront intégrer des agents dans leurs propres processus : automatiser le travail avec les systèmes existants sans API, déléguer les opérations de navigateur routinières aux équipes financières ou RH, et construire des outils internes basés sur Gemini avec gestion et journalisation centralisées.
Il est important de comprendre que Computer Use n'est pas simplement un "cliqueur automatique." Nous parlons d'un scénario d'agent à part entière où le modèle planifie indépendamment une chaîne d'étapes et s'adapte aux résultats : si une page se charge avec un délai ou qu'une fenêtre contextuelle inattendue apparaît—l'agent le voit et réagit.
Concurrence pour le Contrôle de l'Écran
Le marché des agents d'IA travaillant avec des interfaces informatiques est devenu considérablement plus concurrentiel au cours de l'année écoulée. Anthropic a lancé Claude Computer Use en octobre 2024, OpenAI a lancé Operator début 2025, et Microsoft a intégré des scénarios d'agent dans Copilot Studio pour Azure. Maintenant, Google les rejoint avec sa mise en œuvre basée sur l'un des modèles les plus rapides. La concurrence se déploie selon plusieurs axes : précision de la reconnaissance d'interface, vitesse d'exécution des chaînes d'actions, sécurité et capacités d'audit d'entreprise.
Google dispose d'un avantage structurel que les concurrents ne possèdent pas : Gemini fonctionne dans un écosystème où Gmail, Drive et Calendar sont déjà déployés. Un agent qui voit simultanément l'écran et a un accès natif aux données d'entreprise via API obtient un niveau de contexte fondamentalement différent—sans chargement de prompt supplémentaire.
«
Nous construisons une IA qui non seulement répond aux questions, mais effectue le travail », —telle est la position générale de Google concernant la stratégie de Gemini en tant que plateforme d'agent.
Ce Que Cela Signifie
Le contrôle informatique passe de capacités expérimentales à une fonctionnalité de produit standard chez tous les principaux fournisseurs d'IA. Pour les entreprises, cela signifie une véritable automatisation des tâches opérationnelles dès maintenant—sans réécrire les systèmes existants, sans développer d'intégrations API pour chaque scénario et sans impliquer les développeurs pour l'automatisation basique. La question n'est plus « cela fonctionnera-t-il ? », mais plutôt « qui l'implémentera plus rapidement ? ».
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).