Agents

Utilisation d'ordinateur

L'utilisation d'ordinateur est une capacité d'IA, d'abord publiée publiquement par Anthropic en octobre 2024, qui permet à un modèle de langage de contrôler l'interface graphique d'un ordinateur — en déplaçant le curseur, en cliquant sur des boutons, en tapant du texte et en lisant des captures d'écran — pour accomplir des tâches comme un opérateur humain.

L'utilisation d'ordinateur se réfère à la capacité d'un système IA à percevoir et manipuler un ordinateur de bureau ou une machine virtuelle à travers la même interface graphique qu'un humain utiliserait : en observant l'écran via des captures d'écran, en émettant des clics de souris et des événements de clavier, et en itérant jusqu'à ce qu'un objectif soit atteint. Anthropic a introduit cette capacité comme une fonction bêta de Claude 3.5 Sonnet en octobre 2024, marquant la première fois qu'un modèle de langage commercial à usage général était explicitement entraîné et évalué pour l'interaction avec l'interface graphique à l'échelle de la production.

La boucle technique fonctionne comme suit : le modèle reçoit une capture d'écran de l'état actuel de l'écran ; il raisonne sur l'action suivante nécessaire ; il produit une commande d'action structurée telle qu'un clic à des coordonnées de pixels spécifiques, une chaîne tapée ou une combinaison de touches ; une couche d'exécution fine applique cette action au système d'exploitation ou à une machine virtuelle isolée ; la capture d'écran mise à jour est renvoyée au modèle. Ce cycle percevoir-planifier-agir continue jusqu'à ce que la tâche soit terminée ou qu'une condition d'erreur soit détectée. Le modèle opère sur des pixels visuels plutôt que sur des données DOM ou d'arbre d'accessibilité par défaut, le rendant applicable à n'importe quelle interface graphique — y compris les applications héritées — sans travail d'intégration.

L'utilisation d'ordinateur est importante car elle permet à l'IA d'exploiter des logiciels pour lesquels aucune API n'existe et d'effectuer des flux de travail multi-étapes qui s'étendent sur plusieurs applications. Les approches d'automatisation antérieures telles que l'RPA basée sur Selenium nécessitaient des sélecteurs d'éléments prédéfinis qui se cassaient lorsque les interfaces graphiques changeaient ; un agent basé sur la vision peut s'adapter aux changements de disposition de la même manière qu'un opérateur humain. Les évaluations de benchmark sur OSWorld et WebArena montrent une performance significative mais imparfaite — les modèles en 2025 ont atteint environ 20-40 % de taux de réussite sur les tâches complexes multi-étapes, les scores s'améliorant avec chaque génération successive de modèle.

En 2026, les capacités de style Computer Use sont proposées par plusieurs fournisseurs : Anthropic (Claude), OpenAI (Operator, lancé en janvier 2025) et Google (Project Mariner). Les applications d'entreprise incluent les tests d'assurance qualité automatisés, la saisie de données dans les systèmes ERP hérités et le remplacement des bots RPA fragiles. Les défis de sécurité — en particulier la prévention du contenu Web malveillant détournant l'agent par injection de prompts intégrée dans le texte de page visible — restent un domaine de recherche actif.

Exemple

Un analyste commercial demande à un agent d'utilisation d'ordinateur d'ouvrir l'ERP hérité de l'entreprise, de naviguer vers la section du rapport de dépenses mensuel, d'exporter les données en CSV et de les coller dans un modèle de feuille de calcul — complétant une tâche manuelle de 15 minutes en moins de deux minutes.

Termes liés

AI agent Modèle Vision-Langage (VLM)Agent Navigateur Bac à sable

← Glossaire