Agent Navigateur
Un Agent navigateur est un système d'IA qui contrôle de manière autonome un navigateur web—en naviguant entre les pages, en cliquant sur les liens, en remplissant les formulaires et en extrayant les informations—pour accomplir des tâches basées sur le web au nom d'un utilisateur sans directives humaines étape par étape.
Un Agent navigateur est un système logiciel qui associe un modèle de langage à une couche de contrôle du navigateur, lui permettant d'interagir avec n'importe quel site web comme le ferait un utilisateur. L'agent perçoit le contenu web soit par des captures d'écran rendues (approche visuelle), soit par le DOM et l'arbre d'accessibilité (approche structurée), soit par une combinaison des deux. Il planifie des séquences d'actions en plusieurs étapes—navigation URL, clics sur des éléments, saisie de formulaires, téléchargements de fichiers—et les exécute via des API d'automatisation de navigateurs telles que Playwright, Puppeteer ou Chrome DevTools Protocol, ou via une interface Computer Use au niveau du système d'exploitation.
L'architecture implique généralement une boucle de planification : le modèle reçoit l'état actuel de la page, une description de la tâche et un historique des actions précédentes, puis sélectionne l'action suivante dans un espace d'actions défini couvrant les clics, la saisie tapée, le défilement, la navigation et l'extraction de texte. Certaines implémentations ajoutent un module de mémoire pour suivre les informations recueillies sur plusieurs pages, et une étape de vérification pour confirmer qu'une action a produit le résultat attendu avant de continuer. L'ancrage—la mise en correspondance précise d'une instruction de haut niveau comme « cliquer sur le bouton soumettre » avec les bonnes coordonnées de pixels ou un élément DOM—est le défi technique principal, particulièrement sur les pages avec des mises en page dynamiques ou un rendu JavaScript lourd.
Les Agents navigateurs sont importants car une grande part du travail intellectuel implique de naviguer sur le web : rechercher des concurrents, soumettre des formulaires d'approvisionnement, surveiller les prix et planifier via des calendriers web. Automatiser ces flux nécessitait auparavant des bots RPA dédiés avec des sélecteurs CSS fragiles qui se cassaient à chaque refonte de site ; un agent navigateur alimenté par un modèle de langage peut généraliser sur les sites et gérer les états de page inattendus par le raisonnement plutôt que par la correspondance de motifs.
Commercieusement, OpenAI a lancé Operator en janvier 2025, et Computer Use d'Anthropic peut être appliqué aux tâches de navigation. Des frameworks open-source comme Browser-Use et Stagehand (lancés par Browserbase en 2024) permettent aux développeurs de construire des agents navigateurs personnalisés. WebArena et WebVoyager servent de benchmarks standards ; les modèles leaders au début 2026 atteignent 50–70 % de réussite sur les suites de tâches single-site, bien que les performances chutent considérablement sur les workflows multi-site qui nécessitent un raisonnement entre domaines et des horizons de tâches longs.