MolmoWeb-4B par Ai2 : Un agent web qui voit les sites comme les humains, sans parsing HTML
Ai2 (Allen Institute for AI) a lancé MolmoWeb-4B — un agent web open-source qui contrôle un navigateur de la même manière que les humains : en observant une…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Ai2 (Allen Institute for AI) a présenté MolmoWeb-4B, un agent web multimodal open source qui contrôle un navigateur exclusivement via des captures d'écran, sans analyser le HTML.
La vision à la place de l'analyse
La plupart des agents web fonctionnent avec l'arbre DOM : ils lisent le code HTML d'une page, trouvent les éléments nécessaires et interagissent avec eux par programme. Cette approche échoue sur les sites dynamiques, les interfaces Canvas et les pages avec du JavaScript lourd.
MolmoWeb emprunte un chemin différent. Le modèle reçoit une capture d'écran de l'état actuel du navigateur et voit la page comme une image—exactement comme un humain la voit. Tâche de l'agent : comprendre ce qui se passe à l'écran et décider quoi faire ensuite. Pas de HTML, pas de sélecteurs DOM—seulement des pixels et du raisonnement multimodal.
Comment fonctionne le pipeline
Sous le capot, MolmoWeb-4B est un modèle de langage multimodal avec 4 milliards de paramètres et une quantification 4 bits. Cela permet de l'exécuter sur Google Colab gratuit avec GPU T4—ce qui est particulièrement important pour les développeurs sans matériel coûteux.
Le cycle de travail de l'agent comprend cinq étapes :
- Capturer une capture d'écran de l'état actuel du navigateur
- Passer l'image à MolmoWeb-4B
- Raisonnement du modèle sur l'état de la page (chain-of-thought)
- Prédire l'action suivante : clic, saisie de texte, défilement
- Exécuter l'action et capturer une nouvelle capture d'écran
L'idée clé du flux de prompt est de forcer le modèle à raisonner explicitement avant d'agir. L'agent ne « voit simplement un bouton et clique »—il articule exactement ce qu'il observe à l'écran, explique pourquoi il devrait cliquer là, puis génère seulement des coordonnées ou une commande. C'est une adaptation du prompting chain-of-thought pour la perception visuelle des interfaces.
Accès ouvert et pratique
MolmoWeb est publié sous une licence ouverte d'Ai2, ce qui signifie que tout développeur peut déployer son propre agent web sans dépendre des API payantes d'OpenAI, Google ou Anthropic. Les auteurs publient un tutoriel complet : de la configuration de l'environnement dans Colab et du chargement du modèle via Transformers à l'intégration avec Playwright pour le contrôle du navigateur. Le cycle de l'agent est construit à partir de zéro—capture d'écran, passage au modèle, analyse de la réponse, exécution de l'action.
Avantages pratiques :
- Exécution sans clés API de services externes
- Ne nécessite pas de balisage spécial du site ou de plugins de navigateur
- Compatible avec n'importe quel site et système d'exploitation
- La version quantifiée (4 bits) fonctionne sur Colab T4
- Pipeline entièrement reproductible en accès ouvert
Caveat : pour l'instant, c'est un outil de recherche. La vitesse (une étape prend plusieurs secondes) et la précision de la prédiction d'action sont en retrait par rapport aux agents spécialisés ayant un accès direct au DOM.
Contexte : la course aux agents de navigateur
Les agents de navigateur sont l'une des directions les plus actives du développement de l'IA en 2025-2026. Anthropic Computer Use, Google Project Mariner, OpenAI Operator—les grands acteurs travaillent activement pour permettre aux modèles d'IA de contrôler les ordinateurs à la place des humains. MolmoWeb d'Ai2 occupe sa propre niche : entièrement ouvert, reproductible et fonctionnant sur du matériel grand public. Ce n'est pas un concurrent direct des solutions d'entreprise—c'est un outil pour les chercheurs et les développeurs qui veulent construire des agents indépendamment.
Que signifie cela
Un agent de navigateur ouvert avec 4B paramètres s'exécutant sur Colab est une réduction de la barrière d'entrée pour les tâches d'automatisation web. Les équipes sans budgets d'entreprise obtiennent un outil fonctionnel pour expérimenter avec des agents pilotés par la vision plutôt que par le balisage du code.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.