Le développeur de n0x a appris à son agent de navigateur à ouvrir des sites et à prendre des captures d'écran
Le projet n0x a acquis le support MCP et a franchi une étape, passant d'un simple chatbot à un agent IA basé sur un navigateur. Après la mise à jour…
Traité par IA depuis Habr AI ; édité par Hamidun News
Le projet n0x a obtenu le support du MCP et a franchi une étape depuis une interface de chat ordinaire vers un agent IA basé sur navigateur entièrement fonctionnel. Après la mise à jour, l'assistant peut non seulement fournir des réponses textuelles, mais aussi ouvrir des sites web, prendre des captures d'écran et exécuter des commandes dans le navigateur à la demande directe de l'utilisateur.
Du Lien à l'Action
L'idée de l'article se construit sur un problème familier de la plupart des applications LLM : elles formulent bien les réponses, mais agissent mal. Si vous demandez à un tel système d'« ouvrir Yandex », il retourne souvent un lien au lieu d'effectuer l'action réelle. Pour l'utilisateur, cela ressemble à une aide simulée : le modèle sait de quoi il s'agit, mais ne peut pas dépasser la fenêtre de texte.
C'est précisément là où de nombreuses promesses concernant les assistants IA se heurtent à un plafond : la connaissance existe, mais l'exécution non. Dans n0x, ils ont décidé de supprimer cette frontière. L'auteur décrit comment, en une soirée, il a ajouté le support du contrôle du navigateur au projet et transformé l'assistant d'un « chatbot » en un agent capable d'interagir avec des pages web.
Le scénario clé ici est cristallin : à la commande « ouvrir... » le système devrait maintenant réellement ouvrir le site, pas seulement suggérer une adresse. La différence semble mineure, mais c'est exactement ce qui sépare une démonstration de modèle d'un véritable outil utilisateur.
« Merci, Capitaine Évidence, je le savais moi-même.»
Ce Que MCP a Ajouté
Le fondement technique est devenu MCP — Model Context Protocol. Cette approche permet de connecter des outils externes à un modèle de langage et de lui donner un accès contrôlé à des actions qui restaient auparavant au-delà de ses capacités. Dans le cas de n0x, nous ne parlons pas d'un nouveau modèle, mais plutôt d'un nouveau niveau d'intégration entre le modèle et le navigateur.
C'est important pour les projets qui souhaitent ajouter de nouvelles capacités sans réécrire toute l'architecture. Après la mise en œuvre du MCP, l'agent a reçu non pas une intégration abstraite, mais un ensemble de fonctions pleinement applicable. Ils couvrent le cycle de base du fonctionnement d'un agent de navigateur : recevoir une commande, exécuter une action sur la page, enregistrer le résultat et continuer les étapes dans la même session si nécessaire.
C'est exactement cet ensemble qui transforme le chat en une interface de travail, plutôt qu'une jolie vitrine des capacités du modèle. Sans une telle étape, l'utilisateur reste seul avec le navigateur.
- ouverture de sites web par commande textuelle de l'utilisateur;
- création de captures d'écran de pages pour vérification visuelle des résultats;
- exécution de commandes dans une session de navigateur;
- travail avec l'interface web comme outil, et non comme description textuelle;
- une base pour des scénarios d'automatisation plus complexes.
En essence, MCP agit ici comme un pont universel entre le modèle et un ensemble d'actions. Au lieu d'une logique codée en dur, le développeur connecte un outil, décrit ce qu'il peut faire, et le modèle décide quand l'invoquer en fonction du sens de la demande. Cette approche est pratique car le navigateur ne devient pas un module séparé avec un script manuel, mais fait partie d'un système global d'agents.
Cela ressemble déjà à une base pour des scénarios de test, de recherche et de micro-automatisation. Le sens pratique est que LLM cesse d'être simplement un générateur de phrases. Il obtient la capacité de voir le résultat de ses actions et de poursuivre le travail dans le même contexte.
C'est particulièrement important pour les tâches où une réponse textuelle est inutile en soi : ouvrir une page, vérifier à quoi elle ressemble, exécuter une commande, collecter des données à partir de l'interface. Plus l'écart entre la réponse et l'action est faible, plus la valeur d'un tel assistant est élevée.
Pourquoi C'est Important
L'histoire avec n0x montre bien vers où se dirige le marché des outils d'IA. Les utilisateurs ont de moins en moins besoin d'assistants qui réécrivent simplement les demandes joliment. Une valeur beaucoup plus élevée est accordée aux logiciels qui effectuent une opération spécifique : ouvrent un service, parcourent les étapes de l'interface, prennent une capture d'écran, retournent un résultat prêt ou au moins un artefact intermédiaire.
Les agents de navigateur quittent donc le statut de jouet expérimental pour devenir une classe de produits pratique et compréhensible. Pour les développeurs, c'est aussi un signal important. Même un petit projet personnel peut maintenant être relativement rapidement transformé en un prototype d'agent fonctionnel s'il a accès à un navigateur et à un ensemble clair d'outils.
Auparavant, une telle combinaison était souvent considérée comme une automatisation RPA lourde, mais maintenant elle est assemblée autour de LLM et d'un protocole d'intégration standard. Pour les petites équipes, cela signifie une entrée moins chère dans une niche autrefois dominée par les grandes plateformes. Le support MCP est important ici non seulement comme un détail technique.
C'est un signe de passage des modèles isolés aux systèmes d'agents, où LLM peut travailler avec des navigateurs, des API et des outils locaux dans une seule chaîne. Même une intégration minimale change déjà l'expérience utilisateur : l'agent commence à être perçu non comme un partenaire de conversation, mais comme un exécuteur. Et si une telle configuration peut être assemblée « en une soirée », le seuil d'entrée pour les petits produits et les projets personnels baisse considérablement.
Ce Que Cela Signifie
Le cas n0x est un petit exemple illustratif de la rapidité avec laquelle la classe des applications d'IA change. Ce sont les interfaces qui peuvent mener une tâche à terme qui remporteront la victoire, et non celles qui conversent mieux. MCP dans ce sens devient non pas un complément à la mode, mais une couche de base pour la prochaine génération d'agents de navigateur. Pour les équipes produit, c'est un signal direct : les utilisateurs attendent de plus en plus non pas une réponse, mais une tâche complétée.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.