3DNews AI→ original

Les agents d'AI avec vision se sont révélés plusieurs fois plus coûteux qu'une API standard

Les agents de navigateur avec vision se sont révélés plusieurs fois plus coûteux que des API standard. Chaque capture d'écran vue par l'agent doit être traitée

Les agents d'AI avec vision se sont révélés plusieurs fois plus coûteux qu'une API standard
Source : 3DNews AI. Collage: Hamidun News.
◐ Écouter l'article

Les agents d'intelligence artificielle basés sur un navigateur, qui voient l'écran et imitent le comportement humain, coûtent aux entreprises des ordres de grandeur plus chers que les modèles d'IA basés sur du texte ordinaire. L'entreprise Reflex a mené une analyse des coûts et a découvert que le prix des agentes de vision dépasse de loin les coûts des requêtes API standard.

Pourquoi la Vision Coûte Plus Cher que le Texte

Quand un agent traite uniquement du texte, la tâche est relativement simple et bon marché. L'API prend sa part, le modèle traite la demande — et c'est tout. Mais quand ce même agent voit une capture d'écran de l'écran, du navigateur, d'un formulaire web, un modèle de vision s'active, qui nécessite considérablement plus de ressources de calcul et coûte plus cher.

Le prix d'une seule capture d'écran peut être supérieur au coût du traitement d'une session textuelle entière de dizaines de phrases. Un seul clic de l'agent du navigateur peut coûter à l'entreprise plus qu'un dialogue complet avec un chatbot textuel. Ce n'est pas une hypothèse — c'est une observation de développeurs qui ont mis à l'échelle les agentes navigateur pour un usage industriel.

Le problème est aggravé par le fait que l'agent ne peut pas « réutiliser » une seule capture d'écran. Chaque fois que quelque chose change sur l'écran (ce qui se produit après chaque action de l'agent), une nouvelle image est nécessaire, un nouvel appel vision-API, de nouveaux coûts. Cela crée une situation où les prix croissent exponentiellement avec l'augmentation du nombre d'actions.

Comment Calculer Cela en Pratique

Quand un agent remplit un formulaire sur un site web, le flux de travail se présente comme suit :

  • Faire une capture d'écran de l'écran (modèle de vision s'active)
  • Comprendre ce que l'agent voit : boutons, champs, erreurs, conseils
  • Décider quelle action effectuer (c'est moins cher, logique)
  • Effectuer un clic, remplir un champ, appuyer sur un bouton
  • Faire une autre capture d'écran — et un autre appel vision-API

Chaque cycle avec vision — un paiement séparé. En commandant de la nourriture via DoorDash, un agent peut faire 5–10 captures d'écran : recherche de restaurant, sélection de restaurant, visualisation du menu, ajout de plats au panier, traitement du paiement. C'est 5–10 appels à un modèle de vision coûteux pour une seule tâche.

En passant à l'échelle de milliers de telles opérations par jour, les coûts deviennent insoutenables. Une entreprise découvre rapidement qu'elle a dépensé en une journée de travail des agentes plus qu'en un mois de maintenance des modèles textuels. Les chiffres parlent d'eux-mêmes : si une requête de vision coûte 10 fois plus cher qu'une requête textuelle, et l'agent fait 10 captures d'écran par tâche, alors les coûts augmentent de 100 fois.

Le Problème de Scalabilité

Les entreprises qui ont expérimenté avec des agentes de navigateur découvrent souvent des coûts cachés. Ce qui semblait plus économique qu'embaucher une personne (un agent-bot pour un mois est moins cher qu'un freelancer), en pratique coûte plus cher si vous devez traiter des dizaines de milliers d'écrans par jour.

"L'économie des agentes de vision est complètement différente de celle basée sur le texte.

Les entreprises calculent mal le ROI," — disent les développeurs.

Cela ne signifie pas que les agentes de navigateur ne sont pas rentables. Cela signifie qu'ils ne peuvent pas être lancés sans calcul minutieux. Un calcul honnête est nécessaire : combien coûte un cycle d'agent, combien de cycles par tâche, combien de tâches par jour, quel résultat. Sans cela, vous pouvez dépenser tout le budget plus vite que prévu.

Ce Que Cela Signifie

Le développement des agentes de navigateur nécessite de nouvelles approches de la tarification. Les entreprises doivent comprendre le coût des modèles de vision avant de déployer en production, pas après la facture. Sinon, les économies réalisées sur l'automatisation se transformeront en dépenses inattendues. Cela ralentira temporairement l'adoption de tels agentes, mais forcera les décisions à être prises consciemment.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…