3DNews AI→ original

Los agentes de AI con visión resultaron varias veces más caros que una API común

Los agentes de navegador con visión resultaron varias veces más caros que las API comunes. Cada captura de pantalla que ve el agente requiere procesamiento medi

Los agentes de AI con visión resultaron varias veces más caros que una API común
Fuente: 3DNews AI. Collage: Hamidun News.
◐ Escuchar artículo

Los agentes de inteligencia artificial basados en navegador, que ven la pantalla e imitan el comportamiento humano, cuestan a las empresas órdenes de magnitud más que los modelos de IA basados en texto convencional. La empresa Reflex realizó un análisis de costos y descubrió que el precio de los agentes con visión supera con creces los costos de las solicitudes de API estándar.

Por Qué la Visión es Más Cara que el Texto

Cuando un agente procesa solo texto, la tarea es relativamente simple y barata. La API se lleva su parte, el modelo procesa la solicitud — y listo. Pero cuando ese mismo agente ve una captura de pantalla de la pantalla, navegador, formulario web, se activa un modelo de visión que requiere significativamente más recursos computacionales y cuesta más.

El precio de una sola captura de pantalla puede ser superior al costo de procesar una sesión de texto completa de docenas de oraciones. Un solo clic del agente del navegador puede costarle a la empresa más que un diálogo completo con un chatbot de texto. Esto no es una hipótesis — es una observación de desarrolladores que han escalado agentes de navegador para uso industrial.

El problema se agrava por el hecho de que el agente no puede "reutilizar" una sola captura de pantalla. Cada vez que algo cambia en la pantalla (lo que sucede después de cada acción del agente), se necesita una nueva imagen, una nueva llamada a vision-API, nuevos costos. Esto crea una situación donde los precios crecen exponencialmente con el aumento del número de acciones.

Cómo Calcular Esto en la Práctica

Cuando un agente completa un formulario en un sitio web, el flujo de trabajo se ve así:

  • Tomar una captura de pantalla de la pantalla (modelo de visión se activa)
  • Entender lo que ve el agente: botones, campos, errores, sugerencias
  • Decidir qué acción realizar (esto es más barato, lógica)
  • Ejecutar un clic, rellenar un campo, presionar un botón
  • Tomar otra captura de pantalla — y otra llamada a vision-API

Cada ciclo con visión — un cargo separado. Al pedir comida a través de DoorDash, un agente podría tomar 5–10 capturas de pantalla: búsqueda de restaurante, selección de restaurante, visualización del menú, adición de platos al carrito, procesamiento del pago. Son 5–10 llamadas a un modelo de visión costoso para una sola tarea.

Al escalar a miles de tales operaciones por día, los costos se vuelven insostenibles. Una empresa rápidamente descubre que ha gastado en un día de trabajo del agente más que en un mes de mantenimiento de modelos de texto. Los números hablan por sí solos: si una solicitud de visión cuesta 10 veces más que una de texto, y el agente toma 10 capturas de pantalla por tarea, entonces los costos aumentan 100 veces.

El Problema de Escalabilidad

Las empresas que experimentaron con agentes de navegador a menudo descubren costos ocultos. Lo que parecía más económico que contratar a una persona (un agente-bot durante un mes es más barato que un freelancer), en la práctica cuesta más si necesitas procesar decenas de miles de pantallas al día.

"La economía de los agentes de visión es completamente diferente a la de los basados en texto.

Las empresas calculan mal el ROI," — dicen los desarrolladores.

Esto no significa que los agentes de navegador sean no rentables. Significa que no pueden lanzarse sin un cálculo cuidadoso. Se necesita un cálculo honesto: cuánto cuesta un ciclo de agente, cuántos ciclos por tarea, cuántas tarefas al día, qué resultado. Sin esto, puedes gastar todo el presupuesto más rápido de lo esperado.

Qué Significa Esto

El desarrollo de agentes de navegador requiere nuevos enfoques para la fijación de precios. Las empresas necesitan entender el costo de los modelos de visión antes de implementar en producción, no después de recibir la factura. De lo contrario, los ahorros en automatización se convertirán en gastos inesperados. Esto ralentizará temporalmente la adopción de tales agentes, pero obligará a tomar decisiones conscientemente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…