Habr AI→ original

Vercel presentó agent-browser para agentes IA — acceso ligero al navegador sin MCP

Vercel presentó agent-browser — una herramienta CLI para agentes IA que elimina ruido de la automatización del navegador. En lugar de un enorme DOM o árbol…

Procesado por IA desde Habr AI; editado por Hamidun News
Vercel presentó agent-browser para agentes IA — acceso ligero al navegador sin MCP
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Vercel presentó agent-browser — una herramienta que proporciona a los agentes de IA acceso a un navegador sin capas MCP voluminosas. La idea es simple: mostrar a los modelos no todo el DOM de la página, sino solo una lista corta de elementos interactivos con los que se puede trabajar inmediatamente.

Por Qué MCP Se Está Estancando

Playwright y Puppeteer no desaparecen: son herramientas potentes para pruebas e2e, CI/CD y parsing predecible. Los problemas comienzan en el momento en que un navegador se entrega al control de LLM a través de MCP. Para que un modelo entienda dónde hacer clic, necesita ver la página.

Normalmente, se envía al contexto HTML puro o un árbol de accesibilidad. En SPAs modernas, esto rápidamente se convierte en miles de tokens extras en cada paso y consume la memoria del agente antes de que ni siquiera llegue al objetivo. Según datos citados por el autor del análisis, un clic y una captura de pantalla de una página compleja pueden costar entre 15 a 200 mil tokens por paso.

Esto no es solo costoso, sino también inestable: el modelo gasta contexto leyendo el árbol de la página, comienza a confundirse en selectores CSS y más a menudo falla con los botones necesarios. Para escenarios deterministas, este enfoque aún es tolerable, pero para un agente autónomo que necesita orientarse rápidamente en la web, es demasiado pesado.

Qué Hizo Vercel

La tarea de Vercel era práctica: si un agente escribe la interfaz en sí, debe poder abrir una página, verificar un componente y realizar acciones básicas del navegador. Para esto, el equipo simplificó agent-browser y eliminó la conexión anterior con el demonio Node. La versión actual se construyó como una CLI ligera en Rust que funciona directamente con Chrome DevTools Protocol. Como resultado, la herramienta es más simple de ejecutar localmente, más conveniente para colocar en contenedores y no requiere infraestructura Node adicional.

  • Binario único en Rust
  • Comunicación directa con CDP sin capas adicionales
  • Cero dependencias para Docker y entornos locales
  • Referencias cortas en lugar de DOM completo

La idea clave es una instantánea de elementos interactivos. En lugar de un árbol gigante, el agente recibe una lista compacta como button "Sign In" [ref=e1] o textbox "Email" [ref=e2], y luego trabaja con comandos cortos: abrir página, hacer clic @e1, rellenar @e2. Este formato ocupa no decenas de miles sino cientos de tokens. Para LLM, esto reduce notablemente la carga y simultáneamente disminuye la posibilidad de que una acción se rompa debido a un selector frágil.

Nueva Interfaz para Agentes

La diferencia es claramente visible en un escenario simple: abrir un sitio web y hacer clic en el primer artículo. En el esquema MCP clásico, el agente primero recibe un enorme árbol de accesibilidad, luego busca en él el encabezado necesario e intenta ensamblar un selector CSS preciso. Cualquier cambio en el diseño, una modal de cookies o un contenedor adicional hacen que tal clic sea frágil. En agent-browser la ruta es más corta: abrir, luego instantánea, luego hacer clic por referencia corta. El modelo no se basa en conjeturas sobre la estructura del DOM, sino en un mapa pre-preparado de elementos interactivos.

"No uses MCP para el navegador — ahorra tus ventanas de contexto y

dinero en API."

Es significativo que Microsoft ya esté impulsando una idea similar con @playwright/cli. Allí, el agente también funciona a través de comandos cortos, y el estado del navegador se almacena fuera del contexto del modelo. Este es un cambio importante para toda la categoría de herramientas agentic: el mercado se está alejando de la idea de transmitir las entrañas del navegador directamente al LLM y transicionando a un esquema donde una herramienta local mantiene el estado en sí, y el modelo recibe solo la capa de control minimalmente necesaria. La diferencia entre soluciones es ahora más en el ecosistema: Playwright sigue siendo más pesado, el enfoque Rust de Vercel es más minimalista.

Qué Significa Esto

La automatización del navegador para agentes de IA está comenzando a dividirse en dos clases. Playwright y Puppeteer clásicos siguen siendo la base para pruebas complejas y scraping, pero para codificación de agentes y validación rápida de interfaces, la demanda de envoltorios CLI ligeros es cada vez más visible. La conclusión principal es simple: para LLM es más rentable proporcionar no el navegador completo, sino una capa compacta de comando y referencia de elementos. Es más barato, más estable y más práctico en el trabajo real.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…