Agentes

Browser Agent

Un Browser Agent es un sistema de IA que controla autónomamente un navegador web—navegando páginas, haciendo clic en enlaces, rellenando formularios y extrayendo información—para completar tareas basadas en web en nombre de un usuario sin dirección humana paso a paso.

Un Browser Agent es un sistema de software que empareja un modelo de lenguaje con una capa de control de navegador, permitiéndole interactuar con cualquier sitio web como lo haría un usuario. El agente percibe el contenido web a través de capturas de pantalla renderizadas (enfoque visual), el DOM y el árbol de accesibilidad (enfoque estructurado), o una combinación de ambos. Planifica secuencias multietapa de acciones—navegación de URL, clics de elementos, entrada de formularios, descargas de archivos—y las ejecuta a través de APIs de automatización de navegador como Playwright, Puppeteer o Chrome DevTools Protocol, o a través de una interfaz de Computer Use a nivel de SO.

La arquitectura típicamente implica un bucle de planificación: el modelo recibe el estado de página actual, una descripción de tarea y un historial de acciones pasadas, luego selecciona la siguiente acción de un espacio de acción definido que cubre clics, entrada escrita, desplazamiento, navegación y extracción de texto. Algunas implementaciones agregan un módulo de memoria para rastrear información recopilada a través de muchas páginas, y un paso de verificación para confirmar que una acción produjo el resultado esperado antes de proceder. El grounding—mapear con precisión una instrucción de alto nivel como 'hacer clic en el botón enviar' a las coordenadas de píxel correctas o al elemento DOM—es el desafío técnico primario, particularmente en páginas con diseños dinámicos o renderizado JavaScript pesado.

Los Browser Agents importan porque una fracción grande del trabajo de conocimiento implica navegar por la web: investigar competidores, enviar formularios de adquisiciones, monitorear precios y programar a través de calendarios basados en web. Automatizar estos flujos previamente requería bots RPA dedicados con selectores CSS frágiles que se rompían cada vez que un sitio se rediseñaba; un agente de navegador impulsado por modelo de lenguaje puede generalizar entre sitios y manejar estados de página inesperados a través del razonamiento en lugar de coincidencia de patrones.

Comercialmente, OpenAI lanzó Operator en enero de 2025, y Computer Use de Anthropic puede aplicarse a tareas de navegador. Marcos de código abierto como Browser-Use y Stagehand (lanzados por Browserbase en 2024) permiten a los desarrolladores construir agentes de navegador personalizados. WebArena y WebVoyager sirven como puntos de referencia estándar; los modelos principales a principios de 2026 alcanzan un 50–70% de éxito en suites de tareas de un solo sitio, aunque el rendimiento cae sustancialmente en flujos multisitio que requieren razonamiento entre dominios e horizontes de tarea largos.

Ejemplo

Un gerente de adquisiciones implementa un Browser Agent con la instrucción 'obtener cotizaciones para 500 unidades de la parte #A-4421 de tres sitios web de proveedores aprobados y registrar los precios en nuestra hoja de cálculo de seguimiento'; el agente visita cada proveedor, busca en el catálogo e ingresa los resultados sin intervención humana.

Términos relacionados

← Glosario