Vercel apresentou agent-browser para agentes IA — acesso leve ao navegador sem MCP
Vercel apresentou agent-browser — uma ferramenta CLI para agentes IA que remove ruído da automação de navegador. Em vez de um gigantesco DOM ou árvore de…
Processado por IA de Habr AI; editado por Hamidun News
Vercel lançou o agent-browser — uma ferramenta que oferece aos agentes de IA acesso a um navegador sem camadas MCP pesadas. A ideia é simples: mostrar aos modelos não o DOM inteiro da página, mas apenas uma lista curta de elementos interativos com os quais se pode trabalhar imediatamente.
Por Que MCP Está Patinando
Playwright e Puppeteer não desaparecem em lugar nenhum: são ferramentas poderosas para testes e2e, CI/CD e parsing previsível. Os problemas começam no momento em que um navegador é entregue ao controle de LLM via MCP. Para que um modelo entenda onde clicar, precisa ver a página.
Normalmente, você envia para o contexto ou HTML puro ou uma árvore de acessibilidade. Em SPAs modernas, isso rapidamente se transforma em milhares de tokens extras em cada etapa e consome a memória do agente antes mesmo que ele chegue ao objetivo. De acordo com dados citados pelo autor da análise, um clique e uma captura de tela de uma página complexa podem custar entre 15 a 200 mil tokens por etapa.
Isso não é apenas caro, mas também instável: o modelo gasta contexto lendo a árvore da página, começa a se confundir em seletores CSS e mais frequentemente erra os botões necessários. Para cenários determinísticos, essa abordagem ainda é tolerável, mas para um agente autônomo que precisa se orientar rapidamente na web, é muito pesada.
O Que Vercel Fez
A tarefa da Vercel era prática: se um agente escreve a própria interface, deve ser capaz de abrir uma página, verificar um componente e realizar ações básicas do navegador. Para isso, o time simplificou o agent-browser e removeu a conexão anterior com daemon Node. A versão atual é uma CLI leve em Rust que trabalha diretamente com Chrome DevTools Protocol. Como resultado, a ferramenta é mais simples de executar localmente, mais conveniente para colocar em contêineres e não requer infraestrutura Node adicional.
- Binário único em Rust
- Comunicação direta com CDP sem camadas extras
- Zero dependências para Docker e ambientes locais
- Referências curtas em vez de DOM completo
A ideia-chave é um snapshot dos elementos interativos. Em vez de uma árvore gigante, o agente recebe uma lista compacta como button "Sign In" [ref=e1] ou textbox "Email" [ref=e2], e depois trabalha com comandos curtos: abrir página, clicar @e1, preencher @e2. Esse formato leva não dezenas de milhares, mas centenas de tokens. Para LLM, isso reduz notavelmente a carga e simultaneamente diminui a chance de uma ação quebrar devido a um seletor frágil.
Nova Interface para Agentes
A diferença é bem visível em um cenário simples: abrir um site e clicar no primeiro artigo. No esquema MCP clássico, o agente primeiro recebe uma enorme árvore de acessibilidade, depois procura nela o título necessário e tenta montar um seletor CSS preciso. Qualquer mudança no layout, um modal de cookies ou um contêiner extra torna esse clique frágil. No agent-browser a rota é mais curta: abrir, depois snapshot, depois clicar por ref curta. O modelo não se baseia em suposições sobre a estrutura do DOM, mas em um mapa pré-preparado de elementos interativos.
"Não use MCP para o navegador — preserve suas janelas de contexto e
dinheiro em API."
É revelador que Microsoft já está impulsionando uma ideia semelhante com @playwright/cli. Lá, o agente também trabalha através de comandos curtos, e o estado do navegador é armazenado fora do contexto do modelo. Isso é uma mudança importante para toda a categoria de ferramentas agentic: o mercado está se afastando da ideia de fazer streaming dos internals do navegador diretamente para o LLM e fazendo a transição para um esquema onde uma ferramenta local mantém o estado em si, e o modelo recebe apenas a camada de controle minimamente necessária. A diferença entre soluções agora é mais no ecossistema: Playwright permanece mais pesado, a abordagem Rust de Vercel é mais minimalista.
O Que Isso Significa
A automação de navegador para agentes de IA está começando a se dividir em duas classes. Playwright e Puppeteer clássicos permanecem a base para testes complexos e scraping, mas para codificação de agentes e validação rápida de interfaces, a demanda por invólucros CLI leves é cada vez mais visível. A conclusão principal é simples: para LLM é mais lucrativo oferecer não o navegador inteiro, mas uma camada compacta de comando e referência de elementos. É mais barato, mais estável e mais prático no trabalho real.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.