Habr AI→ original

Vercel apresentou agent-browser para agentes IA — acesso leve ao navegador sem MCP

Vercel apresentou agent-browser — uma ferramenta CLI para agentes IA que remove ruído da automação de navegador. Em vez de um gigantesco DOM ou árvore de…

Processado por IA de Habr AI; editado por Hamidun News
Vercel apresentou agent-browser para agentes IA — acesso leve ao navegador sem MCP
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Vercel lançou o agent-browser — uma ferramenta que oferece aos agentes de IA acesso a um navegador sem camadas MCP pesadas. A ideia é simples: mostrar aos modelos não o DOM inteiro da página, mas apenas uma lista curta de elementos interativos com os quais se pode trabalhar imediatamente.

Por Que MCP Está Patinando

Playwright e Puppeteer não desaparecem em lugar nenhum: são ferramentas poderosas para testes e2e, CI/CD e parsing previsível. Os problemas começam no momento em que um navegador é entregue ao controle de LLM via MCP. Para que um modelo entenda onde clicar, precisa ver a página.

Normalmente, você envia para o contexto ou HTML puro ou uma árvore de acessibilidade. Em SPAs modernas, isso rapidamente se transforma em milhares de tokens extras em cada etapa e consome a memória do agente antes mesmo que ele chegue ao objetivo. De acordo com dados citados pelo autor da análise, um clique e uma captura de tela de uma página complexa podem custar entre 15 a 200 mil tokens por etapa.

Isso não é apenas caro, mas também instável: o modelo gasta contexto lendo a árvore da página, começa a se confundir em seletores CSS e mais frequentemente erra os botões necessários. Para cenários determinísticos, essa abordagem ainda é tolerável, mas para um agente autônomo que precisa se orientar rapidamente na web, é muito pesada.

O Que Vercel Fez

A tarefa da Vercel era prática: se um agente escreve a própria interface, deve ser capaz de abrir uma página, verificar um componente e realizar ações básicas do navegador. Para isso, o time simplificou o agent-browser e removeu a conexão anterior com daemon Node. A versão atual é uma CLI leve em Rust que trabalha diretamente com Chrome DevTools Protocol. Como resultado, a ferramenta é mais simples de executar localmente, mais conveniente para colocar em contêineres e não requer infraestrutura Node adicional.

  • Binário único em Rust
  • Comunicação direta com CDP sem camadas extras
  • Zero dependências para Docker e ambientes locais
  • Referências curtas em vez de DOM completo

A ideia-chave é um snapshot dos elementos interativos. Em vez de uma árvore gigante, o agente recebe uma lista compacta como button "Sign In" [ref=e1] ou textbox "Email" [ref=e2], e depois trabalha com comandos curtos: abrir página, clicar @e1, preencher @e2. Esse formato leva não dezenas de milhares, mas centenas de tokens. Para LLM, isso reduz notavelmente a carga e simultaneamente diminui a chance de uma ação quebrar devido a um seletor frágil.

Nova Interface para Agentes

A diferença é bem visível em um cenário simples: abrir um site e clicar no primeiro artigo. No esquema MCP clássico, o agente primeiro recebe uma enorme árvore de acessibilidade, depois procura nela o título necessário e tenta montar um seletor CSS preciso. Qualquer mudança no layout, um modal de cookies ou um contêiner extra torna esse clique frágil. No agent-browser a rota é mais curta: abrir, depois snapshot, depois clicar por ref curta. O modelo não se baseia em suposições sobre a estrutura do DOM, mas em um mapa pré-preparado de elementos interativos.

"Não use MCP para o navegador — preserve suas janelas de contexto e

dinheiro em API."

É revelador que Microsoft já está impulsionando uma ideia semelhante com @playwright/cli. Lá, o agente também trabalha através de comandos curtos, e o estado do navegador é armazenado fora do contexto do modelo. Isso é uma mudança importante para toda a categoria de ferramentas agentic: o mercado está se afastando da ideia de fazer streaming dos internals do navegador diretamente para o LLM e fazendo a transição para um esquema onde uma ferramenta local mantém o estado em si, e o modelo recebe apenas a camada de controle minimamente necessária. A diferença entre soluções agora é mais no ecossistema: Playwright permanece mais pesado, a abordagem Rust de Vercel é mais minimalista.

O Que Isso Significa

A automação de navegador para agentes de IA está começando a se dividir em duas classes. Playwright e Puppeteer clássicos permanecem a base para testes complexos e scraping, mas para codificação de agentes e validação rápida de interfaces, a demanda por invólucros CLI leves é cada vez mais visível. A conclusão principal é simples: para LLM é mais lucrativo oferecer não o navegador inteiro, mas uma camada compacta de comando e referência de elementos. É mais barato, mais estável e mais prático no trabalho real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…