MarkTechPost→ original

MolmoWeb-4B da Ai2: Um agente web que vê sites como humanos, sem parsing de HTML

Ai2 (Allen Institute for AI) lançou MolmoWeb-4B — um agente web de código aberto que controla um navegador da mesma forma que humanos fazem: observando uma…

Processado por IA de MarkTechPost; editado por Hamidun News
MolmoWeb-4B da Ai2: Um agente web que vê sites como humanos, sem parsing de HTML
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Ai2 (Allen Institute for AI) apresentou o MolmoWeb-4B, um agente web multimodal de código aberto que controla um navegador exclusivamente usando capturas de tela, sem analisar HTML.

Visão em vez de análise de código

A maioria dos agentes web funciona com a árvore DOM: leem o código HTML de uma página, encontram os elementos necessários e interagem com eles programaticamente. Essa abordagem quebra em sites dinâmicos, interfaces Canvas e páginas com JavaScript pesado.

MolmoWeb segue um caminho diferente. O modelo recebe uma captura de tela do estado atual do navegador e vê a página como uma imagem—exatamente como um humano a vê. A tarefa do agente: entender o que está acontecendo na tela e decidir o que fazer a seguir. Sem HTML, sem seletores DOM—apenas pixels e raciocínio multimodal.

Como funciona o pipeline

Sob o capô, MolmoWeb-4B é um modelo de linguagem multimodal com 4 bilhões de parâmetros e quantização de 4 bits. Isso permite executá-lo no Google Colab gratuito com GPU T4—o que é especialmente importante para desenvolvedores sem hardware caro.

O ciclo de trabalho do agente consiste em cinco etapas:

  • Capturar uma captura de tela do estado atual do navegador
  • Passar a imagem para o MolmoWeb-4B
  • Raciocínio do modelo sobre o estado da página (chain-of-thought)
  • Prever a próxima ação: clique, entrada de texto, rolagem
  • Executar a ação e capturar uma nova captura de tela

A ideia principal do fluxo de prompt é forçar o modelo a raciocinar explicitamente antes de agir. O agente não simplesmente 'vê um botão e clica'—ele articula exatamente o que observa na tela, explica por que deve clicar lá, e só então gera coordenadas ou um comando. Esta é uma adaptação do prompt chain-of-thought para percepção visual de interfaces.

Acesso aberto e prática

MolmoWeb é lançado sob uma licença aberta da Ai2, o que significa que qualquer desenvolvedor pode implantar seu próprio agente web sem dependência de APIs pagas do OpenAI, Google ou Anthropic. Os autores publicam um tutorial completo: desde a configuração do ambiente no Colab e carregamento do modelo via Transformers até a integração com o Playwright para controle do navegador. O ciclo do agente é construído do zero—captura de tela, passagem para o modelo, análise da resposta, execução da ação.

Vantagens práticas:

  • Executar sem chaves de API de serviços externos
  • Não requer marcação especial de site ou plugins de navegador
  • Compatível com qualquer site e sistema operacional
  • Versão quantizada (4 bits) funciona em Colab T4
  • Pipeline totalmente reproduzível em acesso aberto

Ressalva: por enquanto, esta é uma ferramenta de pesquisa. Velocidade (uma etapa leva vários segundos) e a precisão da previsão de ação ficam aquém de agentes especializados com acesso direto ao DOM.

Contexto: A corrida dos agentes de navegador

Agentes de navegador são uma das direções mais ativas no desenvolvimento de IA em 2025-2026. Anthropic Computer Use, Google Project Mariner, OpenAI Operator—os grandes players estão trabalhando ativamente para permitir que modelos de IA controlem computadores em vez de humanos. MolmoWeb do Ai2 ocupa seu próprio nicho: totalmente aberto, reproduzível e funcionando em hardware de consumidor. Não é um concorrente direto das soluções corporativas—é uma ferramenta para pesquisadores e desenvolvedores que querem construir agentes independentemente.

O que isso significa

Um agente de navegador aberto com 4B parâmetros executado no Colab é uma redução da barreira de entrada para tarefas de automação web. Equipes sem orçamentos corporativos ganham uma ferramenta funcional para experimentar com agentes orientados pela visão em vez de marcação de código.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…