MarkTechPost→ original

Google Gemma 4, NVIDIA e OpenClaw: Agentes AI locais sem cobrança por token

Google e NVIDIA estão promovendo Gemma 4 como base para agentes AI locais. Os modelos podem ser executados em Jetson Orin Nano, PCs RTX e DGX Spark, e a…

Processado por IA de MarkTechPost; editado por Hamidun News
Google Gemma 4, NVIDIA e OpenClaw: Agentes AI locais sem cobrança por token
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A ideia deste artigo é simples: se um agente de IA precisa trabalhar constantemente, ver a tela, ler arquivos locais, processar documentos e executar ações em segundo plano, então um modelo cobrado por token via API em nuvem rapidamente se torna um serviço caro. Google, NVIDIA e o ecossistema OpenClaw oferecem um caminho diferente — manter o modelo próximo aos dados, executá-lo em hardware local e, assim, eliminar não apenas a latência, mas também a própria lógica de "pagamento por cada etapa" no funcionamento do agente. O "imposto de tokens" aqui se refere não a custos únicos de chatbot, mas ao efeito cumulativo de assistentes sempre ativos.

Tais sistemas leem constantemente o contexto: correspondência, janelas de aplicativos, código, documentos, calendário, pastas e notificações. Se toda observação, raciocínio intermediário e cada ação é enviada através de um modelo em nuvem, o custo rapidamente se torna imprevisível. Para um assistente pessoal, isso afeta o orçamento; para um cenário corporativo, adiciona preocupações de privacidade: dados sensíveis devem ser enviados regularmente para fora.

Por isso, a execução local aqui é importante não como ideologia, mas como uma necessidade econômica e operacional. Neste esquema, o Google Gemma 4, apresentado em 2 de abril de 2026, desempenha um papel fundamental. Google lançou quatro variantes: E2B, E4B, 26B e 31B.

Os modelos menores são projetados para dispositivos de borda e cenários móveis, os maiores para raciocínio, código e fluxos de trabalho de agentes em estações de trabalho, e o 26B usa uma arquitetura Mixture of Experts e ativa apenas 3,8 bilhões de parâmetros durante a inferência. Gemma 4 tem suporte nativo para chamadas de função, saída JSON estruturada e instruções de sistema — tudo o que é necessário para um agente confiável que usa ferramentas. Todos os modelos funcionam com imagens e vídeo, enquanto E2B e E4B também suportam entrada de áudio nativa.

As janelas de contexto alcançam 128K tokens para modelos de borda e 256K para os maiores. De acordo com o Google em 2 de abril de 2026, a versão 31B ficou em terceiro lugar entre modelos abertos no Arena AI, e 26B ficou em sexto lugar, com a empresa destacando que a linha supera modelos significativamente maiores em tamanho. Também é importante que Gemma 4 seja distribuído sob a licença Apache 2.

0, e a família Gemma havia acumulado mais de 400 milhões de downloads e mais de 100 mil variantes no ecossistema no momento do lançamento. A segunda parte da história envolve hardware e a pilha de tempo de execução. NVIDIA promove Gemma 4 como uma linha de modelos que se dimensiona de Jetson Orin Nano a GeForce RTX, RTX Pro e DGX Spark quase sem mudança de abordagem.

Para cenários de borda, Jetson Orin Nano suporta E2B e E4B, possibilitando sistemas visuais e de voz autônomos com baixa latência diretamente no dispositivo. Para estações de trabalho locais e assistentes pessoais, o foco muda para 26B e 31B, que podem ser executados através de Ollama, llama.cpp, vLLM e Unsloth.

DGX Spark é especialmente importante aqui: NVIDIA especificamente destaca a configuração com Superchip GB10 Grace Blackwell e 128 GB de memória unificada como um ponto de entrada conveniente para prototipagem local, ajuste fino e execução de grandes modelos sem a nuvem. Neste modo, OpenClaw se transforma de um "wrapper sobre uma API remota" em um agente verdadeiramente local que extrai contexto de arquivos, aplicativos e fluxos de trabalho diretamente na máquina do usuário. Na verdade, OpenClaw torna essa história compreensível em um nível prático.

É um agente com prioridade local que pode viver permanentemente em um computador, se conectar a mensageiros, lembrar o estado da tarefa e invocar ferramentas. Para ele, um modelo local não é um bônus agradável, mas uma condição básica para uma economia normal. Se um agente precisa passar o dia todo lendo uma base de código, rastreando projetos, respondendo em chats ou processando documentos financeiros, a tokenização em nuvem se torna a restrição primária.

Ao mesmo tempo, a localidade em si não resolve a questão de segurança: um agente com acesso a arquivos, redes e contas permanece uma entidade arriscada. É por isso que NVIDIA está simultaneamente promovendo NemoClaw — uma pilha aberta com OpenShell e proteções baseadas em política que devem limitar o comportamento de agentes sempre ativos, isolar a execução e manter dados sensíveis dentro do perímetro local. Na prática, isso significa uma mudança no próprio modelo de consumo de IA.

Não se trata apenas de quão inteligente um modelo é em benchmarks, mas se você pode mantê-lo em execução o dia todo sem se preocupar com custo, latência e vazamento de dados. A combinação de Gemma 4, NVIDIA RTX ou DGX Spark e OpenClaw demonstra que o mercado está se movendo em direção a agentes pessoais e corporativos que trabalham mais perto dos dados e mais perto do usuário. A nuvem não desaparecerá, mas para assistentes sempre ativos, código local, fluxos de trabalho de documentos, robótica e arquivos sensíveis, a inferência local deixa de ser uma opção de nicho e se torna a arquitetura básica.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…