Gemma 4, do Google: como executar tool calling localmente com Python e Ollama

Q: Qual é a fonte?

Publicado originalmente em Machine Learning Mastery. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 3 min.

O Machine Learning Mastery detalhou um cenário prático para o Gemma 4: um agente local em Python e Ollama consegue chamar funções externas e depois montar…

Redação da Hamidun News

Monitoramento de AI · Machine Learning Mastery

2 de mai. de 2026· 2 min

Processado por IA de Machine Learning Mastery; editado por Hamidun News

Gemma 4, do Google: como executar tool calling localmente com Python e Ollama — Fonte: Machine Learning Mastery. Colagem: Hamidun News.

◐ Ouvir artigo

Machine Learning Mastery lançou uma análise detalhada de como construir um agente de IA local baseado em Gemma 4 com suporte a tool calling. O material é importante não tanto pelo código em si, mas como sinal de mercado: os modelos open-weight do Google estão entrando com cada vez mais confiança em cenários onde as APIs em nuvem antes dominavam quase com exclusividade.

Sobre o Artigo

Em um artigo de 14 de abril, o autor demonstra um stack prático para um agente local: Python, Ollama e o modelo `gemma4:e2b`. A ideia é simples: em vez de um chatbot comum, que responde apenas com seus próprios pesos, o desenvolvedor fornece ao modelo um conjunto de funções e descrições de seus parâmetros. Se uma consulta requer dados externos, o modelo não inventa uma resposta, mas sim formata uma chamada estruturada para a ferramenta necessária, recebe o resultado e apenas então monta o texto final.

Diante do lançamento do Gemma 4, isso fica especialmente notável. Google lançou uma família de modelos abertos sob licença Apache 2.0 e enfatizou cenários com agentes: JSON estruturado, function calling, system instructions e operação em diferentes hardwares—de dispositivos móveis a estações de trabalho. A empresa promove oficialmente Gemma 4 como base para tarefas locais e on-device, e entre as ferramentas suportadas desde o primeiro dia inclui Ollama. Para desenvolvedores, isso significa um caminho mais claro para assistentes privados sem dependência obrigatória de um provedor externo.

Como o Agente é Estruturado

A arquitetura do exemplo é construída sem frameworks pesados. O autor intencionalmente usa bibliotecas padrão do Python como `urllib` e `json` para demonstrar que um agente básico com tool calling pode ser configurado sem LangChain, sem orquestradores e sem uma camada espessa de abstrações. A parte-chave é um registro de ferramentas em formato JSON Schema. É isso que explica ao modelo quais funções estão disponíveis, quais argumentos elas aceitam e quais campos são obrigatórios.

O desenvolvedor escreve funções Python locais que atuam como ferramentas
Para cada função, um esquema de parâmetro rigoroso é definido
A consulta do usuário junto com a lista de ferramentas é enviada para Ollama
O modelo retorna `tool_calls` se precisar de dados externos
A aplicação executa a função e envia o resultado de volta para o modelo

Depois disso, uma segunda passagem acontece. A aplicação host adiciona a resposta da ferramenta ao histórico de mensagens com o papel `tool`, depois chama o modelo novamente. É aqui que Gemma 4 não adivinha, mas sim conta com dados reais. No exemplo, isso permite conectar elegantemente um modelo de raciocínio e código Python comum em um único ciclo funcional sem uma camada em nuvem. Essencialmente, o autor mostra uma versão mínima de um runtime de agentes que pode ser analisada e adaptada para suas próprias tarefas em uma noite.

Quais Ferramentas Foram Demonstradas

Como demonstração, o autor primeiro constrói uma função de previsão do tempo baseada em Open-Meteo, depois adiciona mais três ferramentas: notícias, hora atual e conversão de moedas. Isso cria um agente pequeno, mas ilustrativo, que pode responder não apenas um fato, mas também uma consulta composta. Por exemplo: descobrir o clima em Paris, a hora atual, converter dólares canadenses para euros e simultaneamente buscar notícias frescas sobre o tema.

Ênfase particular é dada ao modelo `gemma4:e2b`. Esta é uma variante edge do Gemma 4 com uma footprint de dois bilhões de parâmetros eficiente durante inferência, projetada para eficiência de memória e baixa latência. O artigo destaca que essa configuração pode ser executada localmente, sem GPU e sem limites de API. Para pequenas equipes e desenvolvedores autônomos, este é um ponto importante: cenários com agentes deixam de ser um experimento caro e se tornam uma tarefa de engenharia comum. O autor escreve que ao longo de um fim de semana executou centenas de requisições no sistema e não viu falhas na lógica básica de chamada de ferramentas.

O Que Isso Significa

O principal aprendizado aqui não é outro tutorial de Python, mas sim uma mudança no limiar de entrada. Se Gemma 4 realmente mantém de forma estável saída estruturada e function calling até em configurações edge leves, o mercado de agentes locais se expandirá rapidamente: haverá mais cenários offline, implantações corporativas privadas e menos razões para imediatamente se dirigir para stacks em nuvem caros.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis