Gemma 4, do Google: como executar tool calling localmente com Python e Ollama
O Machine Learning Mastery detalhou um cenário prático para o Gemma 4: um agente local em Python e Ollama consegue chamar funções externas e depois montar…
Processado por IA de Machine Learning Mastery; editado por Hamidun News
Machine Learning Mastery lançou uma análise detalhada de como construir um agente de IA local baseado em Gemma 4 com suporte a tool calling. O material é importante não tanto pelo código em si, mas como sinal de mercado: os modelos open-weight do Google estão entrando com cada vez mais confiança em cenários onde as APIs em nuvem antes dominavam quase com exclusividade.
Sobre o Artigo
Em um artigo de 14 de abril, o autor demonstra um stack prático para um agente local: Python, Ollama e o modelo `gemma4:e2b`. A ideia é simples: em vez de um chatbot comum, que responde apenas com seus próprios pesos, o desenvolvedor fornece ao modelo um conjunto de funções e descrições de seus parâmetros. Se uma consulta requer dados externos, o modelo não inventa uma resposta, mas sim formata uma chamada estruturada para a ferramenta necessária, recebe o resultado e apenas então monta o texto final.
Diante do lançamento do Gemma 4, isso fica especialmente notável. Google lançou uma família de modelos abertos sob licença Apache 2.0 e enfatizou cenários com agentes: JSON estruturado, function calling, system instructions e operação em diferentes hardwares—de dispositivos móveis a estações de trabalho. A empresa promove oficialmente Gemma 4 como base para tarefas locais e on-device, e entre as ferramentas suportadas desde o primeiro dia inclui Ollama. Para desenvolvedores, isso significa um caminho mais claro para assistentes privados sem dependência obrigatória de um provedor externo.
Como o Agente é Estruturado
A arquitetura do exemplo é construída sem frameworks pesados. O autor intencionalmente usa bibliotecas padrão do Python como `urllib` e `json` para demonstrar que um agente básico com tool calling pode ser configurado sem LangChain, sem orquestradores e sem uma camada espessa de abstrações. A parte-chave é um registro de ferramentas em formato JSON Schema. É isso que explica ao modelo quais funções estão disponíveis, quais argumentos elas aceitam e quais campos são obrigatórios.
- O desenvolvedor escreve funções Python locais que atuam como ferramentas
- Para cada função, um esquema de parâmetro rigoroso é definido
- A consulta do usuário junto com a lista de ferramentas é enviada para Ollama
- O modelo retorna `tool_calls` se precisar de dados externos
- A aplicação executa a função e envia o resultado de volta para o modelo
Depois disso, uma segunda passagem acontece. A aplicação host adiciona a resposta da ferramenta ao histórico de mensagens com o papel `tool`, depois chama o modelo novamente. É aqui que Gemma 4 não adivinha, mas sim conta com dados reais. No exemplo, isso permite conectar elegantemente um modelo de raciocínio e código Python comum em um único ciclo funcional sem uma camada em nuvem. Essencialmente, o autor mostra uma versão mínima de um runtime de agentes que pode ser analisada e adaptada para suas próprias tarefas em uma noite.
Quais Ferramentas Foram Demonstradas
Como demonstração, o autor primeiro constrói uma função de previsão do tempo baseada em Open-Meteo, depois adiciona mais três ferramentas: notícias, hora atual e conversão de moedas. Isso cria um agente pequeno, mas ilustrativo, que pode responder não apenas um fato, mas também uma consulta composta. Por exemplo: descobrir o clima em Paris, a hora atual, converter dólares canadenses para euros e simultaneamente buscar notícias frescas sobre o tema.
Ênfase particular é dada ao modelo `gemma4:e2b`. Esta é uma variante edge do Gemma 4 com uma footprint de dois bilhões de parâmetros eficiente durante inferência, projetada para eficiência de memória e baixa latência. O artigo destaca que essa configuração pode ser executada localmente, sem GPU e sem limites de API. Para pequenas equipes e desenvolvedores autônomos, este é um ponto importante: cenários com agentes deixam de ser um experimento caro e se tornam uma tarefa de engenharia comum. O autor escreve que ao longo de um fim de semana executou centenas de requisições no sistema e não viu falhas na lógica básica de chamada de ferramentas.
O Que Isso Significa
O principal aprendizado aqui não é outro tutorial de Python, mas sim uma mudança no limiar de entrada. Se Gemma 4 realmente mantém de forma estável saída estruturada e function calling até em configurações edge leves, o mercado de agentes locais se expandirá rapidamente: haverá mais cenários offline, implantações corporativas privadas e menos razões para imediatamente se dirigir para stacks em nuvem caros.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.