Gemma 4 de Google: cómo ejecutar tool calling de forma local con Python y Ollama

Q: ¿Cuál es la fuente?

Publicado originalmente en Machine Learning Mastery. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

Machine Learning Mastery analizó un caso práctico para Gemma 4: un agente local con Python y Ollama puede llamar funciones externas y luego construir…

Redacción de Hamidun News

Monitoreo de AI · Machine Learning Mastery

2 may 2026· 2 min

Procesado por IA desde Machine Learning Mastery; editado por Hamidun News

Gemma 4 de Google: cómo ejecutar tool calling de forma local con Python y Ollama — Fuente: Machine Learning Mastery. Collage: Hamidun News.

◐ Escuchar artículo

Machine Learning Mastery ha lanzado un análisis detallado sobre cómo construir un agente de IA local basado en Gemma 4 con soporte para tool calling. El material es importante no tanto por el código en sí, sino como señal de mercado: los modelos open-weight de Google están entrando con cada vez más confianza en escenarios donde las APIs en la nube antes dominaban casi exclusivamente.

Sobre el Artículo

En un artículo del 14 de abril, el autor demuestra un stack práctico para un agente local: Python, Ollama y el modelo `gemma4:e2b`. La idea es simple: en lugar de un chatbot ordinario que responde solo con sus propios pesos, el desarrollador proporciona al modelo un conjunto de funciones y descripciones de sus parámetros. Si una consulta requiere datos externos, el modelo no inventa una respuesta, sino que formula una llamada estructurada a la herramienta necesaria, recibe el resultado y solo entonces arma el texto final.

En el contexto del lanzamiento de Gemma 4, esto es particularmente destacable. Google ha lanzado una familia de modelos abiertos bajo licencia Apache 2.0 y ha puesto énfasis en escenarios con agentes: JSON estructurado, function calling, system instructions y funcionamiento en diferentes hardwares—desde dispositivos móviles hasta estaciones de trabajo. La empresa promueve oficialmente Gemma 4 como base para tareas locales y on-device, y entre las herramientas soportadas desde el primer día menciona a Ollama. Para los desarrolladores, esto significa un camino más claro hacia asistentes privados sin dependencia obligatoria de un proveedor externo.

Cómo Está Estructurado el Agente

La arquitectura del ejemplo se construye sin frameworks pesados. El autor intencionalmente usa bibliotecas estándar de Python como `urllib` y `json` para demostrar que un agente básico con tool calling puede levantarse sin LangChain, sin orquestadores y sin una capa gruesa de abstracciones. La parte clave es un registro de herramientas en formato JSON Schema. Es lo que le explica al modelo qué funciones están disponibles, qué argumentos aceptan y cuáles campos son obligatorios.

El desarrollador escribe funciones Python locales que actúan como herramientas
Para cada función se define un esquema estricto de parámetros
La consulta del usuario junto con la lista de herramientas se envía a Ollama
El modelo devuelve `tool_calls` si necesita datos externos
La aplicación ejecuta la función y devuelve el resultado al modelo

Después de esto ocurre un segundo paso. La aplicación host añade la respuesta de la herramienta al historial de mensajes con el rol `tool`, luego llama al modelo nuevamente. Es aquí donde Gemma 4 ya no adivina, sino que se basa en datos reales. En el ejemplo, esto permite conectar de manera ordenada un modelo de razonamiento y código Python ordinario en un único ciclo de trabajo sin una capa en la nube. Esencialmente, el autor muestra una versión mínima de un runtime de agentes que puede analizarse y adaptarse a tus propias tareas en una noche.

Qué Herramientas Se Demostraron

Como demostración, el autor primero construye una función de pronóstico del tiempo basada en Open-Meteo, luego añade tres herramientas más: noticias, hora actual y conversión de monedas. Esto crea un agente pequeño pero ilustrativo, que puede responder no solo un hecho, sino también una consulta compuesta. Por ejemplo: averiguar el clima en París, la hora actual, convertir dólares canadienses a euros y simultáneamente traer noticias frescas sobre el tema.

Se pone énfasis particular en el modelo `gemma4:e2b`. Esta es una variante edge de Gemma 4 con una footprint eficiente de dos mil millones de parámetros durante la inferencia, diseñada para eficiencia de memoria y baja latencia. El artículo destaca que esta configuración puede ejecutarse localmente, sin GPU y sin límites de API. Para equipos pequeños y desarrolladores autónomos, este es un punto importante: los escenarios con agentes dejan de ser un experimento costoso y se convierten en una tarea ingenieril ordinaria. El autor escribe que durante un fin de semana ejecutó cientos de solicitudes en el sistema y no vio fallos en la lógica básica de llamada de herramientas.

Qué Significa Esto

El principal aprendizaje aquí no es otro tutorial de Python, sino un cambio en el umbral de entrada. Si Gemma 4 realmente mantiene de forma estable salida estructurada y function calling incluso en configuraciones edge ligeras, el mercado de agentes locales se expandirá rápidamente: habrá más escenarios offline, implementaciones corporativas privadas y menos razones para inmediatamente dirigirse a stacks en la nube costosos.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita