Machine Learning Mastery→ original

Gemma 4 de Google : comment exécuter le tool calling en local avec Python et Ollama

Machine Learning Mastery a détaillé un cas pratique pour Gemma 4 : un agent local sous Python et Ollama peut appeler des fonctions externes, puis construire…

Traité par IA depuis Machine Learning Mastery ; édité par Hamidun News
Gemma 4 de Google : comment exécuter le tool calling en local avec Python et Ollama
Source : Machine Learning Mastery. Collage: Hamidun News.
◐ Écouter l'article

Machine Learning Mastery a publié une analyse détaillée sur la façon de construire un agent IA local basé sur Gemma 4 avec support du tool calling. Le matériel est important non pas tant pour le code en lui-même, mais comme signal marché : les modèles open-weight de Google entrent avec de plus en plus de confiance dans des scénarios où les APIs cloud dominaient auparavant presque exclusivement.

À Propos de l'Article

Dans un article du 14 avril, l'auteur démontre une pile technique pratique pour un agent local : Python, Ollama et le modèle `gemma4:e2b`. L'idée est simple : au lieu d'un chatbot ordinaire qui répond uniquement selon ses propres poids, le développeur fournit au modèle un ensemble de fonctions et des descriptions de leurs paramètres. Si une requête nécessite des données externes, le modèle ne fabrique pas une réponse, mais formule plutôt un appel structuré à l'outil nécessaire, reçoit le résultat et seulement ensuite assemble le texte final.

Face à la sortie de Gemma 4, cela est particulièrement frappant. Google a publié une famille de modèles ouverts sous licence Apache 2.0 et a mis l'accent sur les scénarios avec agents : JSON structuré, function calling, system instructions et fonctionnement sur différents matériels—des appareils mobiles aux stations de travail. L'entreprise promeut officiellement Gemma 4 comme base pour les tâches locales et on-device, et parmi les outils supportés dès le premier jour, elle cite Ollama. Pour les développeurs, cela signifie un chemin plus clair vers des assistants privés sans dépendance obligatoire d'un fournisseur externe.

Comment l'Agent est Structuré

L'architecture de l'exemple est construite sans frameworks lourds. L'auteur utilise intentionnellement des bibliothèques standard de Python comme `urllib` et `json` pour montrer qu'un agent basique avec tool calling peut être mis en place sans LangChain, sans orchestrateurs et sans une couche épaisse d'abstractions. La partie clé est un registre d'outils au format JSON Schema. C'est ce qui explique au modèle quelles fonctions sont disponibles, quels arguments elles acceptent et quels champs sont obligatoires.

  • Le développeur écrit des fonctions Python locales qui servent d'outils
  • Pour chaque fonction, un schéma strict de paramètres est défini
  • La requête de l'utilisateur avec la liste des outils est envoyée à Ollama
  • Le modèle retourne `tool_calls` s'il a besoin de données externes
  • L'application exécute la fonction et renvoie le résultat au modèle

Après cela, une deuxième passe se produit. L'application hôte ajoute la réponse de l'outil à l'historique des messages avec le rôle `tool`, puis appelle à nouveau le modèle. C'est à ce stade que Gemma 4 ne devine plus, mais s'appuie sur des données réelles. Dans l'exemple, cela permet de connecter proprement un modèle de raisonnement et du code Python ordinaire dans un unique cycle de travail sans couche cloud. Essentiellement, l'auteur montre une version minimale d'un runtime d'agents qui peut être décortiquée et adaptée à vos propres tâches en une soirée.

Quels Outils Ont Été Démontrés

Comme démonstration, l'auteur construit d'abord une fonction de météo basée sur Open-Meteo, puis ajoute trois outils supplémentaires : actualités, heure actuelle et conversion de devises. Cela crée un petit agent mais illustratif, capable de répondre non seulement à un seul fait, mais aussi à une requête composée. Par exemple : connaître la météo à Paris, l'heure actuelle, convertir des dollars canadiens en euros et simultanément récupérer des actualités fraîches sur le sujet.

Un accent particulier est mis sur le modèle `gemma4:e2b`. C'est une variante edge de Gemma 4 avec une empreinte efficace de deux milliards de paramètres lors de l'inférence, conçue pour l'efficacité mémoire et la latence basse. L'article souligne que cette configuration peut fonctionner localement, sans GPU et sans limites d'API. Pour les petites équipes et les développeurs indépendants, c'est un point important : les scénarios avec agents cessent d'être une expérience coûteuse et deviennent une tâche d'ingénierie ordinaire. L'auteur écrit que sur un week-end il a lancé des centaines de requêtes sur le système et n'a vu aucun défaut dans la logique basique d'appel des outils.

Ce Que Cela Signifie

L'enseignement principal ici n'est pas un autre tutoriel Python, mais un changement du seuil d'accès. Si Gemma 4 maintient réellement de façon stable la sortie structurée et le function calling même dans des configurations edge légères, le marché des agents locaux s'étendra rapidement : il y aura plus de scénarios hors ligne, davantage de déploiements privés en entreprise et moins de raisons d'aller immédiatement vers des stacks cloud coûteux.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…