Z.AI a montré comment construire des systèmes agentic production-ready sur GLM-5 avec tool calling
Z.AI a montré comment construire non seulement un chatbot mais une stack agentic production-ready à partir de GLM-5. Le tutoriel couvre l'essentiel : SDK et…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Z.AI a publié une analyse technique rare par son utilité, dans laquelle GLM-5 est présenté non pas comme une autre interface de chat, mais comme la base de systèmes d'agents prêts pour la production. Le matériel suit systématiquement le chemin du premier appel au modèle jusqu'à un agent multi-étapes complet avec invocation d'outils, sortie en streaming, mode de réflexion et support du dialogue multi-tours.
Pour les développeurs, c'est un signal important : le pari se fait non seulement sur la qualité des réponses, mais aussi sur la maturité de l'intégration dans une pile de produits réelle. Au début, les auteurs configurent un environnement de base via zai-sdk, openai et rich, obtiennent une clé API à partir de variables d'environnement ou via une saisie masquée dans le terminal, et lancent ZaiClient pour les premiers appels au modèle. Ensuite, un scénario minimal d'achèvement de chat est montré : GLM-5 répond à une simple question technique, après quoi la même interface est utilisée en mode streaming, où les tokens arrivent au fur et à mesure qu'ils sont générés.
Ce n'est pas une simple feature cosmétique. Pour les interfaces, les assistants et les panneaux d'agents, la sortie en streaming affecte directement la vitesse perçue, et donc la pertinence du modèle pour les scénarios de travail où l'utilisateur ne veut pas attendre la fin d'une longue réponse. La section suivante est consacrée au mode de réflexion et au contexte multi-tours.
Dans l'exemple pour GLM-5, la réflexion est explicitement activée avec le paramètre enabled, et dans la réponse en streaming, reasoning_content est lu séparément, suivi de la réponse finale du modèle. Après cela, les auteurs construisent une chaîne de plusieurs messages : d'abord ils demandent la différence entre list et tuple en Python, puis clarifient quand NamedTuple est approprié, et enfin demandent un exemple pratique avec type hints. Le point de cette section n'est pas les questions elles-mêmes, mais la démonstration que le modèle conserve le contexte entre les tours, et que le développeur peut suivre la croissance de l'historique des messages et la consommation de tokens.
Pour les systèmes d'agents, c'est une exigence basique : sans mémoire stable du dialogue, les chaînes complexes s'effondrent rapidement. La partie la plus pratique commence là où GLM-5 est connecté à des fonctions externes. Le tutoriel décrit deux outils : recherche météo et calculatrice pour l'évaluation sécurisée d'expressions.
Le modèle reçoit une demande en langage naturel, décide lui-même quel outil appeler, retourne les arguments, le code local exécute la fonction, et ensuite le résultat est renvoyé au contexte du modèle pour une réponse finale. Immédiatement après, la sortie structurée est affichée : on demande à GLM-5 d'extraire les données financières du texte et de retourner du JSON pur sans explications. C'est déjà très proche d'un motif de production typique où le modèle doit non seulement bien écrire, mais aussi produire de manière stable des résultats lisibles par machine pour les pipelines, CRM, analyses ou services backend internes.
La section technique finale réunit tout cela dans une classe GLM5Agent. Elle ajoute plusieurs outils à la fois : météo, calculatrice, heure actuelle et conversion d'unités. L'agent fonctionne de manière itérative, appelle lui-même les fonctions nécessaires en résolvant une tâche, et continue le cycle jusqu'à obtenir une réponse finale ou atteindre une limite d'étapes.
Sur un exemple séparé, les auteurs comparent le fonctionnement d'un problème logique délicat avec le mode de réflexion activé et désactivé, en mesurant le temps de réponse et le volume de tokens générés. Et en conclusion, ils montrent que GLM-5 peut également être utilisé via le SDK Python OpenAI standard : il suffit de changer la base_url, et l'interface familière chat.completions continue de fonctionner.
Selon la documentation officielle de Z.AI, GLM-5 a un contexte jusqu'à 200K tokens et un maximum de 128K tokens de sortie, ce qui rend ce scénario particulièrement intéressant pour les tâches multi-étapes longues. Qu'est-ce que cela signifie en pratique ?
Z.AI essaie d'abaisser la barre de migration pour les équipes qui ont déjà du code compatible avec OpenAI mais qui ont besoin d'un flux de travail d'agent plus prononcé : outils, JSON, streaming, mémoire de dialogue et cycles d'exécution gérés. Il est également important que le tutoriel ne s'engage pas dans des abstractions, mais montre la boucle de travail minimale autour du modèle.
Cependant, il ne faut pas d'illusions : les exemples avec météo et calculatrice restent pédagogiques, et pour la production vous aurez quand même besoin d'authentification, logging, retries, restrictions sur les outils et protection contre les appels non sécurisés. Mais en tant que carte des capacités de GLM-5, ce matériel est utile : il montre que le modèle de Z.AI est déjà emballé non pas seulement comme un LLM pour le chat, mais comme un bloc de construction pour les agents IA appliqués.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.