Z.AI mostró cómo construir sistemas agentic production-ready en GLM-5 con tool calling

Q: ¿Cuál es la fuente?

Publicado originalmente en MarkTechPost. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

28 abr 2026. Tiempo de lectura: 3 min.

Z.AI mostró cómo construir no solo un chatbot sino un stack agentic production-ready desde GLM-5. El tutorial cubre lo esencial: SDK e interfaz compatible…

Redacción de Hamidun News

Monitoreo de AI · MarkTechPost

28 abr 2026· 3 min

Procesado por IA desde MarkTechPost; editado por Hamidun News

Z.AI mostró cómo construir sistemas agentic production-ready en GLM-5 con tool calling — Fuente: MarkTechPost. Collage: Hamidun News.

◐ Escuchar artículo

Z.AI publicó un desglose técnico raramente útil, en el que GLM-5 se presenta no como otra interfaz de chat, sino como la base para sistemas de agentes listos para producción. El material sigue consistentemente el camino desde la primera solicitud al modelo hasta un agente multi-paso completo con invocación de herramientas, salida en streaming, modo de razonamiento y soporte para diálogos de múltiples turnos.

Para los desarrolladores, esta es una señal importante: la apuesta se está haciendo no solo en la calidad de las respuestas, sino también en la madurez de la integración en una pila de productos real. Al principio, los autores configuran un entorno básico a través de zai-sdk, openai y rich, obtienen una clave de API de variables de entorno o a través de entrada oculta en terminal, e inician el ZaiClient para las primeras llamadas de modelo. A continuación, se muestra un escenario mínimo de conclusión de chat: GLM-5 responde una pregunta técnica simple, después de lo cual la misma interfaz se usa en modo streaming, donde los tokens llegan a medida que se generan.

Esta no es una característica cosmética. Para interfaces, asistentes y paneles de agentes, la salida en streaming afecta directamente la velocidad percibida y, por lo tanto, la idoneidad del modelo para escenarios de trabajo donde el usuario no desea esperar a que se complete una respuesta larga. La siguiente sección se dedica al modo de razonamiento y contexto de múltiples turnos.

En el ejemplo para GLM-5, el razonamiento se habilita explícitamente con el parámetro enabled, y en la respuesta en streaming, reasoning_content se lee por separado, seguido por la respuesta final del modelo. Después de esto, los autores construyen una cadena de varios mensajes: primero preguntan sobre la diferencia entre list y tuple en Python, luego aclaran cuándo NamedTuple es apropiado y finalmente solicitan un ejemplo práctico con type hints. El punto de esta sección no son las preguntas en sí, sino la demostración de que el modelo retiene el contexto entre turnos, y el desarrollador puede rastrear el crecimiento del historial de mensajes y el consumo de tokens.

Para sistemas de agentes, este es un requisito básico: sin memoria de diálogo estable, las cadenas complejas se desintegran rápidamente. La parte más práctica comienza donde GLM-5 se conecta a funciones externas. El tutorial describe dos herramientas: búsqueda de clima y una calculadora para evaluación segura de expresiones.

El modelo recibe una solicitud en lenguaje natural, él mismo decide qué herramienta invocar, devuelve argumentos, el código local ejecuta la función, y luego el resultado se devuelve al contexto del modelo para una respuesta final. Inmediatamente después, se muestra la salida estructurada: se le pide a GLM-5 que extraiga datos financieros del texto y devuelva JSON limpio sin explicaciones. Esto ya está muy cerca de un patrón típico de producción donde el modelo no solo debe escribir bien, sino también producir consistentemente resultados legibles por máquina para canales, CRM, análisis o servicios de backend internos.

La sección técnica final lo reúne todo en una clase GLM5Agent. Añade varias herramientas a la vez: clima, calculadora, hora actual y conversión de unidades. El agente trabaja iterativamente, llamando él mismo a las funciones necesarias mientras resuelve una tarea, y continúa el ciclo hasta obtener una respuesta final o alcanzar un límite de pasos.

En un ejemplo separado, los autores comparan cómo funciona un problema lógico complicado con el modo de razonamiento habilitado y deshabilitado, midiendo el tiempo de respuesta y el volumen de tokens generados. Y en conclusión, muestran que GLM-5 también se puede usar a través del SDK de Python OpenAI estándar: es suficiente cambiar la base_url, y la interfaz familiar chat.completions continúa funcionando.

Según la documentación oficial de Z.AI, GLM-5 tiene un contexto de hasta 200K tokens y un máximo de 128K tokens de salida, lo que hace que este escenario sea particularmente interesante para tareas multi-paso largas. ¿Qué significa esto en la práctica?

Z.AI está intentando bajar la barra de migración para equipos que ya tienen código compatible con OpenAI, pero que necesitan un flujo de trabajo de agente más pronunciado: herramientas, JSON, streaming, memoria de diálogo y ciclos de ejecución gestionados. También es importante que el tutorial no se adentre en abstracciones, sino que muestre el bucle de trabajo mínimo alrededor del modelo.

Sin embargo, no debe haber ilusiones: los ejemplos con clima y calculadora siguen siendo educativos, y para producción aún necesitarás autorización, registro, reintentos, restricciones de herramientas y protección contra llamadas inseguras. Pero como un mapa de las capacidades de GLM-5, este material es útil: muestra que el modelo de Z.AI ya está empaquetado no solo como un LLM para chat, sino como un bloque de construcción para agentes de IA aplicados.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita