MarkTechPost→ оригинал

Z.AI showed how to build production-ready agentic systems on GLM-5 with tool calling

Z.AI showed how to build not just a chatbot but a production-ready agentic stack from GLM-5. The tutorial covers the essentials: SDK and OpenAI-compatible inter

Z.AI showed how to build production-ready agentic systems on GLM-5 with tool calling
Источник: MarkTechPost. Коллаж: Hamidun News.

Z.AI выпустила редкий по полезности технический разбор, в котором GLM-5 показан не как очередной чат-интерфейс, а как основа для production-ready агентных систем. Материал последовательно проходит путь от первого запроса к модели до полноценного многошагового агента с вызовом инструментов, потоковой выдачей, режимом размышления и поддержкой диалога в несколько ходов.

Для разработчиков это важный сигнал: ставка делается не только на качество ответов, но и на зрелость интеграции в реальный продуктовый стек. В начале авторы собирают базовую среду через zai-sdk, openai и rich, получают API-ключ из переменных окружения или через скрытый ввод в терминале и поднимают ZaiClient для первых вызовов модели. Дальше показывается минимальный сценарий chat completion: GLM-5 отвечает на простой технический вопрос, после чего тот же интерфейс используется уже в streaming-режиме, где токены приходят по мере генерации.

Это не косметическая функция. Для интерфейсов, ассистентов и агентных панелей потоковая выдача напрямую влияет на ощущаемую скорость, а значит и на пригодность модели для рабочих сценариев, где пользователь не хочет ждать завершения длинного ответа целиком. Следующий блок посвящён thinking mode и многоходовому контексту.

В примере для GLM-5 явно включают thinking с параметром enabled и в потоковом ответе отдельно читают reasoning_content, а затем итоговый ответ модели. После этого авторы строят цепочку из нескольких сообщений: сначала спрашивают про разницу между list и tuple в Python, затем уточняют, когда уместен NamedTuple, и в конце просят практический пример с type hints. Смысл этого раздела не в самих вопросах, а в демонстрации того, что модель удерживает контекст между ходами, а разработчик может отслеживать рост истории сообщений и расход токенов.

Для агентных систем это базовое требование: без устойчивой памяти диалога сложные цепочки быстро распадаются. Самая прикладная часть начинается там, где GLM-5 подключают к внешним функциям. В туториале описаны два инструмента: погодный lookup и калькулятор для безопасного вычисления выражений.

Модель получает natural language запрос, сама решает, какой tool вызвать, возвращает аргументы, локальный код исполняет функцию, а затем результат снова передаётся в контекст модели для финального ответа. Сразу после этого показывают structured output: GLM-5 просят извлечь финансовые данные из текста и вернуть чистый JSON без пояснений. Это уже очень близко к типичному продакшн-паттерну, где модель должна не только красиво писать, но и стабильно выдавать машиночитаемый результат для пайплайнов, CRM, аналитики или внутренних бэкенд-сервисов.

Финальный технический блок собирает всё вместе в класс GLM5Agent. В него добавляют уже несколько инструментов сразу: погоду, калькулятор, текущее время и конвертацию единиц. Агент работает итеративно, сам вызывает нужные функции по ходу решения задачи и продолжает цикл, пока не получит финальный ответ или не упрётся в лимит шагов.

На отдельном примере авторы сравнивают работу tricky логической задачи с включённым и выключенным thinking mode, замеряя время ответа и объём сгенерированных токенов. А в завершение показывают, что GLM-5 можно использовать и через стандартный OpenAI Python SDK: достаточно поменять base_url, и привычный chat.completions интерфейс продолжает работать.

По официальной документации Z.AI, у GLM-5 контекст до 200K токенов и максимум 128K токенов на выходе, что делает такой сценарий особенно интересным для длинных многошаговых задач. Что это значит на практике?

Z.AI пытается снизить порог миграции для команд, у которых уже есть OpenAI-совместимый код, но которым нужен более выраженный agentic workflow: инструменты, JSON, стриминг, память диалога и управляемые циклы исполнения. Важно и то, что туториал не уходит в абстракции, а показывает минимальный рабочий контур вокруг модели.

При этом иллюзий быть не должно: примеры с погодой и калькулятором остаются учебными, а для продакшена всё равно понадобятся авторизация, логирование, retries, ограничения на инструменты и защита от небезопасных вызовов. Но как карта возможностей GLM-5 этот материал полезен: он показывает, что модель Z.AI уже упаковывается не просто как LLM для чата, а как строительный блок для прикладных AI-агентов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…