Hugging Face et Lambda : comment parser et fine-tuner des reasoning traces d’agents
MarkTechPost a analysé le dataset lambda/hermes-agent-reasoning-traces sur Hugging Face et présenté un pipeline complet pour travailler avec des reasoning trace

MarkTechPost выпустил практический разбор датасета lambda/hermes-agent-reasoning-traces, который помогает изучать, как AI-агенты думают, вызывают инструменты и отвечают в многошаговых диалогах. Это не релиз новой модели, а готовый рабочий пайплайн: от парсинга сырых трейсов до аналитики, графиков и подготовки данных к дообучению.
Что внутри датасета В центре материала — датасет на
Hugging Face от Lambda с двумя конфигурациями: kimi и glm-5.1. В первой 7646 примеров, во второй 7055. Каждый пример содержит список сообщений, описание доступных инструментов, категорию задачи, подкатегорию и исходный запрос пользователя. Формат близок к ShareGPT: в диалоге есть системные, пользовательские, агентные и инструментальные сообщения, поэтому по одной записи можно восстановить почти весь ход работы агента.
«Каждый пример — это реальный агентный диалог с пошаговым reasoning и реальными результатами вызова инструментов».
Главная ценность датасета в том, что в нём есть не только финальный ответ, но и промежуточные шаги. Для конфигурации kimi указана средняя длина 24,3 хода на пример и 13,9 вызова инструментов, у glm-5.1 — 19,1 хода и 9,7 вызова. Всего у набора девять категорий, включая Terminal & Coding, Agent Tools, Repository Tasks, Browser Automation и File Operations. То есть здесь собраны не игрушечные промпты, а реальные сценарии, где агент пишет код, ходит в браузер, работает с файлами и дергает внешние функции.
Как устроен разбор
Авторы начинают с базовой инспекции train-сплита через библиотеку datasets: смотрят поля, категории и отдельный пример. После этого они строят парсеры на регулярных выражениях, чтобы отдельно вытаскивать блоки размышлений, вызовы функций и ответы инструментов. Такой шаг нужен, чтобы разложить одну агентную траекторию на понятные части и отдельно анализировать внутренний ход мысли, действия и финальную реплику.
- Из сообщений агента извлекаются мысли, вызовы инструментов и финальный текст Ошибки парсинга JSON помечаются отдельно, чтобы не ломать пайплайн По выборке считаются длина диалогов, число вызовов и частота ошибок * Строятся графики по популярным инструментам, параллельным вызовам и распределению категорий На выборке из 3000 траекторий гайд считает средние показатели и визуализирует их через matplotlib. Отдельно показывается, как вывести одну полную трассу в читаемом виде: где был запрос пользователя, где агент рассуждал, какой инструмент вызвал и что тот вернул. Для команд, которые занимаются оценкой агентов, это особенно полезно: вместо одного итогового скора можно увидеть реальные паттерны поведения, лишние вызовы, пустые мысли и повторяющиеся ошибки в ответах инструментов.
Подготовка к обучению Во второй половине материал переходит от аналитики к ML-практике.
Диалоги переводятся в формат сообщений, совместимый с chat-моделями и типовыми training pipelines, а ответы инструментов переупаковываются как входной контекст для следующего шага. Затем идёт токенизация и label masking: в loss попадают только токены assistant-сообщений, а всё остальное закрывается. Это важная основа для supervised fine-tuning, если задача — учить модель отвечать и действовать на базе уже пройденной траектории.
Авторы добавляют и небольшой trace replayer, который позволяет пошагово проигрывать поведение агента, и демонстрационный цикл обучения через TRL. В примере используется tokenizer от Qwen2.5 и небольшой train subset, поэтому это скорее шаблон, чем готовый рецепт для production.
Но в этом и плюс материала: его можно быстро запустить, заменить конфиг, добавить свои метрики и получить базовую лабораторию для анализа agent traces без долгой подготовки и лишней инфраструктуры.
Что это значит
Рынок постепенно смещается от оценки только финального ответа к анализу полного поведения AI-агента. Такие датасеты и гайды дают командам практический способ смотреть не только на то, что модель ответила, но и на то, как именно она думала, ошибалась, вызывала инструменты и чему её стоит дообучать дальше.