Hugging Face y Lambda: cómo hacer parsing y fine-tuning de reasoning traces de agentes

MarkTechPost analizó el dataset lambda/hermes-agent-reasoning-traces en Hugging Face y mostró un pipeline completo para trabajar con reasoning traces de…

Redacción de Hamidun News

Monitoreo de AI · MarkTechPost

2 may 2026· 2 min

Procesado por IA desde MarkTechPost; editado por Hamidun News

Hugging Face y Lambda: cómo hacer parsing y fine-tuning de reasoning traces de agentes — Fuente: MarkTechPost. Collage: Hamidun News.

◐ Escuchar artículo

MarkTechPost lanzó un análisis práctico del dataset lambda/hermes-agent-reasoning-traces, que ayuda a estudiar cómo los agentes AI piensan, invocan herramientas y responden en diálogos de múltiples pasos. No es un lanzamiento de nuevo modelo, sino un pipeline funcionando listo: desde el parseado de trazas brutas hasta análisis, visualizaciones y preparación de datos para fine-tuning.

Qué Hay Dentro del Dataset

El foco del material es un dataset en Hugging Face de Lambda con dos configuraciones: kimi y glm-5.1. La primera contiene 7646 ejemplos, la segunda 7055. Cada ejemplo contiene una lista de mensajes, descripción de herramientas disponibles, categoría de la tarea, subcategoría y la consulta original del usuario. El formato es cercano a ShareGPT: en el diálogo hay mensajes de sistema, usuario, agente y herramienta, así que a partir de un único registro puedes reconstruir casi todo el flujo de trabajo del agente.

"Cada ejemplo es un diálogo real de agente con razonamiento paso a

paso y resultados reales de invocación de herramientas."

El valor principal del dataset es que contiene no solo la respuesta final, sino también los pasos intermedios. Para la configuración kimi se reporta una longitud promedio de 24,3 turnos por ejemplo y 13,9 invocaciones de herramientas; para glm-5.1 — 19,1 turnos y 9,7 invocaciones. El dataset tiene nueve categorías en total, incluyendo Terminal & Coding, Agent Tools, Repository Tasks, Browser Automation y File Operations. Es decir, esta colección contiene no prompts de juguete, sino escenarios reales donde un agente escribe código, navega por la web, trabaja con archivos y llama funciones externas.

Cómo Funciona el Análisis

Los autores comienzan con inspección básica del split de entrenamiento usando la biblioteca datasets: examinan campos, categorías y ejemplos individuales. Luego construyen parseadores usando expresiones regulares para extraer por separado bloques de razonamiento, llamadas de función y respuestas de herramientas. Este paso es necesario para descomponer una única trayectoria de agente en partes comprensibles y analizar por separado el razonamiento interno, acciones y respuesta final.

Pensamientos, invocaciones de herramientas y texto final se extraen de los mensajes del agente
Los errores de parseado JSON se señalan por separado para evitar romper el pipeline
Se calculan métricas promedio en la muestra: longitud del diálogo, número de invocaciones y frecuencia de errores
Se construyen gráficos para herramientas populares, invocaciones paralelas y distribución de categorías

En una muestra de 3000 trayectorias, la guía calcula métricas promedio y las visualiza a través de matplotlib. También muestra cómo mostrar una única traza completa en formato legible: dónde fue la consulta del usuario, dónde razonó el agente, qué herramienta llamó y qué devolvió. Para equipos que evalúan agentes, esto es especialmente útil: en lugar de una única puntuación final, puedes ver patrones reales de comportamiento, invocaciones innecesarias, pensamientos vacíos y errores recurrentes en las respuestas de las herramientas.

Preparación para Entrenamiento

En la segunda mitad, el material transiciona de análisis a práctica de ML. Los diálogos se convierten a un formato de mensajes compatible con modelos de chat y pipelines de entrenamiento típicos, y las respuestas de herramientas se reempaquetan como contexto de entrada para el siguiente paso. Luego viene tokenización y label masking: solo los tokens de mensajes de asistente entran en la pérdida, mientras que todo lo demás se enmascara.

Esta es una base importante para fine-tuning supervisado, si el objetivo es entrenar el modelo para responder y actuar basándose en una trayectoria ya recorrida. Los autores también añaden un pequeño trace replayer, que permite reproducción paso a paso del comportamiento del agente, y un ciclo de entrenamiento demostrativo vía TRL. El ejemplo usa un tokenizador de Qwen2.

5 y un pequeño subconjunto de entrenamiento, así que es más bien un template que una receta lista para producción. Pero eso es en realidad una ventaja del material: puedes ejecutarlo rápidamente, reemplazar la configuración, añadir tus propias métricas y obtener un laboratorio básico para análisis de agent traces sin instalación larga e infraestructura innecesaria.

Lo Que Esto Significa

El mercado se desplaza gradualmente de evaluar solo la respuesta final a analizar el comportamiento completo de los agentes AI. Tales datasets y guías dan a los equipos una forma práctica de mirar no solo lo que el modelo respondió, sino también cómo exactamente pensó, cometió errores, invocó herramientas y en qué debería ser fine-tuned a continuación.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

Reservar consulta gratuita →