NVIDIA Open-SWE-Traces: preparación de datos para el fine-tuning de agentes de codificación
NVIDIA publicó Open-SWE-Traces, un dataset con miles de sesiones reales de agentes de AI que resuelven tareas de programación. Los investigadores explicaron…
Procesado por IA desde MarkTechPost; editado por Hamidun News
NVIDIA ha lanzado el dataset Open-SWE-Traces — una colección de sesiones reales de múltiples pasos de agentes de IA que resuelven tareas de desarrollo de software. El tutorial recorre el pipeline completo: desde el streaming de datos hasta una muestra lista para fine-tuning supervisado.
Qué es Open-SWE-Traces
El dataset contiene miles de trayectorias de agentes: cada una es un registro completo de la sesión, donde la IA recibe una tarea de ingeniería, invoca herramientas progresivamente (lectura de archivos, ejecución de pruebas, búsqueda de código), itera la solución y devuelve un parche final. Esto es fundamentalmente diferente de los datasets típicos pregunta-respuesta: aquí se captura no solo cuál fue el resultado, sino cómo el agente llegó a él.
Cada registro contiene metadatos estructurados:
- longitud de la trayectoria — número de pasos del agente
- lista de herramientas utilizadas y frecuencia de llamadas
- tamaño del diff final en líneas de código
- lenguaje de programación de la tarea
- bandera de solución exitosa o fallida
Los datos están alojados en Hugging Face y admiten streaming — puede trabajar con el dataset en Google Colab sin una descarga completa, lo cual es importante dados los volúmenes de varios gigabytes.
Cómo se Construye el Pipeline
El tutorial recorre varios estadios de procesamiento. El primero es la normalización de diálogos. Las sesiones de agentes multi-paso se convierten a un formato unificado: los mensajes del usuario, las respuestas del agente y las llamadas de herramientas se alinean en una secuencia. Esto es necesario porque diferentes versiones de agentes registran sesiones de forma diferente.
El segundo es el análisis de parches. El propio código de cambios se extrae de la salida final del agente en formato unified diff. Este parche se convierte en la 'respuesta' en el ejemplo de entrenamiento.
El tercero es el ensamblaje de un DataFrame analítico. Para cada trayectoria, se calculan métricas clave: presupuestos de tokens en diferentes etapas de la operación del agente, distribución entre herramientas, estadísticas de éxito por lenguaje y tipos de tareas.
Filtrado para SFT
El paso final es seleccionar ejemplos para el entrenamiento. Los autores aplican una cadena de filtros.
Por etiquetas de éxito — solo las trayectorias con soluciones exitosas entran en la muestra. Entrenar en sesiones fallidas sin marcado especial es arriesgado: el modelo aprenderá patrones incorrectos.
Por tokens — las trayectorias más largas que el límite especificado se filtran. Los ejemplos demasiado largos no caben en el contexto con configuraciones de entrenamiento estándar.
Por lenguaje — si necesita un agente especializado para Python o JavaScript, el filtrado retiene solo ejemplos relevantes.
Por presencia de parche — las sesiones sin código final son inútiles para la tarea SFT, donde el modelo debe aprender a producir un resultado específico.
"La calidad de los datos de entrenamiento es más importante que la
cantidad — especialmente para trazas de agentes, donde las sesiones fallidas pueden cementar patrones malos en el modelo".
Qué Significa Esto
Open-SWE-Traces de NVIDIA es uno de los primeros datasets públicos con trayectorias reales de agentes para tarefas de ingeniería. El tutorial proporciona una plantilla funcional: de datos sin procesar en Hugging Face a un dataset SFT listo en pocas líneas de código. Para equipos que construyen sus propios agentes de escritura de código, este es un punto de partida listo sin necesidad de recopilar datos desde cero.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.