NVIDIA Open-SWE-Traces : préparation des données pour le fine-tuning d’agents de codage
NVIDIA a publié Open-SWE-Traces, un dataset contenant des milliers de sessions réelles d’agents de AI qui résolvent des tâches de programmation. Les…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
NVIDIA a publié le dataset Open-SWE-Traces — une collection de sessions réelles multi-étapes d'agents IA résolvant des tâches de développement logiciel. Le tutoriel parcourt le pipeline complet : du streaming des données à un ensemble de données prêt pour le fine-tuning supervisé.
Qu'est-ce que Open-SWE-Traces
Le dataset contient des milliers de trajectoires d'agents : chacune est un enregistrement complet de session, où une IA reçoit une tâche d'ingénierie, appelle progressivement des outils (lecture de fichiers, exécution de tests, recherche de code), itère la solution et produit un patch final. Ceci est fondamentalement différent des datasets question-réponse typiques : ici, on capture non seulement quel était le résultat, mais comment l'agent y est arrivé.
Chaque enregistrement contient des métadonnées structurées :
- longueur de la trajectoire — nombre d'étapes de l'agent
- liste des outils utilisés et fréquence des appels
- taille du diff final en lignes de code
- langage de programmation de la tâche
- indicateur de solution réussie ou non réussie
Les données sont hébergées sur Hugging Face et supportent le streaming — vous pouvez travailler avec le dataset dans Google Colab sans téléchargement complet, ce qui est important étant donné les volumes de plusieurs gigaoctets.
Comment le Pipeline est Construit
Le tutoriel parcourt plusieurs étapes de traitement. La première est la normalisation des dialogues. Les sessions d'agents multi-étapes sont converties en un format unifié : les messages utilisateur, les réponses d'agent et les appels d'outils sont alignés dans une séquence. Ceci est nécessaire car différentes versions d'agents enregistrent les sessions différemment.
Le second est l'analyse des patches. Le code des modifications lui-même est extrait de la sortie finale de l'agent au format unified diff. Ce patch devient la 'réponse' dans l'exemple d'entraînement.
Le troisième est l'assemblage d'un DataFrame analytique. Pour chaque trajectoire, les métriques clés sont calculées : budgets de tokens à différents stades du fonctionnement de l'agent, distribution entre outils, statistiques de succès par langage et types de tâches.
Filtrage pour SFT
L'étape finale est de sélectionner des exemples pour l'entraînement. Les auteurs appliquent une chaîne de filtres.
Par labels de succès — seules les trajectoires avec des solutions réussies entrent dans l'échantillon. L'entraînement sur des sessions échouées sans marquage spécial est risqué : le modèle apprendra des motifs incorrects.
Par tokens — les trajectoires plus longues que la limite spécifiée sont filtrées. Les exemples trop longs ne tiennent pas dans le contexte avec des paramètres d'entraînement standard.
Par langage — si vous avez besoin d'un agent spécialisé pour Python ou JavaScript, le filtrage conserve uniquement les exemples pertinents.
Par présence de patch — les sessions sans code final sont inutiles pour la tâche SFT, où le modèle doit apprendre à produire un résultat spécifique.
"La qualité des données d'entraînement est plus importante que la
quantité — en particulier pour les traces d'agents, où les sessions échouées peuvent cimenter de mauvais motifs dans le modèle".
Ce que Cela Signifie
Open-SWE-Traces de NVIDIA est l'un des premiers datasets publics avec des trajectoires réelles d'agents pour les tâches d'ingénierie. Le tutoriel fournit un modèle de travail : des données brutes sur Hugging Face à un dataset SFT prêt-à-l'emploi en quelques lignes de code. Pour les équipes construisant leurs propres agents de rédaction de code, c'est un point de départ tout fait sans besoin de rassembler les données à partir de zéro.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.