NVIDIA Open-SWE-Traces: preparação de dados para o fine-tuning de agentes de codificação
A NVIDIA publicou o Open-SWE-Traces, um dataset com milhares de sessões reais de agentes de AI que resolvem tarefas de programação. Os pesquisadores…
Processado por IA de MarkTechPost; editado por Hamidun News
A NVIDIA lançou o dataset Open-SWE-Traces — uma coleção de sessões reais de múltiplas etapas de agentes de IA que resolvem tarefas de desenvolvimento de software. O tutorial explora o pipeline completo: desde o streaming de dados até a amostra pronta para fine-tuning supervisionado.
O que é Open-SWE-Traces
O dataset contém milhares de trajetórias de agentes: cada uma é um registro completo da sessão, onde a IA recebe uma tarefa de engenharia, invoca ferramentas progressivamente (leitura de arquivos, execução de testes, busca de código), itera a solução e retorna um patch final. Isso é fundamentalmente diferente dos datasets típicos pergunta-resposta: aqui é capturado não apenas qual foi o resultado, mas como o agente chegou a ele.
Cada registro contém metadados estruturados:
- comprimento da trajetória — número de etapas do agente
- lista de ferramentas utilizadas e frequência de chamadas
- tamanho do diff final em linhas de código
- linguagem de programação da tarefa
- sinalizador de solução bem-sucedida ou malsucedida
Os dados estão hospedados no Hugging Face e suportam streaming — você pode trabalhar com o dataset no Google Colab sem download completo, o que é importante dado os volumes de vários gigabytes.
Como o Pipeline é Construído
O tutorial percorre vários estágios de processamento. O primeiro é a normalização de diálogos. As sessões de agentes multi-etapas são convertidas para um formato unificado: mensagens do usuário, respostas do agente e chamadas de ferramentas são alinhadas em uma sequência. Isso é necessário porque diferentes versões de agentes registram sessões de forma diferente.
O segundo é a análise de patches. O próprio código de mudanças é extraído da saída final do agente em formato unified diff. Este patch se torna a 'resposta' no exemplo de treinamento.
O terceiro é a montagem de um DataFrame analítico. Para cada trajetória, métricas-chave são calculadas: orçamentos de tokens em diferentes estágios da operação do agente, distribuição entre ferramentas, estatísticas de sucesso por linguagem e tipos de tarefas.
Filtragem para SFT
O passo final é selecionar exemplos para treinamento. Os autores aplicam uma cadeia de filtros.
Por rótulos de sucesso — apenas trajetórias com soluções bem-sucedidas entram na amostra. Treinar em sessões falhadas sem marcação especial é arriscado: o modelo aprenderá padrões incorretos.
Por tokens — trajetórias mais longas que o limite especificado são filtradas. Exemplos muito longos não cabem no contexto com configurações de treinamento padrão.
Por linguagem — se você precisar de um agente especializado para Python ou JavaScript, a filtragem mantém apenas exemplos relevantes.
Por presença de patch — sessões sem código final são inúteis para a tarefa SFT, onde o modelo deve aprender a produzir um resultado específico.
"A qualidade dos dados de treinamento é mais importante que a
quantidade — especialmente para rastreamentos de agentes, onde sessões falhadas podem cementar padrões ruins no modelo".
O que Isso Significa
Open-SWE-Traces da NVIDIA é um dos primeiros datasets públicos com trajetórias reais de agentes para tarefas de engenharia. O tutorial fornece um modelo funcional: de dados brutos no Hugging Face até um dataset SFT pronto em poucas linhas de código. Para equipes que constroem seus próprios agentes de escrita de código, este é um ponto de partida pronto sem necessidade de coletar dados do zero.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.