DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas
Together AI publicou DSGym — um framework unificado para treinamento e avaliação de agentes LLM que executam tarefas de data science. Integra 90+ tarefas de bio
Processado por IA de Together AI Blog; editado por Hamidun News
Together AI publicou DSGym — um framework unificado para avaliação e treinamento de agentes LLM que resolvem tarefas de data science. Os benchmarks existentes baseiam-se em interfaces incompatíveis, e muitas tarefas podem ser resolvidas sem análise real de dados. DSGym resolve esse problema integrando 192 novas tarefas de bioinformática e Kaggle em um único ecossistema com geração sintética de dados para treinamento.
Por que os benchmarks existentes não funcionam
A abordagem atual para avaliar agentes de data science sofre com fragmentação. Diferentes benchmarks usam APIs incompatíveis, formatos de dados e métricas de avaliação, o que dificulta a comparação justa e a integração em um único sistema. Implementar suporte para cada benchmark novamente é caro e requer reescrever o código. Além disso, muitas tarefas nos benchmarks existentes podem ser resolvidas sem análise de dados. Um agente pode simplesmente adivinhar o resultado, encontrar a resposta na internet ou aplicar uma solução padrão que não requer compreensão do problema real.
Como funciona o DSGym
DSGym resolve esse problema por meio de uma interface JSON unificada. Cada tarefa é descrita por quatro componentes: conjunto de dados, texto da solicitação, métrica de avaliação e metadados. Isso permite adicionar novas tarefas, ferramentas e estratégias de agentes sem refatorar todo o framework. O código dos agentes é executado em contêineres que são alocados em tempo real com dependências pré-instaladas. Essa arquitetura garante segurança (ambiente isolado), reprodutibilidade (sempre o mesmo estado) e honestidade na avaliação (o agente trabalha em ambiente de produção, não em desenvolvimento).
Quais tarefas estão incluídas no DSGym
O framework é dividido em duas categorias principais:
- Data Analysis — encontrar respostas para perguntas através da análise programática de dados estruturados
- Data Prediction — desenvolver pipelines ML end-to-end para previsão e classificação
- DSBio — 90 tarefas de bioinformática extraídas de artigos científicos publicados
- DSPredict — 92 competições Kaggle, incluindo séries temporais, visão computacional e modelagem molecular
- MLEBench e QRData — benchmarks clássicos integrados de trabalhos anteriores
Os dados sintéticos para treinamento são gerados através de um pipeline especial. O sistema executa solicitações, registra as trajetórias completas de solução e cria exemplos na forma (tarefa, código, resultado). De 3700 exemplos gerados automaticamente, os autores selecionaram 2000 de alta qualidade através de filtragem por LLM.
Resultados: SOTA entre modelos abertos
Em dados sintéticos, treinaram um modelo de 4 bilhões de parâmetros que alcançou performance state-of-the-art entre LLMs abertos para data science. Isso mostra que dados sintéticos de qualidade, gerados pelo framework, são suficientes para treinar agentes competitivos sem usar datasets fechados.
O que isso significa
DSGym leva agentes de data science de um tema de pesquisa para uma ferramenta prática. Uma plataforma unificada e um mecanismo de geração de dados sintéticos reduzem a barreira de entrada — agora qualquer grupo pode treinar seu próprio agente sem milhões de exemplos. Para startups, laboratórios de pesquisa e equipes internas, isso abre a possibilidade de prototipagem rápida e melhoria de sistemas de análise de dados automatizada.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.