Together AI Blog→ original

DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas

Together AI publicou DSGym — um framework unificado para treinamento e avaliação de agentes LLM que executam tarefas de data science. Integra 90+ tarefas de bio

Processado por IA de Together AI Blog; editado por Hamidun News
DSGym: framework para treinamento de agentes de data science com 90+ tarefas científicas
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Together AI publicou DSGym — um framework unificado para avaliação e treinamento de agentes LLM que resolvem tarefas de data science. Os benchmarks existentes baseiam-se em interfaces incompatíveis, e muitas tarefas podem ser resolvidas sem análise real de dados. DSGym resolve esse problema integrando 192 novas tarefas de bioinformática e Kaggle em um único ecossistema com geração sintética de dados para treinamento.

Por que os benchmarks existentes não funcionam

A abordagem atual para avaliar agentes de data science sofre com fragmentação. Diferentes benchmarks usam APIs incompatíveis, formatos de dados e métricas de avaliação, o que dificulta a comparação justa e a integração em um único sistema. Implementar suporte para cada benchmark novamente é caro e requer reescrever o código. Além disso, muitas tarefas nos benchmarks existentes podem ser resolvidas sem análise de dados. Um agente pode simplesmente adivinhar o resultado, encontrar a resposta na internet ou aplicar uma solução padrão que não requer compreensão do problema real.

Como funciona o DSGym

DSGym resolve esse problema por meio de uma interface JSON unificada. Cada tarefa é descrita por quatro componentes: conjunto de dados, texto da solicitação, métrica de avaliação e metadados. Isso permite adicionar novas tarefas, ferramentas e estratégias de agentes sem refatorar todo o framework. O código dos agentes é executado em contêineres que são alocados em tempo real com dependências pré-instaladas. Essa arquitetura garante segurança (ambiente isolado), reprodutibilidade (sempre o mesmo estado) e honestidade na avaliação (o agente trabalha em ambiente de produção, não em desenvolvimento).

Quais tarefas estão incluídas no DSGym

O framework é dividido em duas categorias principais:

  • Data Analysis — encontrar respostas para perguntas através da análise programática de dados estruturados
  • Data Prediction — desenvolver pipelines ML end-to-end para previsão e classificação
  • DSBio — 90 tarefas de bioinformática extraídas de artigos científicos publicados
  • DSPredict — 92 competições Kaggle, incluindo séries temporais, visão computacional e modelagem molecular
  • MLEBench e QRData — benchmarks clássicos integrados de trabalhos anteriores

Os dados sintéticos para treinamento são gerados através de um pipeline especial. O sistema executa solicitações, registra as trajetórias completas de solução e cria exemplos na forma (tarefa, código, resultado). De 3700 exemplos gerados automaticamente, os autores selecionaram 2000 de alta qualidade através de filtragem por LLM.

Resultados: SOTA entre modelos abertos

Em dados sintéticos, treinaram um modelo de 4 bilhões de parâmetros que alcançou performance state-of-the-art entre LLMs abertos para data science. Isso mostra que dados sintéticos de qualidade, gerados pelo framework, são suficientes para treinar agentes competitivos sem usar datasets fechados.

O que isso significa

DSGym leva agentes de data science de um tema de pesquisa para uma ferramenta prática. Uma plataforma unificada e um mecanismo de geração de dados sintéticos reduzem a barreira de entrada — agora qualquer grupo pode treinar seu próprio agente sem milhões de exemplos. Para startups, laboratórios de pesquisa e equipes internas, isso abre a possibilidade de prototipagem rápida e melhoria de sistemas de análise de dados automatizada.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…