DSGym: framework para entrenar agentes de data science con 90+ tareas científicas

Q: ¿Cuál es la fuente?

Publicado originalmente en Together AI Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-05-21. Tiempo de lectura: 3 min.

Together AI publicó DSGym, un único framework para entrenar y evaluar agentes LLM que realizan tareas de data science. Integra más de 90 tareas bioinformáticas

Redacción de Hamidun News

Monitoreo de AI · Together AI Blog

2026-05-21· 2 min

Procesado por IA desde Together AI Blog; editado por Hamidun News

DSGym: framework para entrenar agentes de data science con 90+ tareas científicas — Fuente: Together AI Blog. Collage: Hamidun News.

◐ Escuchar artículo

Together AI publicó DSGym, un único framework para evaluar y entrenar agentes LLM que resuelven tareas de data science. Los benchmarks existentes se basan en interfaces incompatibles, y muchas tareas se pueden resolver sin análisis real de datos. DSGym resuelve este problema integrando 192 nuevas tareas de bioinformática y Kaggle en un único ecosistema con generación sintética de datos para entrenamiento.

Por qué los benchmarks existentes no funcionan

El enfoque actual para evaluar agentes de data science sufre de fragmentación. Diferentes benchmarks utilizan API incompatibles, formatos de datos y métricas de evaluación distintos, lo que dificulta la comparación justa e integración en un único sistema. Implementar soporte para cada benchmark nuevamente es costoso y requiere reescribir código. Además, muchas tareas en los benchmarks existentes se pueden resolver sin análisis de datos. Un agente puede simplemente adivinar el resultado, encontrar la respuesta en internet o aplicar una solución plantilla que no requiere entender el problema real.

Cómo está estructurado DSGym

DSGym resuelve este problema mediante una interfaz JSON unificada. Cada tarea se describe con cuatro componentes: conjunto de datos, texto de consulta, métrica de evaluación y metadatos. Esto permite agregar nuevas tareas, herramientas y estrategias de agentes sin rediseñar todo el framework. El código de los agentes se ejecuta en contenedores que se asignan en tiempo real con dependencias preinstaladas. Esta arquitectura garantiza seguridad (entorno aislado), reproducibilidad (estado siempre igual) e imparcialidad en la evaluación (el agente funciona en entorno de producción, no en desarrollo).

Qué tareas incluye DSGym

El framework se divide en dos categorías principales:

Data Analysis — búsqueda de respuestas a preguntas mediante análisis programático de datos estructurados
Data Prediction — desarrollo de pipelines end-to-end de ML para pronóstico y clasificación
DSBio — 90 tareas de bioinformática extraídas de artículos científicos publicados
DSPredict — 92 competencias de Kaggle, incluyendo series temporales, visión por computadora y modelado molecular
MLEBench y QRData — benchmarks clásicos integrados de trabajos anteriores

Los datos sintéticos para entrenamiento se generan mediante un pipeline especial. El sistema ejecuta consultas, registra las trayectorias completas de la solución y crea ejemplos en forma de (tarea, código, resultado). De los 3700 ejemplos generados automáticamente, los autores seleccionaron 2000 de alta calidad mediante filtrado basado en LLM.

Resultados: SOTA entre modelos abiertos

Entrenaron un modelo de 4 mil millones de parámetros en datos sintéticos, que alcanzó rendimiento de vanguardia entre LLM abiertos para data science. Esto demuestra que los datos sintéticos de calidad generados por el framework son suficientes para entrenar agentes competitivos sin usar conjuntos de datos cerrados.

Qué significa esto

DSGym convierte los agentes de data science de un tema de investigación a una herramienta práctica. Una plataforma unificada y un mecanismo de generación de datos sintéticos reducen la barrera de entrada: ahora cualquier equipo puede entrenar su propio agente sin millones de ejemplos. Para startups, laboratorios de investigación y equipos internos, esto abre la posibilidad de prototipar rápidamente y mejorar sistemas de análisis de datos automatizado.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita