DSGym: framework para entrenar agentes de data science con 90+ tareas científicas
Together AI publicó DSGym, un único framework para entrenar y evaluar agentes LLM que realizan tareas de data science. Integra más de 90 tareas bioinformáticas
Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI publicó DSGym, un único framework para evaluar y entrenar agentes LLM que resuelven tareas de data science. Los benchmarks existentes se basan en interfaces incompatibles, y muchas tareas se pueden resolver sin análisis real de datos. DSGym resuelve este problema integrando 192 nuevas tareas de bioinformática y Kaggle en un único ecosistema con generación sintética de datos para entrenamiento.
Por qué los benchmarks existentes no funcionan
El enfoque actual para evaluar agentes de data science sufre de fragmentación. Diferentes benchmarks utilizan API incompatibles, formatos de datos y métricas de evaluación distintos, lo que dificulta la comparación justa e integración en un único sistema. Implementar soporte para cada benchmark nuevamente es costoso y requiere reescribir código. Además, muchas tareas en los benchmarks existentes se pueden resolver sin análisis de datos. Un agente puede simplemente adivinar el resultado, encontrar la respuesta en internet o aplicar una solución plantilla que no requiere entender el problema real.
Cómo está estructurado DSGym
DSGym resuelve este problema mediante una interfaz JSON unificada. Cada tarea se describe con cuatro componentes: conjunto de datos, texto de consulta, métrica de evaluación y metadatos. Esto permite agregar nuevas tareas, herramientas y estrategias de agentes sin rediseñar todo el framework. El código de los agentes se ejecuta en contenedores que se asignan en tiempo real con dependencias preinstaladas. Esta arquitectura garantiza seguridad (entorno aislado), reproducibilidad (estado siempre igual) e imparcialidad en la evaluación (el agente funciona en entorno de producción, no en desarrollo).
Qué tareas incluye DSGym
El framework se divide en dos categorías principales:
- Data Analysis — búsqueda de respuestas a preguntas mediante análisis programático de datos estructurados
- Data Prediction — desarrollo de pipelines end-to-end de ML para pronóstico y clasificación
- DSBio — 90 tareas de bioinformática extraídas de artículos científicos publicados
- DSPredict — 92 competencias de Kaggle, incluyendo series temporales, visión por computadora y modelado molecular
- MLEBench y QRData — benchmarks clásicos integrados de trabajos anteriores
Los datos sintéticos para entrenamiento se generan mediante un pipeline especial. El sistema ejecuta consultas, registra las trayectorias completas de la solución y crea ejemplos en forma de (tarea, código, resultado). De los 3700 ejemplos generados automáticamente, los autores seleccionaron 2000 de alta calidad mediante filtrado basado en LLM.
Resultados: SOTA entre modelos abiertos
Entrenaron un modelo de 4 mil millones de parámetros en datos sintéticos, que alcanzó rendimiento de vanguardia entre LLM abiertos para data science. Esto demuestra que los datos sintéticos de calidad generados por el framework son suficientes para entrenar agentes competitivos sin usar conjuntos de datos cerrados.
Qué significa esto
DSGym convierte los agentes de data science de un tema de investigación a una herramienta práctica. Una plataforma unificada y un mecanismo de generación de datos sintéticos reducen la barrera de entrada: ahora cualquier equipo puede entrenar su propio agente sin millones de ejemplos. Para startups, laboratorios de investigación y equipos internos, esto abre la posibilidad de prototipar rápidamente y mejorar sistemas de análisis de datos automatizado.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.