DSGym: фреймворк для тренировки data science агентов с 90+ научными задачами
Together AI опубликовала DSGym — единый фреймворк для обучения и оценки LLM-агентов, выполняющих data science задачи. Объединяет 90+ биоинформатических задач из

Together AI опубликовала DSGym — единый фреймворк для оценки и обучения LLM-агентов, которые решают задачи data science. Существующие бенчмарки базируются на несовместимых интерфейсах, а многие задачи можно решить без реального анализа данных. DSGym решает эту проблему, интегрируя 192 новых задачи из биоинформатики и Kaggle в одну экосистему с синтетической генерацией данных для тренировки.
Почему существующие бенчмарки не работают
Текущий подход к оценке data science агентов страдает от фрагментации. Разные бенчмарки используют несовместимые API, форматы данных и метрики оценки, что затрудняет справедливое сравнение и интеграцию в одну систему. Заново внедрять поддержку каждого бенчмарка дорого и требует переписывания кода. Кроме того, многие задачи в существующих бенчмарках можно решить без анализа данных. Агент может просто угадать результат, найти ответ в интернете или применить шаблонное решение, которое не требует понимания реальной проблемы.
Как устроен DSGym DSGym решает эту проблему через унифицированный JSON-интерфейс.
Каждая задача описывается четырьмя компонентами: набор данных, текст запроса, метрика оценки и метаданные. Это позволяет добавлять новые задачи, инструменты и стратегии агентов без переработки всего фреймворка. Код агентов выполняется в контейнерах, которые выделяются в реальном времени с предустановленными зависимостями. Такая архитектура гарантирует безопасность (изолированное окружение), воспроизводимость (всегда одинаковое состояние) и честность оценки (агент работает в боевом окружении, а не в dev-окружении).
Какие задачи входят в DSGym
Фреймворк разбит на две основные категории: Data Analysis — поиск ответов на вопросы через программный анализ структурированных данных Data Prediction — разработка end-to-end ML пайплайнов для прогнозирования и классификации DSBio — 90 задач из биоинформатики, извлечённых из опубликованных научных статей DSPredict — 92 Kaggle соревнования, включая временные ряды, computer vision и молекулярное моделирование * MLEBench и QRData — интегрированные классические бенчмарки из предыдущих работ Синтетические данные для тренировки генерируются через специальный пайплайн. Система выполняет запросы, записывает полные траектории решения и создаёт примеры в виде (задача, код, результат). Из 3700 автоматически сгенерированных примеров авторы отобрали 2000 высокого качества через LLM-фильтрацию.
Результаты: SOTA среди открытых моделей
На синтетических данных натренировали 4-миллиардную модель, которая достигла state-of-the-art производительности среди открытых LLM для data science. Это показывает, что качественные синтетические данные, генерированные фреймворком, достаточны для обучения конкурентоспособных агентов без использования закрытых датасетов.
Что это значит DSGym переводит data science агентов из
исследовательской темы в практический инструмент. Единая платформа и механизм генерации синтетических данных снижают барьер входа — теперь любая группа может натренировать собственного агента без миллионов примеров. Для стартапов, research-лабораторий и внутренних teams это открывает возможность быстро прототипировать и улучшать системы автоматизированного анализа данных.