Together AI Blog→ original

DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques

Together AI a publié DSGym — un framework unifié pour entraîner et évaluer des agents LLM qui exécutent des tâches de science des données. Il combine 90+ tâches

Traité par IA depuis Together AI Blog ; édité par Hamidun News
DSGym : un framework pour entraîner des agents de science des données avec 90+ tâches scientifiques
Source : Together AI Blog. Collage: Hamidun News.
◐ Écouter l'article

Together AI a publié DSGym — un framework unifié pour évaluer et entraîner des agents LLM qui résolvent des tâches de science des données. Les benchmarks existants reposent sur des interfaces incompatibles, et de nombreuses tâches peuvent être résolues sans véritable analyse des données. DSGym résout ce problème en intégrant 192 nouvelles tâches de bioinformatique et de Kaggle dans un seul écosystème avec génération synthétique de données pour l'entraînement.

Pourquoi les benchmarks existants ne fonctionnent pas

L'approche actuelle pour évaluer les agents de science des données souffre de fragmentation. Différents benchmarks utilisent des API, des formats de données et des métriques d'évaluation incompatibles, ce qui rend la comparaison équitable et l'intégration dans un seul système difficiles. Réimplémenter le support pour chaque benchmark est coûteux et nécessite de réécrire le code. De plus, de nombreuses tâches dans les benchmarks existants peuvent être résolues sans analyse de données. Un agent peut simplement deviner le résultat, trouver la réponse sur Internet ou appliquer une solution template qui ne nécessite pas de compréhension du problème réel.

Comment fonctionne DSGym

DSGym résout ce problème grâce à une interface JSON unifiée. Chaque tâche est décrite par quatre composants : un ensemble de données, un texte de requête, une métrique d'évaluation et des métadonnées. Cela permet d'ajouter de nouvelles tâches, outils et stratégies d'agents sans refonte du framework entier. Le code des agents s'exécute dans des conteneurs qui sont alloués en temps réel avec des dépendances préinstallées. Cette architecture garantit la sécurité (environnement isolé), la reproductibilité (état toujours identique) et l'équité de l'évaluation (l'agent fonctionne dans un environnement de production, pas dans un environnement de développement).

Quelles tâches sont incluses dans DSGym

Le framework est divisé en deux catégories principales :

  • Data Analysis — trouver des réponses à des questions par analyse programmatique de données structurées
  • Data Prediction — développer des pipelines ML end-to-end pour la prédiction et la classification
  • DSBio — 90 tâches de bioinformatique extraites d'articles scientifiques publiés
  • DSPredict — 92 compétitions Kaggle, incluant les séries chronologiques, la vision par ordinateur et la modélisation moléculaire
  • MLEBench et QRData — benchmarks classiques intégrés issus de travaux précédents

Les données synthétiques pour l'entraînement sont générées via un pipeline spécial. Le système exécute les requêtes, enregistre les trajectoires complètes de résolution et crée des exemples sous la forme (tâche, code, résultat). Parmi les 3700 exemples générés automatiquement, les auteurs en ont sélectionné 2000 de haute qualité grâce au filtrage par LLM.

Résultats : SOTA parmi les modèles ouverts

Un modèle de 4 milliards de paramètres a été entraîné sur des données synthétiques et a atteint une performance state-of-the-art parmi les LLM ouverts pour la science des données. Cela montre que les données synthétiques de haute qualité générées par le framework sont suffisantes pour entraîner des agents compétitifs sans utiliser de datasets propriétaires.

Qu'est-ce que cela signifie

DSGym transforme les agents de science des données d'un sujet de recherche en outil pratique. Une plate-forme unique et un mécanisme de génération de données synthétiques abaissent la barrière à l'entrée — maintenant, n'importe quel groupe peut entraîner son propre agent sans millions d'exemples. Pour les startups, les laboratoires de recherche et les équipes internes, cela ouvre la possibilité de prototyper rapidement et d'améliorer les systèmes d'analyse de données automatisée.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…