Meta a présenté Autodata — un système à agents pour créer des données d'entraînement de haute qualité
Meta a annoncé Autodata — un système dans lequel les LLM agissent comme des data scientists autonomes et, de manière itérative, créent, valident et affinent…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Meta le 1er mai a présenté Autodata — un framework dans lequel les agences LLM collectent, vérifient et affinent elles-mêmes les ensembles de données d'entraînement. L'idée est de transformer un modèle d'un simple générateur de données synthétiques en un data scientist autonome qui améliore itérativement la qualité des exemples.
Pourquoi Autodata est nécessaire
Les données synthétiques sont depuis longtemps l'un des principaux moyens d'accélérer l'entraînement des modèles : elles sont moins chères que l'annotation manuelle, aident à couvrir les scénarios rares et permettent de générer des tâches plus complexes que celles facilement trouvées dans les corpus ouverts. Mais la plupart des approches populaires — de Self-Instruct aux variantes grounded- et CoT — ont une limitation commune : elles créent les données en une seule passe, et la qualité est contrôlée après la génération par filtrage ou affinage manuel.
Autodata change la logique du processus lui-même. Au lieu de générer des exemples une fois et d'espérer en trouver de bons parmi eux, Meta propose une boucle fermée similaire au fonctionnement d'un data scientist vivant. L'agent s'appuie sur des documents sources, crée des tâches, analyse où elles sont trop faciles, trop bruyantes ou insuffisamment utiles, puis réécrit sa propre formule de génération et réessaie. Essentiellement, le compute d'inférence supplémentaire va non seulement dans les réponses du modèle, mais aussi dans l'amélioration des données sur lesquelles il apprend ensuite.
Comment fonctionne le cycle
La première implémentation pratique du framework s'appelle Agentic Self-Instruct. En elle, un LLM central agit comme un orchestrateur et gère plusieurs agents spécialisés, chacun responsable d'une étape séparée de vérification de la qualité. Ce pipeline est nécessaire pour que l'ensemble de données contienne non seulement des exemples corrects, mais précisément ceux où un modèle fort montre constamment de meilleurs résultats qu'un modèle faible.
L'agent utilise des matériaux source comme des articles scientifiques, du code ou d'autres documents de domaine comme base.
- Challenger crée une nouvelle question, un contexte, une réponse de référence et une rubrique d'évaluation basée sur le document source.
- Weak solver tente de résoudre la tâche en mode limité et doit échouer notablement plus souvent.
- Strong solver résout la même tâche avec une configuration plus forte et doit franchir le seuil de qualité.
- Verifier/Judge vérifie l'exemple lui-même et évalue ensuite les réponses des deux modèles selon des critères prédéfinis.
Si la question s'avère trop facile, le modèle faible marque trop de points et l'exemple est rejeté. Si elle est trop difficile, le modèle fort échoue aussi et l'agent doit trouver un angle d'attaque différent. Pour l'acceptation d'exemples, Meta utilise des seuils spécifiques : le résultat moyen du weak solver doit être au maximum 65%, celui du strong solver — au moins 60% et au maximum 95%, et l'écart entre eux — au moins 20 points de pourcentage.
Un document nécessite généralement plusieurs rounds d'un tel affinement.
"La création agentique de données permet de convertir le compute
d'inférence supplémentaire en entraînement de modèle de qualité supérieure".
Ce que les tests ont montré
Meta a testé Agentic Self-Instruct sur des tâches de recherche en informatique. Le système a traité plus de 10 000 articles du corpus S2ORC à partir de 2022 et a finalement collecté 2117 paires question-réponse qui ont passé tous les filtres de qualité.
Le résultat clé — non seulement une augmentation de la quantité de données, mais une augmentation de leur pouvoir discriminatif. Dans Self-Instruct CoT régulier, les modèles faible et fort affichaient des résultats presque identiques : 71,4% vs. 73,3%, un écart de seulement 1,9 points de pourcentage. En mode agentique, le weak solver est tombé à 43,7%, et le strong solver est monté à 77,8%, élargissant l'écart à 34 points de pourcentage.
Meta a ensuite optimisé non pas les questions elles-mêmes, mais le « comportement » de l'agent data scientist. Dans une boucle externe, un optimiseur évolutif a exécuté de nouvelles versions du référentiel de prompts et de la logique d'évaluation, ne conservant que celles qui amélioraient les résultats de validation. Au total, 233 itérations ont été exécutées, avec 126 acceptées, et la part des exécutions réussies a augmenté de 12,8% à 42,4%.
Parmi les améliorations découvertes automatiquement figuraient une vérification plus stricte de la pertinence de la question pour un article spécifique, une protection contre les fuites de solution dans le contexte, un rejet des poids négatifs dans les rubriques et une traduction des critères en format JSON strict.
Et cela change déjà l'économie du post-entraînement.
Ce que cela signifie
Autodata montre que la couche suivante de concurrence en IA pourrait se déplacer de « qui a entraîné le plus grand modèle » à « qui a construit le meilleur pipeline de données ». Pour les équipes appliquées, c'est particulièrement important : au lieu d'une annotation manuelle sans fin, vous pouvez investir du compute dans un agent qui sélectionne lui-même les exemples difficiles, précis et véritablement utiles pour le fine-tuning et l'évaluation des modèles.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.