Kaggle sous Google DeepMind lance Benchmarks SDK pour comparer les grands modèles d'IA
Kaggle n'est plus seulement une plateforme de compétitions en science des données. En 2026, passant sous l'aile de Google DeepMind, la plateforme a lancé une…
Traité par IA depuis Habr AI ; édité par Hamidun News
Kaggle, une plateforme que des millions de spécialistes en science des données connaissent comme la principale arène des compétitions d'apprentissage automatique, change d'identité. Le slogan "Votre Maison pour la Science des Données" a cédé la place à "Le Terrain d'Essai de l'IA du Monde" — et ce n'est pas simplement un changement de marque marketing. En 2026, Kaggle est passé officiellement sous la gestion d'AI Frontier — une nouvelle division de Google DeepMind.
Le changement de gestionnaire signifie un changement dans l'orientation stratégique. Kaggle n'est plus simplement un lieu pour les compétitions de prédiction ou de classification d'images. Maintenant, la mission de la plateforme est l'évaluation systématique de grands modèles de langage et multimodaux dans des conditions standardisées.
La principale mise à jour technique — une nouvelle section Benchmarks sur le site web et un SDK Kaggle Benchmarks ouvert sur GitHub. C'est un cadre complet pour créer, gérer et exécuter des ensembles de tests. La mécanique est simple : un chercheur décrit un test — données d'entrée, résultat attendu, métrique de qualité — combine plusieurs tests en un groupe, et ce groupe devient un benchmark.
Le SDK prend en charge l'exécution des modèles dans des conditions égales et génère le résultat : journaux, JSON, tableaux de comparaison, classements. La flexibilité du système permet de mettre en œuvre presque n'importe quelle mécanique de test — de la précision classique aux tâches complexes multi-étapes avec évaluation du raisonnement. En même temps, les données et le code des benchmarks peuvent être conservés dans des ensembles de données privés, fermés à l'accès public.
Les entreprises peuvent créer des normes internes d'évaluation de modèles sans révéler aux concurrents la méthodologie et les cas de test. S'ils le souhaitent — ils rendront le benchmark public, et il devient un standard commun de la communauté. Pourquoi est-ce important en ce moment ?
Le problème de l'évaluation équitable des modèles d'IA est extrêmement aigu. Les benchmarks publics populaires — MMLU, HumanEval, GPQA et autres — sont régulièrement critiqués : les données de ceux-ci s'échappent dans les ensembles d'entraînement, et les modèles passent essentiellement un examen par antisèche plutôt que de démontrer de véritables capacités. Les grands laboratoires créent des tests internes fermés — mais les petites équipes et les groupes académiques n'ont pas cette infrastructure.
Le SDK Kaggle Benchmarks rend cet outillage accessible. Google DeepMind obtient des avantages évidents de la transformation de la plateforme. Kaggle avec sa communauté de plusieurs millions devient un lieu pour démontrer les capacités de ses propres modèles en comparaison avec les concurrents — dans des conditions perçues comme neutres.
La communauté a également des avantages clairs : auparavant, créer un benchmark reproductible et équitable nécessitait un travail d'ingénierie sérieux, maintenant c'est accessible via un SDK standard. La nostalgie pour l'ancien Kaggle est compréhensible. Les temps où une victoire bien réglée de XGBoost sur un réseau de neurones sur des données tabulaires était une sensation sont révolus.
La tâche de l'industrie s'est déplacée : de « qui prédit le plus précisément » — à « comment mesurer objectivement ce qu'un grand modèle fait ». Kaggle s'adapte à ce changement et, à en juger par l'ampleur des changements, entend devenir la norme de cette mesure.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.