MarkTechPost→ original

Google lance Gemini-SQL2 : Gemini 3.1 Pro obtient 80% au benchmark BIRD

Google Research a annoncé Gemini-SQL2 — un système de conversion texte vers SQL basé sur Gemini 3.1 Pro. Sur le benchmark BIRD dans la catégorie…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google lance Gemini-SQL2 : Gemini 3.1 Pro obtient 80% au benchmark BIRD
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Google Research a présenté Gemini-SQL2 — un système de conversion de requêtes textuelles en SQL basé sur Gemini 3.1 Pro, qui a obtenu 80,04% de précision d'exécution sur le benchmark BIRD dans la catégorie single-model.

Qu'est-ce que le Benchmark BIRD

BIRD (Big Bench for Large-scale Database Grounded Text-to-SQL) est un test académique standard pour évaluer les systèmes qui traduisent des questions en langage naturel en requêtes SQL. Contrairement aux ensembles de données antérieurs comme Spider, BIRD fonctionne avec des données réelles et « sales » : les tables contiennent des fautes de frappe, des formats de date non standard, des valeurs NULL et des abréviations sans explications. C'est pourquoi le benchmark est considéré comme plus représentatif des tâches industrielles.

La métrique de précision d'exécution montre dans quel pourcentage de cas le SQL généré a produit la bonne réponse lors de l'exécution sur une base de données de test. Un résultat de 80,04% figure parmi les meilleures notes publiques de la catégorie single-model : sans méthodes d'ensemble combinant plusieurs modèles, pipelines de post-traitement spéciaux ou agents de vérification supplémentaires. Les leaders précédents dans cette catégorie maintenaient des scores dans la plage de 73–77%.

Comment Fonctionne Gemini-SQL2

Selon la description de Google Research, Gemini-SQL2 utilise une approche schema-grounded. Le modèle reçoit la structure complète de la base de données — noms de tables, types de colonnes, clés étrangères et exemples de valeurs — et construit du SQL en tenant compte de l'architecture réelle de la base de données spécifique. Cela réduit les erreurs typiques : noms de champs halluccinés, jointures incorrectes et agrégation erronée. Ceci est particulièrement important lorsque l'on travaille avec des bases de données d'entreprise, où les noms de colonnes représentent souvent des abréviations peu évidentes ou des codes techniques.

Les cas d'utilisation typiques incluent :

  • l'analyse sans spécialistes SQL — un utilisateur métier pose une question en langage naturel et reçoit une requête prête à l'emploi
  • les interfaces BI au-dessus des entrepôts de données d'entreprise avec entrée vocale ou textuelle
  • l'autocomplétion et la génération de requêtes complexes pour les développeurs basées sur une description de tâche en texte
  • le prototypage rapide d'échantillons pour l'analyse exploratoire de données
  • la création automatique de SQL pour les rapports commerciaux réguliers

Pour une implémentation pratique, Google suggère un motif : d'abord transmettre au modèle le schéma DDL et quelques lignes d'exemple de chaque table, puis la question de l'utilisateur. De cette façon, le modèle voit la structure réelle de la base de données et ne génère pas une requête à l'aveugle.

Ce que Google n'a pas Divulgué

La publication contient plusieurs lacunes importantes. Google n'a pas publié les détails de l'architecture, la méthodologie du fine-tuning et la composition des données d'entraînement. Il reste incertain si Gemini-SQL2 est un modèle indépendamment ajusté ou une stratégie de prompting spéciale sur le Gemini 3.1 Pro de base. Il est également incertain si le système est disponible via l'API en ce moment ou s'il s'agit toujours d'un résultat d'expérience de recherche sans lancement de produit immédiat. Il n'y a pas d'informations sur le support des langues autres que l'anglais et la compatibilité avec les dialectes SQL incluant les fonctions de fenêtre et les CTE récursifs.

« 80 pour cent sur BIRD est un résultat sérieux, mais sans un rapport

technique il est difficile de comprendre s'il est reproductible pour des bases de données d'entreprise arbitraires » — une réaction typique de la communauté ML face à ces annonces.

Ce que Cela Signifie

Le seuil de 80% sur BIRD est un signal que text-to-SQL cesse d'être une tâche académique et devient un outil pratiquement applicable pour la plupart des requêtes commerciales standard. Les entreprises qui souhaitent donner aux employés non techniques un accès direct aux données ont des bases solides pour des pilotes avec des analyses alimentées par LLM. Les mois à venir montreront si Google traduira ce résultat en un produit concret — par exemple, une fonction BigQuery intégrée — et si les concurrents suivront avec des benchmarks publics comparables.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…