Google lanza Gemini-SQL2: Gemini 3.1 Pro obtiene 80% en el benchmark BIRD
Google Research anunció Gemini-SQL2 — un sistema de conversión de texto a SQL basado en Gemini 3.1 Pro. En el benchmark BIRD en la categoría single-model, el…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Google Research ha presentado Gemini-SQL2 — un sistema para convertir consultas de texto en SQL basado en Gemini 3.1 Pro, que logró 80,04% de precisión de ejecución en el benchmark BIRD en la categoría single-model.
Qué es el Benchmark BIRD
BIRD (Big Bench for Large-scale Database Grounded Text-to-SQL) es una prueba académica estándar para evaluar sistemas que traducen preguntas en lenguaje natural a consultas SQL. A diferencia de conjuntos de datos anteriores como Spider, BIRD funciona con datos reales y "sucios": las tablas contienen errores tipográficos, formatos de fecha no estándar, valores NULL y abreviaturas sin explicaciones. Por eso, el benchmark se considera más representativo de tareas industriales.
La métrica de precisión de ejecución muestra en qué porcentaje de casos el SQL generado produjo la respuesta correcta cuando se ejecutó en una base de datos de prueba. Un resultado de 80,04% se encuentra entre las puntuaciones públicas más altas en la categoría single-model: sin métodos de ensemble que combinen múltiples modelos, canalizaciones especiales de post-procesamiento o agentes de verificación adicionales. Los líderes anteriores en esta categoría mantenían puntuaciones en el rango de 73–77%.
Cómo Funciona Gemini-SQL2
Según la descripción de Google Research, Gemini-SQL2 utiliza un enfoque schema-grounded. El modelo recibe la estructura completa de la base de datos — nombres de tablas, tipos de columnas, claves externas y ejemplos de valores — y construye SQL teniendo en cuenta la arquitectura real de la base de datos específica. Esto reduce errores típicos: nombres de campos alucinados, uniones incorrectas y agregación errónea. Esto es particularmente importante cuando se trabaja con bases de datos corporativas, donde los nombres de columnas a menudo representan abreviaturas poco obvias o códigos técnicos.
Los casos de uso típicos incluyen:
- análisis sin especialistas en SQL — un usuario empresarial hace una pregunta en lenguaje natural y recibe una consulta lista para usar
- interfaces de BI sobre almacenes de datos corporativos con entrada de voz o texto
- autocompletado y generación de consultas complejas para desarrolladores basado en una descripción de tarea en texto
- prototipado rápido de muestras para análisis exploratorio de datos
- creación automática de SQL para informes comerciales regulares
Para la implementación práctica, Google sugiere un patrón: primero pasar al modelo el esquema DDL y algunas filas de muestra de cada tabla, luego la pregunta del usuario. De esta manera, el modelo ve la estructura real de la base de datos y no genera una consulta a ciegas.
Lo que Google No Divulgó
La publicación contiene varias lagunas importantes. Google no publicó detalles de la arquitectura, la metodología de ajuste fino y la composición de los datos de entrenamiento. Sigue siendo incierto si Gemini-SQL2 es un modelo ajustado de forma independiente o una estrategia especial de prompting sobre el Gemini 3.1 Pro base. También es incierto si el sistema está disponible a través de la API en este momento o si esto es aún un resultado de experimento de investigación sin lanzamiento de producto inmediato. No hay información sobre el soporte para idiomas distintos del inglés y la compatibilidad con dialectos SQL que incluyen funciones de ventana y CTEs recursivas.
"80 por ciento en BIRD es un resultado serio, pero sin un informe
técnico es difícil entender si es reproducible para bases de datos corporativas arbitrarias" — una reacción típica de la comunidad de ML ante tales anuncios.
Qué Significa Esto
El umbral del 80% en BIRD es una señal de que text-to-SQL deja de ser una tarea académica y se convierte en una herramienta prácticamente aplicable para la mayoría de las consultas comerciales estándar. Las empresas que desean dar a los empleados no técnicos acceso directo a los datos tienen bases sólidas para proyectos piloto con análisis impulsado por LLM. Los próximos meses mostrarán si Google traducirá este resultado en un producto concreto — por ejemplo, una función integrada de BigQuery — y si los competidores seguirán con benchmarks públicos comparables.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.