Google lança Gemini-SQL2: Gemini 3.1 Pro atinge 80% no benchmark BIRD
O Google Research anunciou Gemini-SQL2 — um sistema de conversão de texto em SQL baseado em Gemini 3.1 Pro. No benchmark BIRD na categoria single-model, o…
Processado por IA de MarkTechPost; editado por Hamidun News
Google Research apresentou Gemini-SQL2 — um sistema para converter consultas em texto em SQL baseado em Gemini 3.1 Pro, que alcançou 80,04% de acurácia de execução no benchmark BIRD na categoria single-model.
O que é o Benchmark BIRD
BIRD (Big Bench for Large-scale Database Grounded Text-to-SQL) é um teste acadêmico padrão para avaliar sistemas que traduzem perguntas em linguagem natural em consultas SQL. Diferentemente de conjuntos de dados anteriores como Spider, BIRD funciona com dados reais e "sujos": tabelas contêm erros de digitação, formatos de data não padronizados, valores NULL e abreviaturas sem explicações. Por isso, o benchmark é considerado mais representativo de tarefas industriais.
A métrica de acurácia de execução mostra em qual percentual de casos o SQL gerado produziu a resposta correta quando executado em um banco de dados de teste. Um resultado de 80,04% está entre os maiores escores públicos na categoria single-model: sem métodos de ensemble combinando múltiplos modelos, pipelines especiais de pós-processamento ou agentes de verificação adicionais. Líderes anteriores nessa categoria mantinham escores na faixa de 73–77%.
Como Funciona Gemini-SQL2
De acordo com a descrição do Google Research, Gemini-SQL2 usa uma abordagem schema-grounded. O modelo recebe a estrutura completa do banco de dados — nomes de tabelas, tipos de colunas, chaves estrangeiras e exemplos de valores — e constrói SQL levando em conta a arquitetura real do banco de dados específico. Isso reduz erros típicos: nomes de campos alucinados, junções incorretas e agregação equivocada. Isso é particularmente importante ao trabalhar com bancos de dados corporativos, onde nomes de colunas muitas vezes representam abreviaturas não óbvias ou códigos técnicos.
Os casos de uso típicos incluem:
- análise sem especialistas em SQL — um usuário de negócios faz uma pergunta em linguagem natural e recebe uma consulta pronta para uso
- interfaces de BI sobre data warehouses corporativos com entrada de voz ou texto
- autocompletar e geração de consultas complexas para desenvolvedores com base em uma descrição de tarefa em texto
- prototipagem rápida de amostras para análise exploratória de dados
- criação automática de SQL para relatórios de negócios regulares
Para implementação prática, Google sugere um padrão: primeiro passe ao modelo o schema DDL e algumas linhas de amostra de cada tabela, depois a pergunta do usuário. Dessa forma, o modelo vê a estrutura real do banco de dados e não gera uma consulta às cegas.
O que Google Não Divulgou
A publicação contém várias lacunas importantes. Google não publicou detalhes da arquitetura, a metodologia de ajuste fino e a composição dos dados de treinamento. Permanece incerto se Gemini-SQL2 é um modelo independentemente ajustado ou uma estratégia especial de prompting sobre o Gemini 3.1 Pro base. Também é incerto se o sistema está disponível através da API agora ou se este é ainda um resultado de experimento de pesquisa sem lançamento de produto imediato. Não há informações sobre suporte para idiomas diferentes do inglês e compatibilidade com dialetos SQL que incluem funções de janela e CTEs recursivas.
"80 porcento no BIRD é um resultado sério, mas sem um relatório
técnico é difícil entender se é reproduzível para bancos de dados corporativos arbitrários" — uma reação típica da comunidade de ML para tais anúncios.
O que Isso Significa
O limiar de 80% no BIRD é um sinal de que text-to-SQL está deixando de ser uma tarefa acadêmica e se tornando uma ferramenta praticamente aplicável para a maioria das consultas comerciais padrão. Empresas que desejam dar aos funcionários não técnicos acesso direto aos dados têm bases sólidas para pilotos com análise com LLM. Os próximos meses mostrarão se Google traduzirá este resultado em um produto concreto — por exemplo, um recurso integrado do BigQuery — e se os concorrentes seguirão com benchmarks públicos comparáveis.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.