AWS mostrou como reduzir o custo de text-to-SQL para empresas com Amazon Nova Micro e Bedrock
A AWS propôs uma receita prática de text-to-SQL para bases de dados corporativas: fazer ajuste fino do Amazon Nova Micro para o dialeto de SQL da empresa e…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS mostrou como obter text-to-SQL para bancos de dados internos sem custos altos de hospedagem permanente de modelos. A empresa ajustou a Amazon Nova Micro para dialetos SQL não padronizados e a implantou via Amazon Bedrock com preços de pagamento por solicitação.
Por que isso importa
Para cenários corporativos, um modelo padrão geralmente não é suficiente: ele escreve SQL padrão razoavelmente bem, mas começa a cometer erros quando uma empresa tem suas próprias convenções, funções raras, esquemas de tabelas especiais e regras específicas do domínio. É por isso que as consultas de texto do usuário precisam ser adaptadas ao dialeto específico e à estrutura do banco de dados, o que significa ajustar o modelo com seus próprios exemplos. Isso é especialmente notável em sistemas BI e chats analíticos internos, onde um erro de sintaxe quebra imediatamente o fluxo de trabalho inteiro.
O problema é que o ajuste fino geralmente vem com custos adicionais de infraestrutura. Se você mantiver um modelo personalizado em servidores dedicados, a empresa paga mesmo quando não há consultas. A AWS sugere uma abordagem diferente em sua análise: ajuste fino da Amazon Nova Micro via LoRA e execute-a no Amazon Bedrock no modo de inferência sob demanda, onde a cobrança é por token em vez de capacidade pré-reservada.
Duas abordagens AWS
A AWS descreve dois cenários para a mesma tarefa. O primeiro é o ajuste fino gerenciado dentro do Amazon Bedrock. É adequado para equipes que valorizam simplicidade, início rápido e mínima complexidade de infraestrutura ML.
Os dados são carregados em S3, um trabalho de ajuste fino é iniciado via console ou API, e a AWS gerencia o treinamento e a implantação subsequente da versão personalizada do Nova Micro. Essa abordagem é direcionada para equipes de aplicativos em vez de uma plataforma ML separada. O segundo caminho é o treinamento via Amazon SageMaker AI.
É mais complexo, mas oferece mais controle sobre a receita de treinamento: você pode ajustar o tamanho do lote, dropout, parâmetros do otimizador, janela de contexto, configurações de LoRA e estratégia de aquecimento da taxa de aprendizagem. No exemplo da AWS, eles usaram o conjunto de dados sql-create-context baseado em WikiSQL e Spider, convertendo pares pergunta-SQL para o formato bedrock-conversation-2024 para treinamento e validação. Isso vem com maior complexidade de configuração e trabalho mais explícito de infraestrutura.
- Bedrock — menos carga operacional e caminho mais rápido para um protótipo funcional
- SageMaker AI — mais controle sobre hiperparâmetros e integração MLOps
- Ambos os esquemas usam o mesmo pipeline de preparação de dados e depois são implantados em Bedrock
- A inferência final é executada em um modelo sem servidor com cobrança por token, sem hospedagem constante
Custo e latência
A AWS fornece números específicos. Para ajuste fino gerenciado do Bedrock, o custo de treinamento é calculado como $0,001 por 1.000 tokens por época: no exemplo com 2.
000 amostras, cinco épocas e aproximadamente 800 tokens por registro, ficou em torno de $8. Para a opção SageMaker, uma instância ml.g5.
48xlarge com custo de $16.288 por hora foi usada; o treinamento em um conjunto de dados de 20.000 linhas levou cerca de quatro horas e custou aproximadamente $65,15.
A tese principal do artigo não é o custo único de treinamento, mas o custo operacional. A AWS estimou uma carga de produção típica de 22.000 solicitações por mês, ou 100 usuários fazendo 10 solicitações por dia durante 22 dias úteis.
Com um tamanho médio de solicitação de 800 tokens de entrada e 60 tokens de saída, a inferência mensal para tal modelo personalizado de text-to-SQL ficou em $0,80. Isso é possível porque um Nova Micro personalizado no Bedrock é faturado igual ao modelo base, sem prêmio adicional para implantação sem servidor. Em termos de velocidade, há um compromisso, mas é moderado.
No início frio, o tempo médio para o primeiro token aumentou para 639 ms, o que é 34% mais alto que o modelo base. Na operação normal, o TTFT médio foi de 380 ms em 50 chamadas — apenas 7% pior que a linha de base. A latência completa de geração foi de cerca de 477 ms, com a velocidade de saída mantida em 183 tokens por segundo.
A AWS validou a qualidade não apenas por latência, mas através de LLM-as-a-Judge, comparando o SQL gerado com respostas de referência.
O que isso significa
Para equipes que desejam incorporar text-to-SQL em produtos de análise, ferramentas BI internas ou interfaces de chat para bancos de dados, o estudo de caso da AWS parece prático: você pode obter um gerador SQL personalizado sem custos constantes de infraestrutura dedicada. Se a velocidade de lançamento importa mais, o Bedrock é a escolha lógica; se você precisa de controle total sobre o treinamento, a combinação SageMaker AI parece mais forte.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.