Google adicionou os modos Flex e Priority à API Gemini para equilibrar preço e confiabilidade
Google adicionou dois novos modos à API Gemini: Flex e Priority. Flex é projetado para tarefas em segundo plano e promete até 50% de economia em relação à…
Processado por IA de Google AI Blog; editado por Hamidun News
Em 2 de abril de 2026, o Google adicionou dois novos níveis de serviço à API Gemini — Flex e Priority, permitindo que desenvolvedores gerenciem de forma mais precisa custo, latência e confiabilidade sem complicar a arquitetura. A ideia é que solicitações em background e críticas do usuário possam ser roteadas para diferentes níveis de serviço através da mesma interface síncrona, em vez de construir pipelines separados para API Standard e Batch API. A empresa descreve o problema em termos bastante práticos.
À medida que cenários de IA evoluem de chatbots simples para agentes e fluxos de trabalho compostos, as equipes normalmente enfrentam duas classes de carga de trabalho. A primeira é tarefas em background: enriquecimento massivo de dados, raciocínio prolongado do modelo, execuções de pesquisa, atualizações de CRM e outros processos onde segundos a mais não são críticos. A segunda são solicitações interativas: chats de usuários, copilots, moderação em tempo real, bots de suporte e outras funções onde resposta estável e latência previsível importam.
Anteriormente, essa divisão geralmente exigia combinar requisições síncronas regulares do lado do produto com Batch API para processamento barato em background. Isso proporcionava economia, mas adicionava overhead: você tinha que gerenciar tarefas assíncronas, arquivos de entrada e saída e sondar o status de execução. No Google, eles dizem que Flex e Priority fecham essa lacuna: ambas as opções funcionam através de endpoints síncronos padrão, e a alternância acontece via parâmetro service_tier na solicitação.
Flex é um novo modo econômico para tarefas que podem tolerar latência e prioridade de execução mais baixa. O Google promete economia de até 50% comparado à API Standard se o desenvolvedor estiver disposto a sacrificar alguma confiabilidade e velocidade de resposta pelo custo. O ponto-chave é que Flex não transforma o trabalho em um processo batch separado: ainda é uma solicitação síncrona com um padrão de integração familiar.
A empresa sugere usar esse modo para atualizações de CRM em background, simulações de pesquisa em larga escala e cenários de agentes onde o modelo pode "pensar" ou "revisar" informações em background. De acordo com o Google, Flex estará disponível em todos os planos pagos e é suportado em solicitações de GenerateContent e Interactions API. Priority, por outro lado, foi projetado para o tráfego mais sensível.
É um modo premium com nível máximo de garantia, destinado a ajudar aplicações a lidar com picos de carga sem deslocar solicitações críticas. O Google afirma diretamente que essas solicitações recebem o nível mais alto de criticidade, significando que há uma chance melhor de manter operação estável mesmo quando a plataforma está sobrecarregada. Outro detalhe importante é o mecanismo de degradação suave: se uma aplicação excede os limites de Priority, solicitações em excesso não falham com erro, mas são automaticamente tratadas em nível Standard.
Para produção, isso pode ser mais importante que o próprio SLA, pois reduz o risco de degradação completa da função durante picos de usuários. Ao mesmo tempo, o Google torna o modo Priority mais transparente do ponto de vista operacional e de faturamento. A resposta da API indicará qual nível exato de processamento manipulou a solicitação específica, para que a equipe possa analisar o comportamento do sistema, calcular custos e rastrear cenários reais de degradação.
Entre casos de uso típicos, a empresa nomeia bots de suporte em tempo real, pipelines de moderação ao vivo e qualquer solicitação sensível a latência. No lançamento, Priority estará disponível para projetos pagos nos níveis Tier 2 e Tier 3 em GenerateContent API e Interactions API. Para desenvolvedores, essa atualização importa não apenas por causa dos preços.
O Google está essencialmente tentando simplificar a escolha de engenharia entre "barato" e "confiável", sem forçar equipes de produto a construir dois modelos de integração diferentes. Se Flex realmente entregar os 50% de economia prometidos em tarefas em background sem migrar para arquitetura batch, isso poderia reduzir o custo de cenários de agentes e pipelines em massa. E se Priority manter consistentemente o tráfego crítico estável durante horários de pico, a API Gemini ganhará um argumento mais forte para produtos de consumidor onde interrupções impactam diretamente receita e experiência do usuário.
O principal aprendizado é simples: o Google está transformando a API Gemini de um único canal padrão em um sistema mais flexível de classes de serviço. Para equipes, isso significa a capacidade de dividir conscientemente carga de trabalho em background e crítica na mesma API, calcular melhor a economia de unidade e lidar mais facilmente com períodos de pico. Se a abordagem pegou, a competição entre plataformas de IA será cada vez mais travada não apenas em qualidade do modelo, mas em como o provedor consegue vender performance, confiabilidade e custo adequados a diferentes cenários de produtos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.