Google AI Blog→ original

Google adicionou os modos Flex e Priority à API Gemini para equilibrar preço e confiabilidade

Google adicionou dois novos modos à API Gemini: Flex e Priority. Flex é projetado para tarefas em segundo plano e promete até 50% de economia em relação à…

Processado por IA de Google AI Blog; editado por Hamidun News
Google adicionou os modos Flex e Priority à API Gemini para equilibrar preço e confiabilidade
Fonte: Google AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Em 2 de abril de 2026, o Google adicionou dois novos níveis de serviço à API Gemini — Flex e Priority, permitindo que desenvolvedores gerenciem de forma mais precisa custo, latência e confiabilidade sem complicar a arquitetura. A ideia é que solicitações em background e críticas do usuário possam ser roteadas para diferentes níveis de serviço através da mesma interface síncrona, em vez de construir pipelines separados para API Standard e Batch API. A empresa descreve o problema em termos bastante práticos.

À medida que cenários de IA evoluem de chatbots simples para agentes e fluxos de trabalho compostos, as equipes normalmente enfrentam duas classes de carga de trabalho. A primeira é tarefas em background: enriquecimento massivo de dados, raciocínio prolongado do modelo, execuções de pesquisa, atualizações de CRM e outros processos onde segundos a mais não são críticos. A segunda são solicitações interativas: chats de usuários, copilots, moderação em tempo real, bots de suporte e outras funções onde resposta estável e latência previsível importam.

Anteriormente, essa divisão geralmente exigia combinar requisições síncronas regulares do lado do produto com Batch API para processamento barato em background. Isso proporcionava economia, mas adicionava overhead: você tinha que gerenciar tarefas assíncronas, arquivos de entrada e saída e sondar o status de execução. No Google, eles dizem que Flex e Priority fecham essa lacuna: ambas as opções funcionam através de endpoints síncronos padrão, e a alternância acontece via parâmetro service_tier na solicitação.

Flex é um novo modo econômico para tarefas que podem tolerar latência e prioridade de execução mais baixa. O Google promete economia de até 50% comparado à API Standard se o desenvolvedor estiver disposto a sacrificar alguma confiabilidade e velocidade de resposta pelo custo. O ponto-chave é que Flex não transforma o trabalho em um processo batch separado: ainda é uma solicitação síncrona com um padrão de integração familiar.

A empresa sugere usar esse modo para atualizações de CRM em background, simulações de pesquisa em larga escala e cenários de agentes onde o modelo pode "pensar" ou "revisar" informações em background. De acordo com o Google, Flex estará disponível em todos os planos pagos e é suportado em solicitações de GenerateContent e Interactions API. Priority, por outro lado, foi projetado para o tráfego mais sensível.

É um modo premium com nível máximo de garantia, destinado a ajudar aplicações a lidar com picos de carga sem deslocar solicitações críticas. O Google afirma diretamente que essas solicitações recebem o nível mais alto de criticidade, significando que há uma chance melhor de manter operação estável mesmo quando a plataforma está sobrecarregada. Outro detalhe importante é o mecanismo de degradação suave: se uma aplicação excede os limites de Priority, solicitações em excesso não falham com erro, mas são automaticamente tratadas em nível Standard.

Para produção, isso pode ser mais importante que o próprio SLA, pois reduz o risco de degradação completa da função durante picos de usuários. Ao mesmo tempo, o Google torna o modo Priority mais transparente do ponto de vista operacional e de faturamento. A resposta da API indicará qual nível exato de processamento manipulou a solicitação específica, para que a equipe possa analisar o comportamento do sistema, calcular custos e rastrear cenários reais de degradação.

Entre casos de uso típicos, a empresa nomeia bots de suporte em tempo real, pipelines de moderação ao vivo e qualquer solicitação sensível a latência. No lançamento, Priority estará disponível para projetos pagos nos níveis Tier 2 e Tier 3 em GenerateContent API e Interactions API. Para desenvolvedores, essa atualização importa não apenas por causa dos preços.

O Google está essencialmente tentando simplificar a escolha de engenharia entre "barato" e "confiável", sem forçar equipes de produto a construir dois modelos de integração diferentes. Se Flex realmente entregar os 50% de economia prometidos em tarefas em background sem migrar para arquitetura batch, isso poderia reduzir o custo de cenários de agentes e pipelines em massa. E se Priority manter consistentemente o tráfego crítico estável durante horários de pico, a API Gemini ganhará um argumento mais forte para produtos de consumidor onde interrupções impactam diretamente receita e experiência do usuário.

O principal aprendizado é simples: o Google está transformando a API Gemini de um único canal padrão em um sistema mais flexível de classes de serviço. Para equipes, isso significa a capacidade de dividir conscientemente carga de trabalho em background e crítica na mesma API, calcular melhor a economia de unidade e lidar mais facilmente com períodos de pico. Se a abordagem pegou, a competição entre plataformas de IA será cada vez mais travada não apenas em qualidade do modelo, mas em como o provedor consegue vender performance, confiabilidade e custo adequados a diferentes cenários de produtos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…