Google a ajouté les modes Flex et Priority à l'API Gemini pour équilibrer prix et fiabilité

Q: Quelle est la source ?

Publication originale sur Google AI Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

28 avr. 2026. Temps de lecture : 3 min.

Google a ajouté deux nouveaux modes à l'API Gemini : Flex et Priority. Flex est conçu pour les tâches de fond et promet jusqu'à 50% d'économies par rapport à…

Rédaction de Hamidun News

Veille IA · Google AI Blog

28 avr. 2026· 3 min

Traité par IA depuis Google AI Blog ; édité par Hamidun News

Google a ajouté les modes Flex et Priority à l'API Gemini pour équilibrer prix et fiabilité — Source : Google AI Blog. Collage: Hamidun News.

◐ Écouter l'article

Le 2 avril 2026, Google a ajouté deux nouveaux niveaux de service à l'API Gemini — Flex et Priority, permettant aux développeurs de gérer plus précisément le coût, la latence et la fiabilité sans compliquer l'architecture. L'idée est que les demandes de fond et critiques des utilisateurs puissent désormais être acheminées vers différents niveaux de service via la même interface synchrone, plutôt que de construire des pipelines séparés pour Standard API et Batch API. L'entreprise décrit le problème en termes assez pratiques.

À mesure que les scénarios d'IA évoluent de simples chatbots vers des agents et des workflows composés, les équipes font généralement face à deux classes de charge de travail. La première est les tâches de fond : enrichissement massif de données, raisonnement prolongé du modèle, exécutions de recherche, mises à jour de CRM et autres processus où les secondes supplémentaires ne sont pas critiques. La seconde concerne les demandes interactives : chats utilisateur, copilots, modération en temps réel, bots d'assistance et autres fonctions où une réponse stable et une latence prévisible sont importantes.

Auparavant, cette division nécessitait souvent de combiner des demandes synchrones régulières du côté du produit avec Batch API pour un traitement économique de fond. Cela procurait des économies, mais ajoutait des frais généraux : il fallait gérer des tâches asynchrones, des fichiers d'entrée et de sortie, et interroger l'état de l'exécution. Selon Google, Flex et Priority comblent cette lacune : les deux options fonctionnent via des points de terminaison synchrones standard, et la commutation se fait via le paramètre service_tier dans la demande.

Flex est un nouveau mode économique pour les tâches qui peuvent tolérer la latence et une priorité d'exécution plus faible. Google promet des économies allant jusqu'à 50 % par rapport à l'API Standard si le développeur est prêt à sacrifier une partie de la fiabilité et de la vitesse de réponse pour réduire les coûts. L'élément clé est que Flex ne transforme pas le travail en un processus batch séparé : c'est toujours une demande synchrone avec un schéma d'intégration familier.

L'entreprise suggère d'utiliser ce mode pour les mises à jour de CRM de fond, les simulations de recherche à grande échelle et les scénarios d'agents où le modèle peut « réfléchir » ou « examiner » des informations en arrière-plan. Selon Google, Flex sera disponible sur tous les plans payants et est pris en charge dans les demandes GenerateContent et Interactions API. Priority, en revanche, est conçu pour le trafic le plus sensible.

C'est un mode premium avec le niveau de garantie maximal, destiné à aider les applications à gérer les pics de charge sans déplacer les demandes critiques. Google déclare directement que ces demandes reçoivent le plus haut niveau de criticité, ce qui signifie qu'il y a une meilleure chance de maintenir une opération stable même lorsque la plateforme est surchargée. Un autre détail important est le mécanisme de dégradation douce : si une application dépasse les limites de Priority, les demandes excédentaires ne échouent pas avec une erreur mais sont automatiquement traitées au niveau Standard.

Pour la production, cela peut être plus important que le SLA lui-même, car cela réduit le risque d'une dégradation complète de la fonction lors d'une vague d'utilisateurs. Dans le même temps, Google rend le mode Priority plus transparent du point de vue opérationnel et de facturation. La réponse de l'API indiquera quel niveau exact de traitement a traité la demande spécifique, afin que l'équipe puisse analyser le comportement du système, calculer les coûts et suivre les scénarios de dégradation réels.

Parmi les cas d'usage typiques, l'entreprise cite les bots d'assistance en temps réel, les pipelines de modération en direct et toute demande sensible à la latence. Au lancement, Priority sera disponible pour les projets payants aux niveaux Tier 2 et Tier 3 dans GenerateContent API et Interactions API. Pour les développeurs, cette mise à jour est importante non seulement pour les prix.

Google essaie essentiellement de simplifier le choix d'ingénierie entre « bon marché » et « fiable », sans obliger les équipes produit à construire deux modèles d'intégration différents. Si Flex livre réellement les 50 % d'économies promis sur les tâches de fond sans passer à une architecture batch, cela pourrait réduire le coût des scénarios d'agents et des pipelines massifs. Et si Priority maintient constamment le trafic critique stable pendant les heures de pointe, l'API Gemini disposera d'un argument plus fort pour les produits grand public où les pannes impactent directement les revenus et l'expérience utilisateur.

La conclusion principale est simple : Google transforme l'API Gemini d'un canal standard unique en un système plus flexible de classes de service. Pour les équipes, cela signifie la capacité de diviser consciemment la charge critique et de fond sur la même API, de mieux calculer l'économie unitaire et de gérer plus facilement les périodes de pointe. Si cette approche fonctionne, la concurrence entre les plateformes d'IA sera de plus en plus basée non seulement sur la qualité du modèle, mais sur la finesse avec laquelle le fournisseur sait vendre les performances, la fiabilité et le coût adaptés à différents scénarios de produits.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite