Hugging Face ajoute DeepInfra aux Inference Providers pour exécuter des modèles via une API unifiée

Q: Quelle est la source ?

Publication originale sur Hugging Face Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

Hugging Face a ajouté DeepInfra aux Inference Providers sur le Hub. Les modèles DeepSeek, Kimi et GLM peuvent désormais être exécutés directement à partir…

Rédaction de Hamidun News

Veille IA · Hugging Face Blog

30 avr. 2026· 3 min

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News

Hugging Face ajoute DeepInfra aux Inference Providers pour exécuter des modèles via une API unifiée — Source : Hugging Face Blog. Collage: Hamidun News.

◐ Écouter l'article

Hugging Face a ajouté DeepInfra à la liste des Inference Providers sur Hub. Désormais, les développeurs peuvent exécuter des modèles disponibles via DeepInfra directement à partir des pages de modèles, via les SDKs clients et le routeur unifié de Hugging Face sans intégration personnalisée séparée.

Ce qui a été lancé

La nouvelle intégration élargit l'écosystème d'inférence sans serveur au sein de Hugging Face. DeepInfra est devenu un fournisseur soutenu sur Hub, ce qui signifie que ses modèles peuvent être sélectionnés exactement là où les développeurs recherchent déjà des datasets, des fiches de modèles et des exemples de code prêts à l'exécution. Dans l'annonce elle-même, DeepInfra est décrit comme une plateforme d'inférence IA avec plus de 100 modèles et l'un des prix par token les plus bas du marché. Pour Hugging Face, c'est une autre étape vers un modèle où Hub fonctionne non seulement comme un catalogue, mais comme un point de lancement unifié pour les modèles.

Au lancement, l'intégration couvre les scénarios conversationnels et la génération de texte standard. Via DeepInfra sur Hugging Face, vous pouvez déjà accéder à des modèles populaires à poids ouvert comme DeepSeek V4, Kimi-K2.6 et GLM-5.1. En même temps, l'équipe a déjà esquissé l'étape suivante : à l'avenir, text-to-image, text-to-video, embeddings et d'autres types de tâches devraient apparaître via la même couche. En d'autres termes, il ne s'agit pas d'une intégration ponctuelle d'un ou deux LLMs, mais de la connexion d'un canal informatique plus large à l'infrastructure Hugging Face.

Comment cela fonctionne

Du point de vue de l'utilisateur, tout est intégré dans l'interface Hub familière. Dans les paramètres du compte, vous pouvez ajouter vos propres clés de fournisseur et définir l'ordre de préférence, et sur les pages de modèles de Hugging Face, il affiche les fournisseurs externes compatibles et génère des widgets et des exemples de code pour eux. Si aucune clé n'est spécifiée, les requêtes peuvent passer par Hugging Face lui-même. Si une clé est fournie, les appels sont envoyés directement à DeepInfra. Cela élimine la configuration manuelle inutile et rend le basculement entre les fournisseurs notablement plus facile.

Votre propre clé API DeepInfra pour les appels directs sans intermédiaire
Mode routé par HF, quand aucune clé de fournisseur séparée n'est nécessaire
Tri des fournisseurs par priorité utilisateur
La même approche dans l'interface Hub, Python SDK et JavaScript SDK
Intégration avec les harnesses d'agents populaires sans configuration supplémentaire

Pour le code, le schéma est aussi maximalement simple. DeepInfra est disponible via `huggingface_hub` pour Python et `@huggingface/inference` pour JavaScript, et les exemples dans l'annonce utilisent un client compatible OpenAI avec l'URL de base `https://router.huggingface.co/v1` et un token Hugging Face. Le modèle est spécifié au format `model:provider`, par exemple pour appeler DeepSeek via DeepInfra.

Il est souligné séparément que l'intégration fonctionne déjà dans un certain nombre de harnesses d'agents, les modèles peuvent donc être connectés non seulement dans le code brut, mais aussi dans les outils d'agents en haut de l'API commune.

Tarification et accès

Avec la facturation, Hugging Face a conservé deux scénarios clairs. Si un développeur utilise sa propre clé DeepInfra, le paiement se fait via DeepInfra selon ses tarifs. Si la requête est routée via Hugging Face Hub, les frais passent par le compte Hugging Face, mais sans surcharge supplémentaire de la plateforme : l'entreprise dit qu'elle répercute simplement le coût standard de l'API du fournisseur. Pour les équipes, c'est un détail important, car le routeur unifié ne devient pas une autre couche de tarification en plus de l'infrastructure existante.

Il y a aussi une façon claire de tester l'intégration sans dépenses importantes. Les utilisateurs du plan PRO reçoivent 2 dollars de crédits d'inférence par mois, qui peuvent être dépensés auprès de différents fournisseurs au sein de ce système. Les comptes gratuits ont aussi une petite limite d'inférence, bien que Hugging Face pousse directement les utilisateurs actifs à passer à PRO. Concrètement, cela abaisse la barrière d'entrée : vous pouvez rapidement comparer DeepInfra avec d'autres fournisseurs sur les mêmes modèles sans construire une configuration de test séparée ou configurer plusieurs SDKs différents.

Ce que cela signifie

Hugging Face transforme de plus en plus Hub en une couche d'orchestration au-dessus de plusieurs fournisseurs d'IA, et non simplement en une vitrine de modèles. Pour les développeurs, cela signifie moins d'intégration manuelle, des tests plus rapides des LLMs à poids ouvert et un chemin plus facile vers une architecture multi-fournisseur sans réécrire le code client.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite