Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200

Q: Quelle est la source ?

Publication originale sur Together AI Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2026-05-21. Temps de lecture : 3 min.

Together AI a lancé Instant Clusters — des clusters GPU autogérés pour l'entraînement et l'inférence des modèles. Ils prennent en charge NVIDIA H100 et B200, so

Rédaction de Hamidun News

Veille IA · Together AI Blog

2026-05-21· 3 min

Traité par IA depuis Together AI Blog ; édité par Hamidun News

Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200 — Source : Together AI Blog. Collage: Hamidun News.

◐ Écouter l'article

Together AI a officiellement lancé Instant Clusters — des clusters GPU autogérés qui se déploient en quelques minutes et sont prêts pour la production sans longues approbations ni configuration manuelle.

Qu'est-ce que c'est

Instant Clusters sont des clusters GPU basés sur NVIDIA H100 et B200, déployés via une API comme des services cloud. Vous créez un cluster via la console web, la CLI ou de manière programmatique, et en quelques minutes il est prêt à accepter les charges de travail. L'architecture permet de commencer avec une configuration compacte — 8 GPU sur un seul nœud — et de mettre à l'échelle jusqu'à des centaines de GPU dans une configuration réseau distribuée sans modifier le code de l'application.

Les clusters offrent une flexibilité dans le choix de l'orchestration : ils prennent en charge Kubernetes pour les workloads conteneurisés et Slurm pour le HPC traditionnel. Vous pouvez fixer les versions du pilote NVIDIA et de CUDA pour chaque cluster, garantissant la reproductibilité entre les exécutions et les expériences. L'intégration avec les outils d'infrastructure en tant que code (Terraform, SkyPilot) rend le déploiement partie intégrante du pipeline CI/CD.

La pile complète est incluse

Habituellement, construire un cluster GPU nécessite des jours de travail d'ingénierie : installation de pilotes sur chaque nœud, configuration des fabrics réseau, configuration des certificats HTTPS, organisation du stockage et gestion des ressources. Instant Clusters résout ce problème : tous les composants critiques sont déjà intégrés dans l'image et prêts à être exécutés. Ce qui est inclus dans la boîte :

GPU Operator — installation automatique et gestion des pilotes NVIDIA, incluant le runtime pour CUDA et les conteneurs
Ingress Controller — routage du trafic entrant dans le cluster, support de l'équilibrage et du basculement
NVIDIA Network Operator — gestion des réseaux haute vitesse (NVIDIA Quantum InfiniBand et Spectrum-X Ethernet avec RoCE)
Cert Manager — création et rotation automatiques des certificats TLS pour les points de terminaison HTTPS
Stockage — stockage parallèle haute performance situé près des nœuds de calcul pour un accès rapide

Résultat : le cluster est prêt pour la production dès la sortie de la boîte, sans des semaines de configuration après le déploiement.

Optimisé pour l'entraînement à grande échelle

Les clusters sont conçus pour l'entraînement distribué des modèles. Entre les nœuds, NVIDIA Quantum-2 InfiniBand est utilisé avec une garantie de faible latence et de haut débit. À l'intérieur de chaque nœud, les GPU sont connectés via NVLink et NVLink Switch, garantissant une communication ultra-rapide. Cette architecture est critique pour l'apprentissage par renforcement, le pré-entraînement de grands modèles et les horaires d'entraînement multi-phases.

Exemple concret : la société Latent Health entraîne des modèles qui raisonnent comme des cliniciens, en analysant des données cliniques multimodales. Les modèles doivent prendre en compte des préférences complexes (par exemple, comment résoudre les diagnostics conflictuels) et les exigences de différents assureurs. Avec Instant Clusters, ils peuvent exécuter l'apprentissage par renforcement à grande échelle sur des ensembles de données cliniques complets, expérimenter rapidement, puis distiller les résultats dans de petits modèles efficaces qui surpassent souvent des foundation models beaucoup plus grands.

«

Avec Instant Clusters, nous pouvons commencer une expérience à grande échelle en quelques heures au lieu de semaines de préparation d'infrastructure ».

Ce que cela signifie

L'infrastructure GPU ressemble pour la première fois à un cloud moderne : API-first, autogérée, mise à l'échelle prévisible. Auparavant, les clusters GPU étaient assemblés manuellement, lentement et complexement. Maintenant, c'est un service cloud géré. Pour les startups, cela signifie un chemin rapide vers l'inférence initiale sans coûts d'ingénierie d'infrastructure. Pour les entreprises — une réaction rapide à la demande : une augmentation inattendue du trafic d'inférence ou un nouveau projet de recherche ne nécessite qu'un appel API, pas de longs achats.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite