Together AI a lancé les clusters GPU Instant Clusters autogérés sur NVIDIA H100 et B200
Together AI a lancé Instant Clusters — des clusters GPU autogérés pour l'entraînement et l'inférence des modèles. Ils prennent en charge NVIDIA H100 et B200, so
Traité par IA depuis Together AI Blog ; édité par Hamidun News
Together AI a officiellement lancé Instant Clusters — des clusters GPU autogérés qui se déploient en quelques minutes et sont prêts pour la production sans longues approbations ni configuration manuelle.
Qu'est-ce que c'est
Instant Clusters sont des clusters GPU basés sur NVIDIA H100 et B200, déployés via une API comme des services cloud. Vous créez un cluster via la console web, la CLI ou de manière programmatique, et en quelques minutes il est prêt à accepter les charges de travail. L'architecture permet de commencer avec une configuration compacte — 8 GPU sur un seul nœud — et de mettre à l'échelle jusqu'à des centaines de GPU dans une configuration réseau distribuée sans modifier le code de l'application.
Les clusters offrent une flexibilité dans le choix de l'orchestration : ils prennent en charge Kubernetes pour les workloads conteneurisés et Slurm pour le HPC traditionnel. Vous pouvez fixer les versions du pilote NVIDIA et de CUDA pour chaque cluster, garantissant la reproductibilité entre les exécutions et les expériences. L'intégration avec les outils d'infrastructure en tant que code (Terraform, SkyPilot) rend le déploiement partie intégrante du pipeline CI/CD.
La pile complète est incluse
Habituellement, construire un cluster GPU nécessite des jours de travail d'ingénierie : installation de pilotes sur chaque nœud, configuration des fabrics réseau, configuration des certificats HTTPS, organisation du stockage et gestion des ressources. Instant Clusters résout ce problème : tous les composants critiques sont déjà intégrés dans l'image et prêts à être exécutés. Ce qui est inclus dans la boîte :
- GPU Operator — installation automatique et gestion des pilotes NVIDIA, incluant le runtime pour CUDA et les conteneurs
- Ingress Controller — routage du trafic entrant dans le cluster, support de l'équilibrage et du basculement
- NVIDIA Network Operator — gestion des réseaux haute vitesse (NVIDIA Quantum InfiniBand et Spectrum-X Ethernet avec RoCE)
- Cert Manager — création et rotation automatiques des certificats TLS pour les points de terminaison HTTPS
- Stockage — stockage parallèle haute performance situé près des nœuds de calcul pour un accès rapide
Résultat : le cluster est prêt pour la production dès la sortie de la boîte, sans des semaines de configuration après le déploiement.
Optimisé pour l'entraînement à grande échelle
Les clusters sont conçus pour l'entraînement distribué des modèles. Entre les nœuds, NVIDIA Quantum-2 InfiniBand est utilisé avec une garantie de faible latence et de haut débit. À l'intérieur de chaque nœud, les GPU sont connectés via NVLink et NVLink Switch, garantissant une communication ultra-rapide. Cette architecture est critique pour l'apprentissage par renforcement, le pré-entraînement de grands modèles et les horaires d'entraînement multi-phases.
Exemple concret : la société Latent Health entraîne des modèles qui raisonnent comme des cliniciens, en analysant des données cliniques multimodales. Les modèles doivent prendre en compte des préférences complexes (par exemple, comment résoudre les diagnostics conflictuels) et les exigences de différents assureurs. Avec Instant Clusters, ils peuvent exécuter l'apprentissage par renforcement à grande échelle sur des ensembles de données cliniques complets, expérimenter rapidement, puis distiller les résultats dans de petits modèles efficaces qui surpassent souvent des foundation models beaucoup plus grands.
«
Avec Instant Clusters, nous pouvons commencer une expérience à grande échelle en quelques heures au lieu de semaines de préparation d'infrastructure ».
Ce que cela signifie
L'infrastructure GPU ressemble pour la première fois à un cloud moderne : API-first, autogérée, mise à l'échelle prévisible. Auparavant, les clusters GPU étaient assemblés manuellement, lentement et complexement. Maintenant, c'est un service cloud géré. Pour les startups, cela signifie un chemin rapide vers l'inférence initiale sans coûts d'ingénierie d'infrastructure. Pour les entreprises — une réaction rapide à la demande : une augmentation inattendue du trafic d'inférence ou un nouveau projet de recherche ne nécessite qu'un appel API, pas de longs achats.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.