Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200

Q: Quelle est la source ?

Publication originale sur Together AI Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2026-05-21. Temps de lecture : 3 min.

Together AI запустила Instant Clusters — самообслуживаемые GPU-кластеры для обучения и вывода моделей. Поддерживают NVIDIA H100 и B200, готовы к работе за минут

Rédaction de Hamidun News

Veille IA · Together AI Blog

2026-05-21· 3 min

Traité par IA depuis Together AI Blog ; édité par Hamidun News

Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200 — Source : Together AI Blog. Collage: Hamidun News.

Together AI официально запустила Instant Clusters — самообслуживаемые GPU-кластеры, которые развёртываются за минуты и готовы к production без долгих согласований и ручной настройки.

Что это такое

Instant Clusters — это GPU-кластеры на базе NVIDIA H100 и B200, развёртываемые через API как облачные сервисы. Вы создаёте кластер через веб-консоль, CLI или программно, и за несколько минут он готов принимать рабочие нагрузки. Архитектура позволяет начать с компактной конфигурации — 8 GPU на одном узле — и масштабировать до сотен GPU в распределённой сетевой конфигурации без изменения кода приложения. Кластеры гибкие в выборе оркестрации: поддерживают Kubernetes для контейнеризованных workload'ов и Slurm для традиционного HPC. Вы можете зафиксировать версии NVIDIA Driver и CUDA для каждого кластера, обеспечивая воспроизводимость между запусками и экспериментами. Интеграция с инструментами инфраструктуры как кода (Terraform, SkyPilot) делает развёртывание частью CI/CD pipeline.

Полный стек включён

Обычно сборка GPU-кластера требует дней инженерной работы: установка драйверов на каждый узел, конфигурация сетевых fabric'ов, настройка HTTPS сертификатов, организация хранилища и управления ресурсами. Instant Clusters решают эту проблему: все критические компоненты уже встроены в образ и готовы к запуску. Что входит в коробку: GPU Operator — автоматическая установка и управление NVIDIA драйверами, куда входит runtime для CUDA и контейнеров Ingress Controller — маршрутизация входящего трафика в кластер, поддержка балансировки и failover NVIDIA Network Operator — управление высокоскоростными сетями (NVIDIA Quantum InfiniBand и Spectrum-X Ethernet с RoCE) Cert Manager — автоматическое создание и ротация TLS сертификатов для HTTPS endpoints * Хранилище — высокопроизводительное параллельное хранилище расположенное рядом с вычислительными узлами для быстрого доступа Результат: кластер готов к production из коробки, без недель настройки после развёртывания.

Оптимизировано для масштабного обучения

Кластеры спроектированы для распределённого обучения моделей. Между узлами используется NVIDIA Quantum-2 InfiniBand с гарантией низкой задержки и высокой пропускной способности. Внутри каждого узла GPU соединены через NVLink и NVLink Switch, обеспечивая ультра-быструю коммуникацию. Такая архитектура критична для reinforcement learning, pre-training крупных моделей и многофазных тренировочных графиков. Конкретный пример: компания Latent Health обучает модели, которые рассуждают как клиницисты, анализируя мультимодальные клинические данные. Модели должны учитывать сложные предпочтения (например, как разрешить конфликтующие диагнозы) и требования различных страховщиков. С Instant Clusters они могут запускать масштабный reinforcement learning на полных наборах клинических данных, быстро экспериментировать и затем дистиллировать результаты в маленькие, эффективные модели, которые часто превосходят гораздо более крупные foundation models.

«С

Instant Clusters мы можем начать полномасштабный эксперимент за часы вместо недель подготовки инфраструктуры».

Что это означает GPU-инфраструктура впервые ощущается как современное

облако: API-first, самообслуживание, предсказуемое масштабирование. Раньше GPU-кластеры собирались вручную, долго и сложно. Теперь это управляемый облачный сервис. Для стартапов это значит быстрый путь к first inference без инженерных затрат на инфраструктуру. Для корпораций — быстрое реагирование на спрос: неожиданный рост inference traffic или новый research project требует только API call, а не долгих закупок.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite