Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200

Q: Источник материала?

Оригинальная публикация на Together AI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

Together AI запустила Instant Clusters — самообслуживаемые GPU-кластеры для обучения и вывода моделей. Поддерживают NVIDIA H100 и B200, готовы к работе за минут

ЖХ

Редакция Hamidun News

AI‑мониторинг · Together AI Blog

2026-05-21· 3 мин

Together AI запустила самообслуживаемые GPU-кластеры Instant Clusters на NVIDIA H100 и B200 — Источник: Together AI Blog. Коллаж: Hamidun News.

◐ Слушать статью

Together AI официально запустила Instant Clusters — самообслуживаемые GPU-кластеры, которые развёртываются за минуты и готовы к production без долгих согласований и ручной настройки.

Что это такое

Instant Clusters — это GPU-кластеры на базе NVIDIA H100 и B200, развёртываемые через API как облачные сервисы. Вы создаёте кластер через веб-консоль, CLI или программно, и за несколько минут он готов принимать рабочие нагрузки. Архитектура позволяет начать с компактной конфигурации — 8 GPU на одном узле — и масштабировать до сотен GPU в распределённой сетевой конфигурации без изменения кода приложения. Кластеры гибкие в выборе оркестрации: поддерживают Kubernetes для контейнеризованных workload'ов и Slurm для традиционного HPC. Вы можете зафиксировать версии NVIDIA Driver и CUDA для каждого кластера, обеспечивая воспроизводимость между запусками и экспериментами. Интеграция с инструментами инфраструктуры как кода (Terraform, SkyPilot) делает развёртывание частью CI/CD pipeline.

Полный стек включён

Обычно сборка GPU-кластера требует дней инженерной работы: установка драйверов на каждый узел, конфигурация сетевых fabric'ов, настройка HTTPS сертификатов, организация хранилища и управления ресурсами. Instant Clusters решают эту проблему: все критические компоненты уже встроены в образ и готовы к запуску. Что входит в коробку: GPU Operator — автоматическая установка и управление NVIDIA драйверами, куда входит runtime для CUDA и контейнеров Ingress Controller — маршрутизация входящего трафика в кластер, поддержка балансировки и failover NVIDIA Network Operator — управление высокоскоростными сетями (NVIDIA Quantum InfiniBand и Spectrum-X Ethernet с RoCE) Cert Manager — автоматическое создание и ротация TLS сертификатов для HTTPS endpoints * Хранилище — высокопроизводительное параллельное хранилище расположенное рядом с вычислительными узлами для быстрого доступа Результат: кластер готов к production из коробки, без недель настройки после развёртывания.

Оптимизировано для масштабного обучения

Кластеры спроектированы для распределённого обучения моделей. Между узлами используется NVIDIA Quantum-2 InfiniBand с гарантией низкой задержки и высокой пропускной способности. Внутри каждого узла GPU соединены через NVLink и NVLink Switch, обеспечивая ультра-быструю коммуникацию. Такая архитектура критична для reinforcement learning, pre-training крупных моделей и многофазных тренировочных графиков. Конкретный пример: компания Latent Health обучает модели, которые рассуждают как клиницисты, анализируя мультимодальные клинические данные. Модели должны учитывать сложные предпочтения (например, как разрешить конфликтующие диагнозы) и требования различных страховщиков. С Instant Clusters они могут запускать масштабный reinforcement learning на полных наборах клинических данных, быстро экспериментировать и затем дистиллировать результаты в маленькие, эффективные модели, которые часто превосходят гораздо более крупные foundation models.

«С

Instant Clusters мы можем начать полномасштабный эксперимент за часы вместо недель подготовки инфраструктуры».

Что это означает GPU-инфраструктура впервые ощущается как современное

облако: API-first, самообслуживание, предсказуемое масштабирование. Раньше GPU-кластеры собирались вручную, долго и сложно. Теперь это управляемый облачный сервис. Для стартапов это значит быстрый путь к first inference без инженерных затрат на инфраструктуру. Для корпораций — быстрое реагирование на спрос: неожиданный рост inference traffic или новый research project требует только API call, а не долгих закупок.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com