Together AI Blog→ оригинал

Together AI добилась 90% ускорения обучения на NVIDIA Blackwell

Together AI показала результаты на NVIDIA Blackwell: обучение Llama 70B ускорилось на 90% по сравнению с H100. 15,264 токена/сек против 8,080 — благодаря собств

Together AI добилась 90% ускорения обучения на NVIDIA Blackwell
Источник: Together AI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Together AI объявила о немедленном доступе к GPU-кластерам, ускоренным NVIDIA Blackwell, и представила собственный стек оптимизации, специально адаптированный для новой архитектуры нейросетевого железа.

Результаты: 90% ускорения против H100

На тестировании модели Llama с 70 миллиардами параметров команда Together AI достигла 15,264 токена в секунду на одном GPU. Это почти в два раза превосходит результат на предыдущем поколении NVIDIA HGX H100, которое при оптимизированной конфигурации обрабатывало 8,080 токенов в секунду. Результаты получены благодаря оптимизированной версии TorchTitan в сочетании с Together Kernel Collection — собственной коллекцией оптимизированных ядер компании. Для контекста: речь идет о BF16 precision (Brain Float 16 — компромисс между скоростью и точностью, который сейчас стандарт для обучения больших моделей). По информации компании, с дополнительными оптимизациями, которые ещё в разработке, скорость будет расти дальше.

Как это работает: оптимизация на уровне архитектуры

Ускорение стало возможным благодаря глубокой оптимизации под конкретную архитектуру GPU. Together AI разработала ряд компонентов, которые в полной мере используют возможности NVIDIA Blackwell: Пользовательские FP8-ядра, работающие с 5-поколением NVIDIA Tensor Cores (высокопроизводительные блоки вычислений) Attention-ядра, работающие в 1,8 раза быстрее FlashAttention-3 (текущий стандарт оптимизированного механизма внимания) Интеграция с открытой библиотекой ThunderKittens для полного использования выделенной памяти на кристалле Алгоритмы распределённого обучения, адаптированные к топологии сети Quantum-2 InfiniBand Три Дао, главный учёный Together AI и создатель FlashAttention, отметил: «Мы оптимизируем каждый уровень AI-стека, чтобы полностью использовать достижения архитектуры GPU. Особенно нам нравятся новые Tensor Cores и формат microscaling для ускорения инференса. Комбинация Together Kernel Collection с NVIDIA Blackwell переопределяет стандарты эффективного обучения и инференса в масштабе».

Программа тестирования и масштабирование В рамках эксклюзивной программы запуска

Together AI приглашает восьми пионерским AI-компаниям прямой доступ к выделенным HGX B200-нодам и возможность сотрудничества с инженерами NVIDIA и исследователями Together AI. Цель — совместно ускорять рабочие нагрузки и находить ещё оптимизации. Параллельно компания развертывает десятки тысяч HGX B200-серверов и полностоечные решения GB200 NVL72 с сетями NVIDIA Quantum-2 InfiniBand. Это включает объявленный ранее кластер из 36,000+ GPU для обучения моделей нового поколения и агентов.

Что это значит

Для AI-компаний результат — практический: обучение больших моделей станет дешевле и быстрее. При 90% приросте скорости модели, на которые раньше требовались недели, теперь обучаются за дни. Это существенно снижает капитальные затраты на вычисления и ускоряет цикл экспериментирования с новыми архитектурами. Для рынка в целом это сигнал: эпоха generic GPU-сервисов уходит. AI-компании, которые пишут собственные оптимизированные ядра под конкретную архитектуру (как Together AI с ThunderKittens), получают конкурентный край в скорости и стоимости. А это прямо влияет на цену обучения и, в итоге, на цену AI-сервисов для конечных пользователей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…