AWS Machine Learning Blog→ оригинал

Amazon SageMaker + NVIDIA Blackwell: как настроить обучение моделей на P6-B200

AWS рассказала, как выжать максимум из NVIDIA Blackwell B200 при обучении LLM на Amazon SageMaker. Руководство охватывает подбор batch size и длины контекста…

AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News
Amazon SageMaker + NVIDIA Blackwell: как настроить обучение моделей на P6-B200
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

Amazon Web Services опубликовала подробное техническое руководство по оптимизации обучения больших языковых моделей на платформе SageMaker AI с использованием GPU-архитектуры NVIDIA Blackwell на новых инстансах P6-B200.

Почему

Blackwell требует новых подходов Архитектура NVIDIA Blackwell знаменует существенный шаг вперёд в возможностях GPU для обучения нейросетей. Процессоры серии B200 предлагают значительно увеличенный объём HBM3e-памяти по сравнению с предыдущим поколением Hopper, что открывает новые возможности для работы с большими batch size и длинными последовательностями — вплоть до 128K токенов без offloading на CPU. Однако расширенные аппаратные возможности требуют переосмысления конфигурации training job. Неправильный выбор параметров — формата точности, размера батча или стратегии checkpointing — способен существенно снизить эффективность использования дорогостоящего оборудования и свести к нулю преимущества нового железа перед предыдущим поколением. AWS структурировала накопленный опыт в виде практического фреймворка, ориентированного на конкретные сценарии.

Ключевые параметры настройки

Руководство охватывает пять главных категорий решений при запуске training job на SageMaker AI: Batch size и длина последовательности — как задействовать расширенную память Blackwell, увеличивая эффективный batch size без OOM-ошибок при работе с длинными контекстами Формат точности — выбор между FP8, BF16 и FP32 в зависимости от размера модели (1B–64B параметров) и требований к стабильности обучения Activation checkpointing — когда применять агрессивно, а когда ограничиться выборочным режимом для баланса между памятью и скоростью Распределённое обучение — конфигурация multi-node training через SageMaker Distributed Training с оптимальным sharding на инстансах P6-B200 * Мониторинг GPU — ключевые метрики для оценки utilization и throughput в ходе обучения Особое место занимает нативная поддержка FP8 в архитектуре Blackwell. Для моделей от 7B параметров и выше переход на FP8 способен дать значительный прирост throughput при минимальной деградации качества. Для небольших моделей, напротив, издержки на настройку формата нередко превышают выгоду — здесь BF16 остаётся предпочтительным выбором.

Стратегия по размеру модели AWS структурирует рекомендации вокруг

размерности модели — это логичная отправная точка для инженера, выбирающего конфигурацию обучения на P6-B200. Диапазоны охватывают три принципиально разных сценария. Для моделей до 7B параметров BF16 обеспечивает стабильное обучение с минимальными усилиями по настройке. Batch size можно увеличивать агрессивно, опираясь на расширенную память B200, а activation checkpointing применять лишь на самых ресурсоёмких слоях трансформера. В диапазоне 7B–30B параметров FP8 начинает давать заметные преимущества по скорости обучения. Здесь важно наращивать batch size постепенно, контролируя memory footprint, и применять gradient checkpointing системно. Для моделей от 30B до 64B параметров распределённое обучение становится обязательным, а правильный выбор стратегии sharding — ключевым фактором производительности и итоговой стоимости обучения.

«Расширенная память B200 позволяет работать с sequence length до 128K

токенов без offloading на CPU — это принципиально меняет подход к обучению long-context моделей», — из технического руководства AWS. Для крупнейших конфигураций рекомендуется отталкиваться от готовых шаблонов, а затем итерировать параметры на коротких training run — прежде чем запускать полноценный цикл, который может растянуться на дни.

Что это значит

Руководство AWS снижает операционный порог для ML-команд, переходящих на инстансы P6-B200: вместо поиска оптимальных параметров методом проб и ошибок инженеры получают чёткий фреймворк с конкретными рекомендациями для каждого диапазона размеров модели. Для компаний, рассматривающих SageMaker как платформу для обучения собственных LLM, это сокращает путь от первого запуска до продуктивной конфигурации.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…