AWS Machine Learning Blog→ оригинал

AWS запустила резервирование GPU на часы — для ML-тестирования и подготовки к выпускам

AWS запустила EC2 Capacity Blocks for ML — резервирование GPU на часы вместо долгих контрактов. Подходит для нагрузочного тестирования, валидации моделей и подг

AWS запустила резервирование GPU на часы — для ML-тестирования и подготовки к выпускам
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS представила EC2 Capacity Blocks for ML и интегрированные с ними SageMaker training plans — новое решение для резервирования GPU-ёмкости на короткие периоды. Это адресует главную боль ML-инженеров: острая нехватка доступных GPU и необходимость платить за долгие контракты, даже если вычислительная мощность нужна всего на несколько часов. Теперь можно зарезервировать ровно столько GPU, сколько нужно, и ровно на то время, когда нужно.

Когда нужны короткие GPU На практике таких сценариев куда больше, чем кажется.

Load testing перед выпуском нового фичи требует полной инфраструктуры, но только на день-два — после тестов деньги тратить смысла нет. Model validation — проверка нового промпта или fine-tuned модели на реальных данных — часто занимает 4-8 часов. Тим-воркшопы, где обучают инженеров работать с фреймворками (PyTorch, TensorFlow), требуют GPU на время сессии, а не постоянно. Перед крупным выпуском нужно подготовить инфраструктуру для inference — поднять сервера, прогреть кеш, провести smoke-тесты. Плюс временные spike'ы трафика в пиковые часы, когда нужна дополнительная вычислительная мощность, но потом интерес спадает.

  • Load testing перед выпуском фич Валидация моделей после fine-tuning Обучение команды и воркшопы Подготовка inference-ёмкости перед release Обработка временных spike'ов трафика ## Как работает Capacity Blocks Логика проста: вместо Reserved Instance (месячный или годовой контракт) или On-Demand (дорого при постоянном использовании), вы резервируете блок GPU на конкретное время — от часов до нескольких дней. AWS гарантирует, что ёмкость будет зарезервирована и доступна именно в выбранный промежуток. Это даёт инженерам предсказуемость: вы знаете, что GPU будет готов, когда запланирован. Сервис интегрирован с SageMaker Training Plans — вы запускаете training job и не волнуетесь, что GPU закончится в разгар обучения модели. EC2 Capacity Blocks работает с разными типами GPU: NVIDIA H100 (для LLM), A100 (универсальный выбор), L4 (компактный, для inference). Выбираете конфиг в зависимости от типа нагрузки. Всё управляется через привычный интерфейс AWS, интеграция с SageMaker, CloudFormation и другими инструментами.

Цены и гибкость Раньше выбор был невеселый.

Либо Reserved Instance на год вперёд — дешево, но теряешь гибкость. Либо On-Demand по часам — гибко, но платишь в 3-4 раза дороже. Capacity Blocks занимают промежуток между двумя крайностями: дешевле On-Demand, но без долгосрочного контракта. Главное — не платишь за неиспользованное время. Для бизнеса это означает точнее планировать бюджет инфраструктуры и избежать переплат. Инженеры не будут просить GPU «на всякий случай» и тем самым раздувать расходы. DevOps-тимы смогут гибко масштабировать инфраструктуру перед критическими моментами — выпусками, конференциями, маркетинговыми кампаниями — зная точную цену за каждый час.

Что это значит Облачные сервисы всё больше приспосабливаются к реальным потребностям ML-работ.

Эра, когда нужно было заказывать GPU впрок и платить за неиспользованное время, уходит в прошлое. Вместо этого платишь только за то, что используешь, и в точный момент, когда используешь — это экономнее, логичнее и уменьшает waste в инфраструктурных проектах.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…