AWS Machine Learning Blog→ original

AWS a lancé la réservation de GPU à l’heure — pour les tests ML et la préparation des lancements

AWS a lancé EC2 Capacity Blocks for ML, avec une réservation de GPU à l’heure au lieu de contrats de longue durée. Le service convient aux tests de charge, à la

AWS a lancé la réservation de GPU à l’heure — pour les tests ML et la préparation des lancements
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a présenté EC2 Capacity Blocks for ML et les plans d'entraînement SageMaker intégrés — une nouvelle solution pour réserver la capacité GPU pour des périodes courtes. Cela aborde la principale douleur des ingénieurs ML : la pénurie aiguë de GPUs disponibles et la nécessité de payer des contrats longs même lorsque la puissance de calcul n'est nécessaire que quelques heures. Maintenant, vous pouvez réserver exactement autant de GPUs que vous en avez besoin et exactement au moment où vous en avez besoin.

Quand le Temps Courte GPU Est Nécessaire

En pratique, ces scénarios sont beaucoup plus courants qu'il n'y paraît. Les tests de charge avant le lancement d'une nouvelle fonctionnalité nécessitent une infrastructure complète, mais seulement pendant un ou deux jours — après les tests, il n'y a aucune raison de dépenser de l'argent. Validation de modèle — vérifier un nouveau prompt ou un modèle fine-tuné par rapport aux données réelles — prend généralement 4-8 heures.

Les ateliers d'équipe où les ingénieurs apprennent à travailler avec des frameworks (PyTorch, TensorFlow) nécessitent un GPU pendant la session, pas en permanence. Avant un lancement majeur, vous devez préparer l'infrastructure d'inférence — démarrer les serveurs, préchauffer le cache, exécuter des smoke tests. Plus les pics de trafic temporaires pendant les heures de pointe, lorsque la puissance de calcul supplémentaire est nécessaire, mais l'intérêt diminue ensuite.

  • Tests de charge avant le lancement de fonctionnalités
  • Validation de modèle après fine-tuning
  • Formation d'équipe et ateliers
  • Préparation de la capacité d'inférence avant le lancement
  • Gestion des pics de trafic temporaires

Comment Fonctionne Capacity Blocks

La logique est simple : au lieu d'une Reserved Instance (contrat mensuel ou annuel) ou On-Demand (cher pour une utilisation continue), vous réservez un bloc GPU pour une durée spécifique — de quelques heures à plusieurs jours. AWS garantit que la capacité sera réservée et disponible pendant votre période choisie. Cela donne aux ingénieurs de la prévisibilité : vous savez que le GPU sera prêt quand prévu.

Le service est intégré aux Plans d'Entraînement SageMaker — vous lancez un travail d'entraînement et ne vous inquiétez pas que le GPU s'épuise au milieu de l'entraînement du modèle. EC2 Capacity Blocks fonctionne avec différents types de GPU : NVIDIA H100 (pour LLM), A100 (choix universel), L4 (compact, pour l'inférence). Vous choisissez la configuration selon votre type de charge de travail.

Tout est géré via l'interface familière d'AWS, avec intégration à SageMaker, CloudFormation et d'autres outils.

Prix et Flexibilité

Autrefois, le choix était morose. Soit une Reserved Instance pour un an — bon marché, mais vous perdez la flexibilité. Soit On-Demand à l'heure — flexible, mais vous payez 3-4 fois plus.

Capacity Blocks occupe un juste milieu entre les deux extrêmes : moins cher que On-Demand, mais sans contrat à long terme. Plus important encore, vous ne payez pas le temps inutilisé. Pour les entreprises, cela signifie une planification budgétaire d'infrastructure plus précise et éviter les surcoûts.

Les ingénieurs ne demanderont pas de GPU « au cas où » et n'augmenteront pas les dépenses. Les équipes DevOps peuvent mettre à l'échelle flexiblement l'infrastructure avant les moments critiques — lancements, conférences, campagnes marketing — en connaissant le prix exact par heure.

Ce Que Cela Signifie

Les services cloud s'adaptent de plus en plus aux besoins réels du travail ML. L'ère où vous deviez commander des GPUs à l'avance et payer pour le temps inutilisé s'efface dans le passé. Au lieu de cela, vous payez uniquement pour ce que vous utilisez, au moment exact où vous l'utilisez — c'est plus économique, plus logique et réduit le gaspillage dans les projets d'infrastructure.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…