AWS lanzó reservas de GPU por horas — para pruebas de ML y preparación de lanzamientos
AWS lanzó EC2 Capacity Blocks for ML, con reserva de GPU por horas en lugar de contratos de largo plazo. Sirve para pruebas de carga, validación de modelos y pr

AWS presentó EC2 Capacity Blocks for ML y planes de entrenamiento de SageMaker integrados — una nueva solución para reservar capacidad de GPU por períodos cortos. Esto aborda el principal dolor de los ingenieros de ML: escasez aguda de GPUs disponibles y la necesidad de pagar contratos largos incluso cuando la potencia de cálculo solo se necesita durante algunas horas. Ahora puedes reservar exactamente tantas GPUs como necesites y exactamente cuando las necesites.
Cuándo Se Necesita Tiempo Corto de GPU
En la práctica, estos escenarios son mucho más comunes de lo que parece. Las pruebas de carga antes del lanzamiento de una nueva función requieren infraestructura completa, pero solo durante uno o dos días — después de las pruebas, no hay razón para gastar dinero. Validación de modelo — verificar un nuevo prompt o modelo fine-tuned contra datos reales — generalmente toma 4-8 horas.
Talleres de equipo donde los ingenieros aprenden a trabajar con frameworks (PyTorch, TensorFlow) requieren GPU durante la sesión, no permanentemente. Antes de un lanzamiento importante, necesitas preparar infraestructura de inference — iniciar servidores, calentar la caché, ejecutar smoke tests. Además, picos de tráfico temporales durante horas punta, cuando se necesita potencia de cálculo adicional, pero el interés disminuye después.
- Pruebas de carga antes del lanzamiento de funciones
- Validación de modelo después de fine-tuning
- Capacitación y talleres del equipo
- Preparar capacidad de inference antes del lanzamiento
- Manejar picos de tráfico temporales
Cómo Funciona Capacity Blocks
La lógica es sencilla: en lugar de una Reserved Instance (contrato mensual o anual) o On-Demand (cara para uso continuo), reservas un bloque de GPU por un tiempo específico — de horas a varios días. AWS garantiza que la capacidad se reservará y estará disponible durante tu período elegido. Esto da a los ingenieros previsibilidad: sabes que la GPU estará lista cuando esté programada.
El servicio está integrado con los Planes de Entrenamiento de SageMaker — lanzas un trabajo de entrenamiento y no te preocupas de que la GPU se agote en medio del entrenamiento del modelo. EC2 Capacity Blocks funciona con varios tipos de GPU: NVIDIA H100 (para LLM), A100 (opción universal), L4 (compacto, para inference). Elige la configuración según tu tipo de carga de trabajo.
Todo se gestiona a través de la interfaz familiar de AWS, con integración en SageMaker, CloudFormation y otras herramientas.
Precios y Flexibilidad
Antes, la elección era deprimente. O Reserved Instance por un año — barato, pero pierdes flexibilidad. O On-Demand por hora — flexible, pero pagas 3-4 veces más. Capacity Blocks ocupa un punto intermedio entre los dos extremos: más barato que On-Demand, pero sin contrato a largo plazo. Lo más importante, no pagas por tiempo no utilizado. Para los negocios, esto significa una planificación de presupuesto de infraestructura más precisa y evitar pagos excesivos. Los ingenieros no pedirán GPU "por si acaso" y así no inflarán los gastos. Los equipos de DevOps pueden escalar flexiblemente la infraestructura antes de momentos críticos — lanzamientos, conferencias, campañas de marketing — sabiendo el precio exacto por hora.
Qué Significa Esto
Los servicios en la nube se están adaptando cada vez más a las necesidades reales del trabajo de ML. La era en que tenías que encargar GPUs con anticipación y pagar por tiempo no utilizado está desapareciendo. En su lugar, pagas solo por lo que usas, en el momento exacto en que lo usas — esto es más económico, más lógico y reduce el desperdicio en proyectos de infraestructura.