Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200
Together AI lanzó Instant Clusters, clústeres GPU autogestionados para entrenamiento e inferencia de modelos. Soportan NVIDIA H100 y B200, listos para funcionar
Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI lanzó oficialmente Instant Clusters, clústeres GPU autogestionados que se despliegan en minutos y están listos para producción sin largas aprobaciones y configuración manual.
Qué es
Instant Clusters son clústeres GPU basados en NVIDIA H100 y B200, desplegados a través de API como servicios en la nube. Crea un clúster a través de la consola web, CLI o mediante programación, y en pocos minutos estará listo para aceptar cargas de trabajo. La arquitectura permite comenzar con una configuración compacta: 8 GPU en un solo nodo, y escalar hasta cientos de GPU en una configuración de red distribuida sin cambiar el código de la aplicación.
Los clústeres son flexibles en la elección de orquestación: soportan Kubernetes para cargas de trabajo en contenedores y Slurm para HPC tradicional. Puedes fijar las versiones de NVIDIA Driver y CUDA para cada clúster, asegurando reproducibilidad entre ejecuciones y experimentos. La integración con herramientas de infraestructura como código (Terraform, SkyPilot) hace que el despliegue sea parte del pipeline CI/CD.
Pila completa incluida
Normalmente, construir un clúster GPU requiere días de trabajo de ingeniería: instalar controladores en cada nodo, configurar tejidos de red, configurar certificados HTTPS, organizar almacenamiento y gestión de recursos. Instant Clusters resuelve este problema: todos los componentes críticos ya están integrados en la imagen y listos para ejecutarse.
Qué se incluye:
- GPU Operator — instalación automática y administración de controladores NVIDIA, incluyendo runtime para CUDA y contenedores
- Ingress Controller — enrutamiento del tráfico entrante al clúster, soporte para balanceo y failover
- NVIDIA Network Operator — administración de redes de alta velocidad (NVIDIA Quantum InfiniBand y Spectrum-X Ethernet con RoCE)
- Cert Manager — creación automática y rotación de certificados TLS para endpoints HTTPS
- Almacenamiento — almacenamiento paralelo de alto rendimiento ubicado cerca de los nodos de cómputo para acceso rápido
Resultado: el clúster está listo para producción de inmediato, sin semanas de configuración después del despliegue.
Optimizado para entrenamiento a escala
Los clústeres están diseñados para el entrenamiento distribuido de modelos. Entre nodos se utiliza NVIDIA Quantum-2 InfiniBand con garantía de baja latencia y alto ancho de banda. Dentro de cada nodo, las GPU están conectadas a través de NVLink y NVLink Switch, proporcionando comunicación ultra rápida. Esta arquitectura es crítica para aprendizaje por refuerzo, pre-entrenamiento de modelos grandes y horarios de entrenamiento multifase.
Ejemplo concreto: la empresa Latent Health entrena modelos que razonan como clínicos, analizando datos clínicos multimodales. Los modelos deben considerar preferencias complejas (por ejemplo, cómo resolver diagnósticos conflictivos) y requisitos de diferentes aseguradoras. Con Instant Clusters pueden ejecutar aprendizaje por refuerzo a escala en conjuntos de datos clínicos completos, experimentar rápidamente y luego destilar resultados en modelos pequeños y eficientes que a menudo superan modelos base mucho más grandes.
«Con
Instant Clusters podemos comenzar un experimento a escala completa en horas en lugar de semanas de preparación de infraestructura».
Qué significa
La infraestructura GPU se siente por primera vez como una nube moderna: API-first, autoservicio, escalabilidad predecible. Antes, los clústeres GPU se construían manualmente, de manera larga y compleja. Ahora es un servicio en la nube administrado. Para startups, esto significa un camino rápido hacia la primera inferencia sin gastos de ingeniería en infraestructura. Para corporaciones, significa respuesta rápida a la demanda: un aumento inesperado en tráfico de inferencia o un nuevo proyecto de investigación requiere solo una llamada API, no largas compras.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.