Together AI Blog→ original

Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200

Together AI lanzó Instant Clusters, clústeres GPU autogestionados para entrenamiento e inferencia de modelos. Soportan NVIDIA H100 y B200, listos para funcionar

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI lanzó los clústeres GPU autogestionados Instant Clusters en NVIDIA H100 y B200
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI lanzó oficialmente Instant Clusters, clústeres GPU autogestionados que se despliegan en minutos y están listos para producción sin largas aprobaciones y configuración manual.

Qué es

Instant Clusters son clústeres GPU basados en NVIDIA H100 y B200, desplegados a través de API como servicios en la nube. Crea un clúster a través de la consola web, CLI o mediante programación, y en pocos minutos estará listo para aceptar cargas de trabajo. La arquitectura permite comenzar con una configuración compacta: 8 GPU en un solo nodo, y escalar hasta cientos de GPU en una configuración de red distribuida sin cambiar el código de la aplicación.

Los clústeres son flexibles en la elección de orquestación: soportan Kubernetes para cargas de trabajo en contenedores y Slurm para HPC tradicional. Puedes fijar las versiones de NVIDIA Driver y CUDA para cada clúster, asegurando reproducibilidad entre ejecuciones y experimentos. La integración con herramientas de infraestructura como código (Terraform, SkyPilot) hace que el despliegue sea parte del pipeline CI/CD.

Pila completa incluida

Normalmente, construir un clúster GPU requiere días de trabajo de ingeniería: instalar controladores en cada nodo, configurar tejidos de red, configurar certificados HTTPS, organizar almacenamiento y gestión de recursos. Instant Clusters resuelve este problema: todos los componentes críticos ya están integrados en la imagen y listos para ejecutarse.

Qué se incluye:

  • GPU Operator — instalación automática y administración de controladores NVIDIA, incluyendo runtime para CUDA y contenedores
  • Ingress Controller — enrutamiento del tráfico entrante al clúster, soporte para balanceo y failover
  • NVIDIA Network Operator — administración de redes de alta velocidad (NVIDIA Quantum InfiniBand y Spectrum-X Ethernet con RoCE)
  • Cert Manager — creación automática y rotación de certificados TLS para endpoints HTTPS
  • Almacenamiento — almacenamiento paralelo de alto rendimiento ubicado cerca de los nodos de cómputo para acceso rápido

Resultado: el clúster está listo para producción de inmediato, sin semanas de configuración después del despliegue.

Optimizado para entrenamiento a escala

Los clústeres están diseñados para el entrenamiento distribuido de modelos. Entre nodos se utiliza NVIDIA Quantum-2 InfiniBand con garantía de baja latencia y alto ancho de banda. Dentro de cada nodo, las GPU están conectadas a través de NVLink y NVLink Switch, proporcionando comunicación ultra rápida. Esta arquitectura es crítica para aprendizaje por refuerzo, pre-entrenamiento de modelos grandes y horarios de entrenamiento multifase.

Ejemplo concreto: la empresa Latent Health entrena modelos que razonan como clínicos, analizando datos clínicos multimodales. Los modelos deben considerar preferencias complejas (por ejemplo, cómo resolver diagnósticos conflictivos) y requisitos de diferentes aseguradoras. Con Instant Clusters pueden ejecutar aprendizaje por refuerzo a escala en conjuntos de datos clínicos completos, experimentar rápidamente y luego destilar resultados en modelos pequeños y eficientes que a menudo superan modelos base mucho más grandes.

«Con

Instant Clusters podemos comenzar un experimento a escala completa en horas en lugar de semanas de preparación de infraestructura».

Qué significa

La infraestructura GPU se siente por primera vez como una nube moderna: API-first, autoservicio, escalabilidad predecible. Antes, los clústeres GPU se construían manualmente, de manera larga y compleja. Ahora es un servicio en la nube administrado. Para startups, esto significa un camino rápido hacia la primera inferencia sin gastos de ingeniería en infraestructura. Para corporaciones, significa respuesta rápida a la demanda: un aumento inesperado en tráfico de inferencia o un nuevo proyecto de investigación requiere solo una llamada API, no largas compras.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…