Together AI Blog→ original

Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell

Together AI mostró resultados con NVIDIA Blackwell: el entrenamiento de Llama 70B fue un 90% más rápido que con H100. 15.264 tokens/seg frente a 8.080, gracias

Together AI logra un entrenamiento 90% más rápido con NVIDIA Blackwell
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI anunció acceso inmediato a clusters de GPU acelerados por NVIDIA Blackwell y presentó su propio stack de optimización, especialmente adaptado para la nueva arquitectura de hardware de redes neuronales.

Resultados: 90% de aceleración versus H100

Al probar el modelo Llama con 70 mil millones de parámetros, el equipo de Together AI logró 15.264 tokens por segundo en una sola GPU. Esto casi duplica el resultado en la generación anterior NVIDIA HGX H100, que en configuración optimizada procesaba 8.080 tokens por segundo.

Los resultados se alcanzaron mediante una versión optimizada de TorchTitan combinada con Together Kernel Collection — la colección propia de kernels optimizados de la empresa. Para el contexto: se trata de precisión BF16 (Brain Float 16 — un compromiso entre velocidad y precisión, que ahora es el estándar para entrenar modelos grandes). Según la empresa, con optimizaciones adicionales aún en desarrollo, la velocidad seguirá creciendo.

Cómo funciona: optimización a nivel de arquitectura

La aceleración fue posible gracias a la optimización profunda adaptada a la arquitectura específica de GPU. Together AI desarrolló una serie de componentes que aprovechan plenamente las capacidades de NVIDIA Blackwell:

  • Kernels FP8 personalizados que funcionan con Tensor Cores NVIDIA de 5ª generación (bloques de computación de alto rendimiento)
  • Kernels de atención que operan 1,8 veces más rápido que FlashAttention-3 (estándar actual para mecanismo de atención optimizado)
  • Integración con la biblioteca abierta ThunderKittens para utilizar plenamente la memoria dedicada en el chip
  • Algoritmos de entrenamiento distribuido adaptados a la topología de red Quantum-2 InfiniBand

Tri Dao, científico jefe de Together AI y creador de FlashAttention, señaló: "Optimizamos cada nivel del stack de IA para aprovechar plenamente los avances de la arquitectura GPU. Nos encanta especialmente los nuevos Tensor Cores y el formato microscaling para aceleración de inferencia. La combinación de Together Kernel Collection con NVIDIA Blackwell redefine los estándares de entrenamiento e inferencia eficiente a escala."

Programa de pruebas y escalado

Como parte de un programa de lanzamiento exclusivo, Together AI invita a ocho empresas de IA pioneras a acceso directo a nodos HGX B200 dedicados y la oportunidad de colaborar con ingenieros de NVIDIA e investigadores de Together AI. El objetivo es acelerar conjuntamente las cargas de trabajo y encontrar más optimizaciones.

En paralelo, la empresa está desplegando decenas de miles de servidores HGX B200 y soluciones completas GB200 NVL72 con redes NVIDIA Quantum-2 InfiniBand. Esto incluye el clúster anunciado anteriormente de 36.000+ GPU para entrenar modelos de nueva generación y agentes.

Lo que esto significa

Para las empresas de IA, el resultado es práctico: el entrenamiento de modelos grandes será más barato y rápido. Con un aumento de velocidad del 90%, los modelos que anteriormente requerían semanas ahora se entrenan en días. Esto reduce significativamente los gastos de capital en computación y acelera el ciclo de experimentación con nuevas arquitecturas.

Para el mercado en general, esto es una señal: la era de los servicios genéricos de GPU está terminando. Las empresas de IA que escriben sus propios kernels optimizados para arquitecturas específicas (como Together AI con ThunderKittens) obtienen una ventaja competitiva en velocidad y costo. Y esto afecta directamente al precio del entrenamiento y, en última instancia, al precio de los servicios de IA para los usuarios finales.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…