Together AI: cómo las optimizaciones de kernel cierran la brecha entre modelos y GPU
El equipo de Together AI adaptó en una semana los kernels CUDA para los nuevos GPU Blackwell, un trabajo en el que NVIDIA empleaba un año. Todo gracias a FlashA
Procesado por IA desde Together AI Blog; editado por Hamidun News
El equipo de optimizaciones de kernel de Together AI acaba de demostrar que la brecha entre la teoría y la práctica en IA no es una inevitabilidad, sino un desafío directo para los ingenieros. En una sola semana adaptaron kernels de bajo nivel para los nuevos GPU Blackwell, realizando el trabajo en el que NVIDIA empleaba todo un año con docenas de especialistas.
La Historia de una Revolución
Todo comenzó en un momento inesperado. Mayo de 2022, Día del Recuerdo en Estados Unidos. Mientras Silicon Valley descansaba, Dan Fu, Tri Dao y sus colegas publicaron el artículo FlashAttention. La idea principal sonaba audaz: la optimización de la atención del transformador estaba lejos de estar completa, contrario a la creencia común.
Hasta entonces, los expertos creían que las GPU ya estaban completamente utilizadas. Sparsity (dispersión de matrices) y los métodos de bajo rango mostraban solo el 10% de ganancia real.
FlashAttention tomó un camino diferente: no buscaron magia matemática, sino que simplemente entendieron cómo se mueve realmente la memoria en las GPU. Aplicando principios de sistemas de gestión de bases de datos (localidad de memoria, jerarquía de cachés) a la atención, lograron una aceleración de 2-3 veces.
Andrej Karpathy, entonces Senior Director de IA en Tesla, envió un tweet a las 19:00 del lunes. Para la mañana del martes, el artículo ya se distribuía por todos los canales de investigación de IA. "Honestamente, no esperábamos que alguien lo notara", recuerda Dan.
Este momento se convirtió en la base para lo que hoy es uno de los equipos más influyentes en investigación de kernels en IA.
La Brecha que Nadie Veía
Esto es lo que muchos pierden en las discusiones sobre IA: tener los mejores modelos y el mejor hardware no es suficiente. El cuello de botella real es la brecha entre ellos: la capa de software que traduce operaciones matemáticas en instrucciones para GPU. Esta es la capa de kernels.
Muchas arquitecturas fundamentales (ResNet, LSTM, RNN) se diseñaron antes de la era del escalado masivo. Cuando los modelos crecieron a cientos de miles de millones de parámetros, las GPU evolucionaron en paralelo. Los chips modernos son esencialmente multiplicadores de matrices especializados, optimizados para las arquitecturas de transformadores dominantes.
Un kernel es la traducción entre la abstracción y el silicio. Es la instrucción de la GPU sobre cómo mover datos de manera eficiente y ejecutar cálculos. Un buen kernel desbloqueará toda la potencia del hardware. Uno malo la dejará subutilizada.
Para aplicaciones nativas de IA (productos construidos sobre IA), esta brecha es crítica:
- No se puede construir una aplicación de IA responsiva en una infraestructura que funciona por debajo del óptimo
- El costo de la infraestructura se dispara si los kernels no son óptimos
- Escalar un negocio de IA sigue siendo imposible si la inferencia cuesta 2 veces más de lo que debería
ThunderKittens y Blackwell: una semana en lugar de un año
Marzo de 2025. El equipo creció a 15 personas, una mezcla de investigadores de ML educados en desafíos de sistemas y veteranos de GPU que pasaron a IA. Together AI obtuvo acceso a las nuevas GPU Blackwell de NVIDIA, una generación con una arquitectura fundamentalmente diferente.
El desafío era concreto: NVIDIA pasó un año reclutando docenas de ingenieros para desarrollar kernels optimizados para Blackwell. Together AI se fijó como objetivo: una semana.
La solución se ensambló a partir de lo que habían estado desarrollando con investigadores de Stanford: la biblioteca ThunderKittens. En lugar de codificación manual específica para cada nueva generación de GPU, crearon un framework universal que se escala.
En 5 días completaron el trabajo que normalmente toma un año. No es simplemente una cuestión de velocidad de desarrollo. Es la prueba de que su metodología de kernels realmente se escala y generaliza al nuevo hardware sin rehacer desde cero.
Qué Significa Esto
La nube nativa de IA necesita una infraestructura nativa de IA, optimizada desde el silicio hacia arriba. La brecha entre modelos y GPU no se cierra en publicaciones científicas ni en conferencias, se cierra en el código, en los kernels, en la forma en que los datos se mueven físicamente por la memoria del chip. El equipo que entiende esto y puede hacerlo rápidamente gana en esta era.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.