Together AI Blog→ original

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU

Команда Together AI за неделю адаптировала ядра CUDA для новых GPU Blackwell — работу, над которой NVIDIA работала год. Всё благодаря FlashAttention (2022) и Th

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU
Fuente: Together AI Blog. Collage: Hamidun News.

Команда ядерных оптимизаций Together AI только что показала, что разрыв между теорией и практикой в AI — это не неизбежность, а прямой вызов инженерам. За одну неделю они адаптировали низкоуровневые ядра для новых GPU Blackwell, проделав работу, над которой NVIDIA работала целый год с десятками специалистов.

История одной революции Всё началось в неожиданный момент.

Май 2022 года, Мемориальный день в США. Пока Кремниевая долина отдыхала, Дэн Фу, Три Дао и их коллеги опубликовали статью FlashAttention. Главная идея звучала вызывающе: оптимизация трансформер-внимания была далеко не закончена, вопреки расхожему убеждению.

До этого эксперты считали, что GPU уже полностью использованы. Спарсити (разреживание матриц) и низкоранговые методы показывали лишь 10% реального прироста. FlashAttention пошла другим путём: они не искали математическое волшебство, а просто поняли, как на самом деле движется память в GPU.

Применив принципы из систем управления базами данных (локальность памяти, иерархия кешей) к вниманию, они добились ускорения в 2–3 раза. Андрей Карпатий, тогда Senior Director AI в Tesla, отправил твит в 19:00 понедельника. К утру вторника статья уже распространялась по всем AI-исследовательским каналам.

«Честно говоря, мы не ожидали, что кто-то заметит,» вспоминает Дэн. Этот момент стал основой для того, что теперь — одна из самых влиятельных команд ядерных исследований в AI.

Разрыв, который никто не видел

Вот что большинство упускает в дискуссиях об AI: наличие лучших моделей и лучшего железа недостаточно. Реальное узкое место — это промежуток между ними: слой ПО, который переводит математические операции в инструкции для GPU. Это слой ядер.

Многие фундаментальные архитектуры (ResNet, LSTM, RNN) проектировались до эры массового масштабирования. Когда модели выросли до сотен миллиардов параметров, GPU эволюционировали параллельно. Современные чипы — это по сути специализированные матричные умножители, оптимизированные под доминирующие трансформер-архитектуры.

Ядро (kernel) — это перевод между абстракцией и кремнием. Это инструкция GPU о том, как эффективно двигать данные и выполнять вычисления. Хорошее ядро разблокирует полную мощь железа.

Плохое — оставит её невостребованной. Для AI-native приложений (продуктов, встроенных на AI) этот разрыв критичен: Нельзя построить отзывчивое AI-приложение на инфраструктуре, работающей ниже оптимума Стоимость инфраструктуры взлетает, если ядра неоптимальны * Масштабирование AI-бизнеса остаётся невозможным, если inference стоит в 2 раза дороже, чем должен ## ThunderKittens и Blackwell: неделя вместо года Март 2025. Команда выросла до 15 человек — смесь ML-исследователей, обучающихся на системных вызовах, и GPU ветеранов, перешедших в AI.

Together AI получила доступ к новым GPU NVIDIA Blackwell — поколению с фундаментально иной архитектурой. Вызов был конкретен: NVIDIA потратила год, привлекая десятки инженеров, чтобы разработать оптимизированные ядра для Blackwell. Together AI поставила себе цель: неделя.

Решение была собрана из того, что они разрабатывали с исследователями Stanford — библиотека ThunderKittens. Вместо ручного кодирования специфичного под каждое новое поколение GPU, они создали универсальный фреймворк, который масштабируется. За 5 дней они проделали работу, которая обычно занимает год.

Это не просто вопрос скорости разработки. Это доказательство того, что их методология ядер действительно масштабируется и генерализуется на новое железо без переделок с нуля.

Что это значит AI-native облако нуждается в AI-native инфраструктуре,

оптимизированной от кремния вверх. Разрыв между моделями и GPU закрывается не в научных публикациях и не на конференциях — он закрывается в коде, в ядрах, в том, как физически данные движутся по памяти чипа. Команда, которая это понимает и может делать быстро, выигрывает в эту эпоху.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…