Together AI Blog→ оригинал

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU

Команда Together AI за неделю адаптировала ядра CUDA для новых GPU Blackwell — работу, над которой NVIDIA работала год. Всё благодаря FlashAttention (2022) и Th

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU
Источник: Together AI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Команда ядерных оптимизаций Together AI только что показала, что разрыв между теорией и практикой в AI — это не неизбежность, а прямой вызов инженерам. За одну неделю они адаптировали низкоуровневые ядра для новых GPU Blackwell, проделав работу, над которой NVIDIA работала целый год с десятками специалистов.

История одной революции Всё началось в неожиданный момент.

Май 2022 года, Мемориальный день в США. Пока Кремниевая долина отдыхала, Дэн Фу, Три Дао и их коллеги опубликовали статью FlashAttention. Главная идея звучала вызывающе: оптимизация трансформер-внимания была далеко не закончена, вопреки расхожему убеждению.

До этого эксперты считали, что GPU уже полностью использованы. Спарсити (разреживание матриц) и низкоранговые методы показывали лишь 10% реального прироста. FlashAttention пошла другим путём: они не искали математическое волшебство, а просто поняли, как на самом деле движется память в GPU.

Применив принципы из систем управления базами данных (локальность памяти, иерархия кешей) к вниманию, они добились ускорения в 2–3 раза. Андрей Карпатий, тогда Senior Director AI в Tesla, отправил твит в 19:00 понедельника. К утру вторника статья уже распространялась по всем AI-исследовательским каналам.

«Честно говоря, мы не ожидали, что кто-то заметит,» вспоминает Дэн. Этот момент стал основой для того, что теперь — одна из самых влиятельных команд ядерных исследований в AI.

Разрыв, который никто не видел

Вот что большинство упускает в дискуссиях об AI: наличие лучших моделей и лучшего железа недостаточно. Реальное узкое место — это промежуток между ними: слой ПО, который переводит математические операции в инструкции для GPU. Это слой ядер.

Многие фундаментальные архитектуры (ResNet, LSTM, RNN) проектировались до эры массового масштабирования. Когда модели выросли до сотен миллиардов параметров, GPU эволюционировали параллельно. Современные чипы — это по сути специализированные матричные умножители, оптимизированные под доминирующие трансформер-архитектуры.

Ядро (kernel) — это перевод между абстракцией и кремнием. Это инструкция GPU о том, как эффективно двигать данные и выполнять вычисления. Хорошее ядро разблокирует полную мощь железа.

Плохое — оставит её невостребованной. Для AI-native приложений (продуктов, встроенных на AI) этот разрыв критичен: Нельзя построить отзывчивое AI-приложение на инфраструктуре, работающей ниже оптимума Стоимость инфраструктуры взлетает, если ядра неоптимальны * Масштабирование AI-бизнеса остаётся невозможным, если inference стоит в 2 раза дороже, чем должен ## ThunderKittens и Blackwell: неделя вместо года Март 2025. Команда выросла до 15 человек — смесь ML-исследователей, обучающихся на системных вызовах, и GPU ветеранов, перешедших в AI.

Together AI получила доступ к новым GPU NVIDIA Blackwell — поколению с фундаментально иной архитектурой. Вызов был конкретен: NVIDIA потратила год, привлекая десятки инженеров, чтобы разработать оптимизированные ядра для Blackwell. Together AI поставила себе цель: неделя.

Решение была собрана из того, что они разрабатывали с исследователями Stanford — библиотека ThunderKittens. Вместо ручного кодирования специфичного под каждое новое поколение GPU, они создали универсальный фреймворк, который масштабируется. За 5 дней они проделали работу, которая обычно занимает год.

Это не просто вопрос скорости разработки. Это доказательство того, что их методология ядер действительно масштабируется и генерализуется на новое железо без переделок с нуля.

Что это значит AI-native облако нуждается в AI-native инфраструктуре,

оптимизированной от кремния вверх. Разрыв между моделями и GPU закрывается не в научных публикациях и не на конференциях — он закрывается в коде, в ядрах, в том, как физически данные движутся по памяти чипа. Команда, которая это понимает и может делать быстро, выигрывает в эту эпоху.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…