Together AI Blog→ original

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU

Команда Together AI за неделю адаптировала ядра CUDA для новых GPU Blackwell — работу, над которой NVIDIA работала год. Всё благодаря FlashAttention (2022) и Th

Traité par IA depuis Together AI Blog ; édité par Hamidun News
Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU
Source : Together AI Blog. Collage: Hamidun News.

Команда ядерных оптимизаций Together AI только что показала, что разрыв между теорией и практикой в AI — это не неизбежность, а прямой вызов инженерам. За одну неделю они адаптировали низкоуровневые ядра для новых GPU Blackwell, проделав работу, над которой NVIDIA работала целый год с десятками специалистов.

История одной революции Всё началось в неожиданный момент.

Май 2022 года, Мемориальный день в США. Пока Кремниевая долина отдыхала, Дэн Фу, Три Дао и их коллеги опубликовали статью FlashAttention. Главная идея звучала вызывающе: оптимизация трансформер-внимания была далеко не закончена, вопреки расхожему убеждению.

До этого эксперты считали, что GPU уже полностью использованы. Спарсити (разреживание матриц) и низкоранговые методы показывали лишь 10% реального прироста. FlashAttention пошла другим путём: они не искали математическое волшебство, а просто поняли, как на самом деле движется память в GPU.

Применив принципы из систем управления базами данных (локальность памяти, иерархия кешей) к вниманию, они добились ускорения в 2–3 раза. Андрей Карпатий, тогда Senior Director AI в Tesla, отправил твит в 19:00 понедельника. К утру вторника статья уже распространялась по всем AI-исследовательским каналам.

«Честно говоря, мы не ожидали, что кто-то заметит,» вспоминает Дэн. Этот момент стал основой для того, что теперь — одна из самых влиятельных команд ядерных исследований в AI.

Разрыв, который никто не видел

Вот что большинство упускает в дискуссиях об AI: наличие лучших моделей и лучшего железа недостаточно. Реальное узкое место — это промежуток между ними: слой ПО, который переводит математические операции в инструкции для GPU. Это слой ядер.

Многие фундаментальные архитектуры (ResNet, LSTM, RNN) проектировались до эры массового масштабирования. Когда модели выросли до сотен миллиардов параметров, GPU эволюционировали параллельно. Современные чипы — это по сути специализированные матричные умножители, оптимизированные под доминирующие трансформер-архитектуры.

Ядро (kernel) — это перевод между абстракцией и кремнием. Это инструкция GPU о том, как эффективно двигать данные и выполнять вычисления. Хорошее ядро разблокирует полную мощь железа.

Плохое — оставит её невостребованной. Для AI-native приложений (продуктов, встроенных на AI) этот разрыв критичен: Нельзя построить отзывчивое AI-приложение на инфраструктуре, работающей ниже оптимума Стоимость инфраструктуры взлетает, если ядра неоптимальны * Масштабирование AI-бизнеса остаётся невозможным, если inference стоит в 2 раза дороже, чем должен ## ThunderKittens и Blackwell: неделя вместо года Март 2025. Команда выросла до 15 человек — смесь ML-исследователей, обучающихся на системных вызовах, и GPU ветеранов, перешедших в AI.

Together AI получила доступ к новым GPU NVIDIA Blackwell — поколению с фундаментально иной архитектурой. Вызов был конкретен: NVIDIA потратила год, привлекая десятки инженеров, чтобы разработать оптимизированные ядра для Blackwell. Together AI поставила себе цель: неделя.

Решение была собрана из того, что они разрабатывали с исследователями Stanford — библиотека ThunderKittens. Вместо ручного кодирования специфичного под каждое новое поколение GPU, они создали универсальный фреймворк, который масштабируется. За 5 дней они проделали работу, которая обычно занимает год.

Это не просто вопрос скорости разработки. Это доказательство того, что их методология ядер действительно масштабируется и генерализуется на новое железо без переделок с нуля.

Что это значит AI-native облако нуждается в AI-native инфраструктуре,

оптимизированной от кремния вверх. Разрыв между моделями и GPU закрывается не в научных публикациях и не на конференциях — он закрывается в коде, в ядрах, в том, как физически данные движутся по памяти чипа. Команда, которая это понимает и может делать быстро, выигрывает в эту эпоху.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…