Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU

Q: ¿Cuál es la fuente?

Publicado originalmente en Together AI Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2026-05-21. Tiempo de lectura: 4 min.

Команда Together AI за неделю адаптировала ядра CUDA для новых GPU Blackwell — работу, над которой NVIDIA работала год. Всё благодаря FlashAttention (2022) и Th

Redacción de Hamidun News

Monitoreo de AI · Together AI Blog

2026-05-21· 3 min

Procesado por IA desde Together AI Blog; editado por Hamidun News

Together AI: как ядерные оптимизации закрывают разрыв между моделями и GPU — Fuente: Together AI Blog. Collage: Hamidun News.

Команда ядерных оптимизаций Together AI только что показала, что разрыв между теорией и практикой в AI — это не неизбежность, а прямой вызов инженерам. За одну неделю они адаптировали низкоуровневые ядра для новых GPU Blackwell, проделав работу, над которой NVIDIA работала целый год с десятками специалистов.

История одной революции Всё началось в неожиданный момент.

Май 2022 года, Мемориальный день в США. Пока Кремниевая долина отдыхала, Дэн Фу, Три Дао и их коллеги опубликовали статью FlashAttention. Главная идея звучала вызывающе: оптимизация трансформер-внимания была далеко не закончена, вопреки расхожему убеждению.

До этого эксперты считали, что GPU уже полностью использованы. Спарсити (разреживание матриц) и низкоранговые методы показывали лишь 10% реального прироста. FlashAttention пошла другим путём: они не искали математическое волшебство, а просто поняли, как на самом деле движется память в GPU.

Применив принципы из систем управления базами данных (локальность памяти, иерархия кешей) к вниманию, они добились ускорения в 2–3 раза. Андрей Карпатий, тогда Senior Director AI в Tesla, отправил твит в 19:00 понедельника. К утру вторника статья уже распространялась по всем AI-исследовательским каналам.

«Честно говоря, мы не ожидали, что кто-то заметит,» вспоминает Дэн. Этот момент стал основой для того, что теперь — одна из самых влиятельных команд ядерных исследований в AI.

Разрыв, который никто не видел

Вот что большинство упускает в дискуссиях об AI: наличие лучших моделей и лучшего железа недостаточно. Реальное узкое место — это промежуток между ними: слой ПО, который переводит математические операции в инструкции для GPU. Это слой ядер.

Многие фундаментальные архитектуры (ResNet, LSTM, RNN) проектировались до эры массового масштабирования. Когда модели выросли до сотен миллиардов параметров, GPU эволюционировали параллельно. Современные чипы — это по сути специализированные матричные умножители, оптимизированные под доминирующие трансформер-архитектуры.

Ядро (kernel) — это перевод между абстракцией и кремнием. Это инструкция GPU о том, как эффективно двигать данные и выполнять вычисления. Хорошее ядро разблокирует полную мощь железа.

Плохое — оставит её невостребованной. Для AI-native приложений (продуктов, встроенных на AI) этот разрыв критичен: Нельзя построить отзывчивое AI-приложение на инфраструктуре, работающей ниже оптимума Стоимость инфраструктуры взлетает, если ядра неоптимальны * Масштабирование AI-бизнеса остаётся невозможным, если inference стоит в 2 раза дороже, чем должен ## ThunderKittens и Blackwell: неделя вместо года Март 2025. Команда выросла до 15 человек — смесь ML-исследователей, обучающихся на системных вызовах, и GPU ветеранов, перешедших в AI.

Together AI получила доступ к новым GPU NVIDIA Blackwell — поколению с фундаментально иной архитектурой. Вызов был конкретен: NVIDIA потратила год, привлекая десятки инженеров, чтобы разработать оптимизированные ядра для Blackwell. Together AI поставила себе цель: неделя.

Решение была собрана из того, что они разрабатывали с исследователями Stanford — библиотека ThunderKittens. Вместо ручного кодирования специфичного под каждое новое поколение GPU, они создали универсальный фреймворк, который масштабируется. За 5 дней они проделали работу, которая обычно занимает год.

Это не просто вопрос скорости разработки. Это доказательство того, что их методология ядер действительно масштабируется и генерализуется на новое железо без переделок с нуля.

Что это значит AI-native облако нуждается в AI-native инфраструктуре,

оптимизированной от кремния вверх. Разрыв между моделями и GPU закрывается не в научных публикациях и не на конференциях — он закрывается в коде, в ядрах, в том, как физически данные движутся по памяти чипа. Команда, которая это понимает и может делать быстро, выигрывает в эту эпоху.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita