Together AI Blog→ оригинал

FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU

Together AI представила FlashAttention-3 — новый алгоритм для ускорения трансформеров в больших языковых моделях. Работает вдвое быстрее, чем FlashAttention-2.

FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU
Источник: Together AI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Together AI, NVIDIA и Meta выпустили FlashAttention-3 — улучшенный алгоритм для ускорения внимания в трансформерах. Новая версия использует 75% мощности современного GPU вместо прежних 35% и работает в 1.5-2 раза быстрее на ускорителях NVIDIA H100. Это критично: пока облачные вычисления дорожают, а LLM всё больше требуют ресурсов, каждый процент эффективности теперь считается в деньгах.

Почему это была узкое место Внимание (attention) — сердце трансформеров.

Но это самая дорогая часть расчётов. При обработке длинного текста она требует квадратичное количество памяти: удвойте длину контекста — и памяти нужно в четыре раза больше. FlashAttention решил эту проблему ещё в 2022 году, переупорядочив вычисления, чтобы читать/писать в GPU-память более эффективно. Это дало 2-4х ускорение и позволило LLM раздвинуть контекст с 4K токенов до 128K, а недавно до миллиона. Без FlashAttention такие длинные контексты были просто невыполнимы. Но FlashAttention-2 остановилась на 35% эффективности H100. Новые GPU серии Hopper привнесли асинхронные ядра (WGMMA) и асинхронный перенос данных (TMA). FlashAttention-3 наконец-то их использует.

Как работает ускорение

FlashAttention-3 применяет три ключевых улучшения. Во-первых, асинхронность. Тензорные ядра и системы переноса данных работают одновременно, не дожидаясь друг друга. Это пересечение вычислений и памяти — главное ускорение. Во-вторых, переплетение операций. Вместо того чтобы сначала считать все блочные умножения матриц, потом softmax, алгоритм чередует их. Это снижает задержку и улучшает использование кеша. В-третьих, низкая точность вычислений. FP8 — восьмибитные числа вместо FP16 — требует в два раза меньше памяти и позволяет делать в два раза больше операций в секунду. FlashAttention-3 с FP8 достигает близко 1.2 PFLOPS (петафлопс).

Не теряет ли качество с FP8

Основной риск низкой точности — ошибки накапливаются и портят результаты. Но авторы показывают, что FlashAttention-3 с FP8 имеет ошибку всего на 2.6 раза большей, чем базовый FP8 attention. А от FP16 ошибка едва отличима. Это важно для длинных контекстов. Когда LLM обрабатывает миллион токенов, ошибки в одном слое внимания складываются через 70+ слоёв модели. FlashAttention-3 держит эти ошибки под контролем, позволяя использовать FP8 без потери качества.

Кому это даст выигрыш

Выигрыш от FlashAttention-3 получат разные сценарии: Тренировка больших моделей — ускорение даёт экономию месяцев вычислительного времени. Для Meta, OpenAI это означает возможность обучить больше вариантов за тот же бюджет. Счёта за облако снижаются на 30-50%. Быстрый инференс в продакшене — на одном H100 можно обслуживать больше пользователей одновременно, что делает коммерческие API экономичнее Длинные контексты — RAG-системы, анализ больших документов, поиск по архивам теперь работают без замедления даже на миллион токенов Мобильные и edge-вычисления — FP8 и сокращение памяти позволяют запускать модели на слабом оборудовании Алгоритм уже заложен в основные ML-библиотеки PyTorch, JAX и TensorFlow. Код опубликован на GitHub, разработчики начали внедрять.

Что это значит для индустрии FlashAttention-3 приходит вовремя.

Облачные GPU дорожают, спрос на LLM растёт, а контексты становятся длиннее. Алгоритмы, которые заставляют железо работать на 75% своей мощности вместо 35%, становятся не просто полезны — они критичны для экономики. Это снижает стоимость обучения моделей, ускоряет развёртывание в продакшене и открывает возможности для приложений, которые раньше были просто невыгодны. Уже есть компании, которые поспешили интегрировать FlashAttention-3 в свои системы и получили заметную экономию на счётах. Для исследователей это тоже хорошая новость: можно экспериментировать быстрее, пробовать больше вариантов архитектур и размеров моделей. *Meta признана экстремистской организацией и запрещена в РФ.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…