Together AI Blog→ original

FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU

Together AI представила FlashAttention-3 — новый алгоритм для ускорения трансформеров в больших языковых моделях. Работает вдвое быстрее, чем FlashAttention-2.

Processado por IA de Together AI Blog; editado por Hamidun News
FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU
Fonte: Together AI Blog. Colagem: Hamidun News.

Together AI, NVIDIA и Meta выпустили FlashAttention-3 — улучшенный алгоритм для ускорения внимания в трансформерах. Новая версия использует 75% мощности современного GPU вместо прежних 35% и работает в 1.5-2 раза быстрее на ускорителях NVIDIA H100. Это критично: пока облачные вычисления дорожают, а LLM всё больше требуют ресурсов, каждый процент эффективности теперь считается в деньгах.

Почему это была узкое место Внимание (attention) — сердце трансформеров.

Но это самая дорогая часть расчётов. При обработке длинного текста она требует квадратичное количество памяти: удвойте длину контекста — и памяти нужно в четыре раза больше. FlashAttention решил эту проблему ещё в 2022 году, переупорядочив вычисления, чтобы читать/писать в GPU-память более эффективно. Это дало 2-4х ускорение и позволило LLM раздвинуть контекст с 4K токенов до 128K, а недавно до миллиона. Без FlashAttention такие длинные контексты были просто невыполнимы. Но FlashAttention-2 остановилась на 35% эффективности H100. Новые GPU серии Hopper привнесли асинхронные ядра (WGMMA) и асинхронный перенос данных (TMA). FlashAttention-3 наконец-то их использует.

Как работает ускорение

FlashAttention-3 применяет три ключевых улучшения. Во-первых, асинхронность. Тензорные ядра и системы переноса данных работают одновременно, не дожидаясь друг друга. Это пересечение вычислений и памяти — главное ускорение. Во-вторых, переплетение операций. Вместо того чтобы сначала считать все блочные умножения матриц, потом softmax, алгоритм чередует их. Это снижает задержку и улучшает использование кеша. В-третьих, низкая точность вычислений. FP8 — восьмибитные числа вместо FP16 — требует в два раза меньше памяти и позволяет делать в два раза больше операций в секунду. FlashAttention-3 с FP8 достигает близко 1.2 PFLOPS (петафлопс).

Не теряет ли качество с FP8

Основной риск низкой точности — ошибки накапливаются и портят результаты. Но авторы показывают, что FlashAttention-3 с FP8 имеет ошибку всего на 2.6 раза большей, чем базовый FP8 attention. А от FP16 ошибка едва отличима. Это важно для длинных контекстов. Когда LLM обрабатывает миллион токенов, ошибки в одном слое внимания складываются через 70+ слоёв модели. FlashAttention-3 держит эти ошибки под контролем, позволяя использовать FP8 без потери качества.

Кому это даст выигрыш

Выигрыш от FlashAttention-3 получат разные сценарии: Тренировка больших моделей — ускорение даёт экономию месяцев вычислительного времени. Для Meta, OpenAI это означает возможность обучить больше вариантов за тот же бюджет. Счёта за облако снижаются на 30-50%. Быстрый инференс в продакшене — на одном H100 можно обслуживать больше пользователей одновременно, что делает коммерческие API экономичнее Длинные контексты — RAG-системы, анализ больших документов, поиск по архивам теперь работают без замедления даже на миллион токенов Мобильные и edge-вычисления — FP8 и сокращение памяти позволяют запускать модели на слабом оборудовании Алгоритм уже заложен в основные ML-библиотеки PyTorch, JAX и TensorFlow. Код опубликован на GitHub, разработчики начали внедрять.

Что это значит для индустрии FlashAttention-3 приходит вовремя.

Облачные GPU дорожают, спрос на LLM растёт, а контексты становятся длиннее. Алгоритмы, которые заставляют железо работать на 75% своей мощности вместо 35%, становятся не просто полезны — они критичны для экономики. Это снижает стоимость обучения моделей, ускоряет развёртывание в продакшене и открывает возможности для приложений, которые раньше были просто невыгодны. Уже есть компании, которые поспешили интегрировать FlashAttention-3 в свои системы и получили заметную экономию на счётах. Для исследователей это тоже хорошая новость: можно экспериментировать быстрее, пробовать больше вариантов архитектур и размеров моделей. *Meta признана экстремистской организацией и запрещена в РФ.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…