Together AI Blog→ المصدر

FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU

Together AI представила FlashAttention-3 — новый алгоритм для ускорения трансформеров в больших языковых моделях. Работает вдвое быстрее, чем FlashAttention-2.

معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
FlashAttention-3 ускорит трансформеры вдвое при 75% загрузке GPU
المصدر: Together AI Blog. كولاج: Hamidun News.

Together AI, NVIDIA и Meta выпустили FlashAttention-3 — улучшенный алгоритм для ускорения внимания в трансформерах. Новая версия использует 75% мощности современного GPU вместо прежних 35% и работает в 1.5-2 раза быстрее на ускорителях NVIDIA H100. Это критично: пока облачные вычисления дорожают, а LLM всё больше требуют ресурсов, каждый процент эффективности теперь считается в деньгах.

Почему это была узкое место Внимание (attention) — сердце трансформеров.

Но это самая дорогая часть расчётов. При обработке длинного текста она требует квадратичное количество памяти: удвойте длину контекста — и памяти нужно в четыре раза больше. FlashAttention решил эту проблему ещё в 2022 году, переупорядочив вычисления, чтобы читать/писать в GPU-память более эффективно. Это дало 2-4х ускорение и позволило LLM раздвинуть контекст с 4K токенов до 128K, а недавно до миллиона. Без FlashAttention такие длинные контексты были просто невыполнимы. Но FlashAttention-2 остановилась на 35% эффективности H100. Новые GPU серии Hopper привнесли асинхронные ядра (WGMMA) и асинхронный перенос данных (TMA). FlashAttention-3 наконец-то их использует.

Как работает ускорение

FlashAttention-3 применяет три ключевых улучшения. Во-первых, асинхронность. Тензорные ядра и системы переноса данных работают одновременно, не дожидаясь друг друга. Это пересечение вычислений и памяти — главное ускорение. Во-вторых, переплетение операций. Вместо того чтобы сначала считать все блочные умножения матриц, потом softmax, алгоритм чередует их. Это снижает задержку и улучшает использование кеша. В-третьих, низкая точность вычислений. FP8 — восьмибитные числа вместо FP16 — требует в два раза меньше памяти и позволяет делать в два раза больше операций в секунду. FlashAttention-3 с FP8 достигает близко 1.2 PFLOPS (петафлопс).

Не теряет ли качество с FP8

Основной риск низкой точности — ошибки накапливаются и портят результаты. Но авторы показывают, что FlashAttention-3 с FP8 имеет ошибку всего на 2.6 раза большей, чем базовый FP8 attention. А от FP16 ошибка едва отличима. Это важно для длинных контекстов. Когда LLM обрабатывает миллион токенов, ошибки в одном слое внимания складываются через 70+ слоёв модели. FlashAttention-3 держит эти ошибки под контролем, позволяя использовать FP8 без потери качества.

Кому это даст выигрыш

Выигрыш от FlashAttention-3 получат разные сценарии: Тренировка больших моделей — ускорение даёт экономию месяцев вычислительного времени. Для Meta, OpenAI это означает возможность обучить больше вариантов за тот же бюджет. Счёта за облако снижаются на 30-50%. Быстрый инференс в продакшене — на одном H100 можно обслуживать больше пользователей одновременно, что делает коммерческие API экономичнее Длинные контексты — RAG-системы, анализ больших документов, поиск по архивам теперь работают без замедления даже на миллион токенов Мобильные и edge-вычисления — FP8 и сокращение памяти позволяют запускать модели на слабом оборудовании Алгоритм уже заложен в основные ML-библиотеки PyTorch, JAX и TensorFlow. Код опубликован на GitHub, разработчики начали внедрять.

Что это значит для индустрии FlashAttention-3 приходит вовремя.

Облачные GPU дорожают, спрос на LLM растёт, а контексты становятся длиннее. Алгоритмы, которые заставляют железо работать на 75% своей мощности вместо 35%, становятся не просто полезны — они критичны для экономики. Это снижает стоимость обучения моделей, ускоряет развёртывание в продакшене и открывает возможности для приложений, которые раньше были просто невыгодны. Уже есть компании, которые поспешили интегрировать FlashAttention-3 в свои системы и получили заметную экономию на счётах. Для исследователей это тоже хорошая новость: можно экспериментировать быстрее, пробовать больше вариантов архитектур и размеров моделей. *Meta признана экстремистской организацией и запрещена в РФ.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…