FlashAttention-3 duplica la velocidad de los transformers con un 75% de uso de GPU

Q: Источник материала?

Оригинальная публикация на Together AI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAt

Redacción de Hamidun News

Monitoreo de AI · Together AI Blog

2026-05-21· 2 min

FlashAttention-3 duplica la velocidad de los transformers con un 75% de uso de GPU — Fuente: Together AI Blog. Collage: Hamidun News.

◐ Escuchar artículo

Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAttention-2. El uso de la GPU H100 ahora llega al 75%, frente al 35% anterior. El algoritmo admite computación FP8 de baja precisión sin perder precisión en los resultados. Esto permite a los LLM procesar secuencias largas de texto de forma más eficiente, sin ralentizar el cómputo, y reduce costos.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com