Together AI Blog→ original

FlashAttention-3 duplica la velocidad de los transformers con un 75% de uso de GPU

Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAt

FlashAttention-3 duplica la velocidad de los transformers con un 75% de uso de GPU
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAttention-2. El uso de la GPU H100 ahora llega al 75%, frente al 35% anterior. El algoritmo admite computación FP8 de baja precisión sin perder precisión en los resultados. Esto permite a los LLM procesar secuencias largas de texto de forma más eficiente, sin ralentizar el cómputo, y reduce costos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…