FlashAttention-3 duplica la velocidad de los transformers con un 75% de uso de GPU
Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAt

◐ Escuchar artículo
Together AI presentó FlashAttention-3, un nuevo algoritmo para acelerar los transformers en grandes modelos de lenguaje. Funciona el doble de rápido que FlashAttention-2. El uso de la GPU H100 ahora llega al 75%, frente al 35% anterior. El algoritmo admite computación FP8 de baja precisión sin perder precisión en los resultados. Esto permite a los LLM procesar secuencias largas de texto de forma más eficiente, sin ralentizar el cómputo, y reduce costos.