Together AI: como otimizações de kernels fecham a lacuna entre modelos e GPUs
A equipe da Together AI adaptou kernels CUDA para as novas GPUs Blackwell em uma semana — um trabalho que a NVIDIA levou um ano para fazer. Tudo graças ao Flash

◐ Ouvir artigo
A equipe da Together AI adaptou kernels CUDA para as novas GPUs Blackwell em uma semana — um trabalho que a NVIDIA levou um ano para fazer. Tudo graças ao FlashAttention (2022) e ao ThunderKittens. Isso fecha a lacuna entre a matemática dos modelos e o poder real do hardware.