Together AI Blog→ original

Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU

A equipe Together AI adaptou em uma semana os kernels CUDA para as novas GPUs Blackwell — trabalho que a NVIDIA levou um ano para fazer. Tudo graças ao FlashAtt

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI: como as otimizações de kernel fecham a lacuna entre modelos e GPU
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A equipe de otimizações de kernel da Together AI acabou de demonstrar que a lacuna entre teoria e prática em IA não é uma inevitabilidade, mas sim um desafio direto aos engenheiros. Em uma semana, adaptaram kernels de baixo nível para as novas GPUs Blackwell, realizando trabalho que a NVIDIA levou um ano inteiro com dezenas de especialistas.

A história de uma revolução

Tudo começou em um momento inesperado. Maio de 2022, Dia do Memorial nos EUA. Enquanto o Vale do Silício descansava, Dan Fu, Tri Dao e seus colegas publicaram o artigo FlashAttention. A ideia principal soava desafiadora: a otimização da atenção de transformador estava longe de ser concluída, contrário à crença comum. Até então, os especialistas acreditavam que as GPUs já estavam totalmente utilizadas. Esparsidade (esparsificação de matrizes) e métodos de baixo rank mostravam apenas 10% de ganho real.

FlashAttention seguiu um caminho diferente: não buscaram mágica matemática, mas simplesmente entenderam como a memória realmente se move em GPUs. Aplicando princípios de sistemas de gerenciamento de banco de dados (localidade de memória, hierarquia de cache) à atenção, alcançaram uma aceleração de 2-3 vezes.

Andrej Karpathy, então Senior Director de IA na Tesla, postou um tweet às 19h de segunda-feira. Na manhã de terça-feira, o artigo já estava circulando em todos os canais de pesquisa de IA. "Honestamente, não esperávamos que alguém percebesse", recorda Dan. Este momento se tornou a base para o que agora é uma das equipes de pesquisa de kernel mais influentes em IA.

A lacuna que ninguém viu

Eis o que a maioria perde nas discussões sobre IA: ter os melhores modelos e o melhor hardware não é suficiente. O gargalo real é o espaço entre eles: a camada de software que traduz operações matemáticas em instruções para a GPU. Esta é a camada de kernels.

Muitas arquiteturas fundamentais (ResNet, LSTM, RNN) foram projetadas antes da era do dimensionamento massivo. Quando os modelos cresceram para centenas de bilhões de parâmetros, as GPUs evoluíram em paralelo. Os chips modernos são essencialmente multiplicadores de matriz especializados, otimizados para as arquiteturas de transformador dominantes.

Um kernel é a tradução entre abstração e silício. É a instrução da GPU sobre como mover dados de forma eficiente e executar cálculos. Um bom kernel desbloqueará o poder total do hardware. Um ruim deixará sem ser utilizado.

Para aplicações nativas de IA (produtos construídos com IA), essa lacuna é crítica:

  • Não é possível construir uma aplicação de IA responsiva em uma infraestrutura operando abaixo do ideal
  • O custo da infraestrutura dispara se os kernels não forem otimizados
  • O dimensionamento de um negócio de IA permanece impossível se a inferência custar 2 vezes mais do que deveria

ThunderKittens e Blackwell: uma semana em vez de um ano

Março de 2025. A equipe cresceu para 15 pessoas — uma mistura de pesquisadores de ML aprendendo com desafios de sistemas e veteranos de GPU que migraram para IA. Together AI obteve acesso às novas GPUs NVIDIA Blackwell — uma geração com uma arquitetura fundamentalmente diferente.

O desafio era específico: a NVIDIA gastou um ano, envolvendo dezenas de engenheiros, para desenvolver kernels otimizados para Blackwell. Together AI se propôs a meta: uma semana.

A solução foi montada a partir do que desenvolveram com pesquisadores de Stanford — a biblioteca ThunderKittens. Em vez de codificar manualmente algo específico para cada nova geração de GPU, criaram um framework universal que escala.

Em 5 dias, completaram trabalho que normalmente leva um ano. Não é apenas uma questão de velocidade de desenvolvimento. É prova de que sua metodologia de kernel realmente escala e se generaliza para novo hardware sem refazer do zero.

O que isso significa

A nuvem nativa de IA precisa de infraestrutura nativa de IA, otimizada a partir do silício para cima. A lacuna entre modelos e GPUs não se fecha em publicações científicas e nem em conferências — ela se fecha no código, nos kernels, em como os dados se movem fisicamente pela memória do chip. A equipe que entende isso e pode fazer rapidamente vence nesta era.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…