Together AI Blog→ original

Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell

A Together AI apresentou resultados com NVIDIA Blackwell: o treinamento do Llama 70B ficou 90% mais rápido em relação ao H100. 15.264 tokens/seg contra 8.080, g

Together AI alcança 90% mais velocidade no treinamento com NVIDIA Blackwell
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Together AI anunciou acesso imediato a clusters de GPU acelerados por NVIDIA Blackwell e apresentou seu próprio stack de otimização, especialmente adaptado para a nova arquitetura de hardware de redes neurais.

Resultados: 90% de aceleração versus H100

Ao testar o modelo Llama com 70 bilhões de parâmetros, a equipe da Together AI alcançou 15.264 tokens por segundo em uma única GPU. Isso quase dobra o resultado da geração anterior NVIDIA HGX H100, que em configuração otimizada processava 8.080 tokens por segundo.

Os resultados foram alcançados através de uma versão otimizada do TorchTitan combinada com Together Kernel Collection — a coleção própria de kernels otimizados da empresa. Para contexto: trata-se de precisão BF16 (Brain Float 16 — um compromisso entre velocidade e precisão, que agora é o padrão para treinar modelos grandes). De acordo com a empresa, com otimizações adicionais ainda em desenvolvimento, a velocidade continuará crescendo.

Como funciona: otimização no nível da arquitetura

A aceleração tornou-se possível graças à otimização profunda adequada à arquitetura específica de GPU. A Together AI desenvolveu uma série de componentes que aproveitam plenamente as capacidades do NVIDIA Blackwell:

  • Kernels FP8 customizados funcionando com Tensor Cores NVIDIA de 5ª geração (blocos de computação de alto desempenho)
  • Kernels de atenção operando 1,8 vezes mais rápido que FlashAttention-3 (padrão atual para mecanismo de atenção otimizado)
  • Integração com a biblioteca aberta ThunderKittens para utilização completa de memória dedicada no chip
  • Algoritmos de treinamento distribuído adaptados à topologia de rede Quantum-2 InfiniBand

Tri Dao, cientista-chefe da Together AI e criador do FlashAttention, observou: "Otimizamos cada nível da stack de IA para aproveitar plenamente os avanços da arquitetura GPU. Especialmente gostamos dos novos Tensor Cores e do formato microscaling para aceleração de inferência. A combinação de Together Kernel Collection com NVIDIA Blackwell redefine os padrões de treinamento e inferência eficientes em escala."

Programa de testes e escalabilidade

Como parte de um programa de lançamento exclusivo, a Together AI convida oito empresas de IA pioneiras a acesso direto aos nós HGX B200 dedicados e a oportunidade de colaborar com engenheiros da NVIDIA e pesquisadores da Together AI. O objetivo é acelerar conjuntamente as cargas de trabalho e encontrar otimizações adicionais.

Em paralelo, a empresa está implantando dezenas de milhares de servidores HGX B200 e soluções completas GB200 NVL72 com redes NVIDIA Quantum-2 InfiniBand. Isso inclui o cluster previamente anunciado de 36.000+ GPUs para treinamento de modelos e agentes da próxima geração.

O que isso significa

Para empresas de IA, o resultado é prático: o treinamento de modelos grandes será mais barato e rápido. Com um ganho de velocidade de 90%, modelos que anteriormente exigiam semanas agora treinam em dias. Isso reduz significativamente as despesas de capital com computação e acelera o ciclo de experimentação de novas arquiteturas. Para o mercado em geral, este é um sinal: a era dos serviços genéricos de GPU está terminando. Empresas de IA que escrevem seus próprios kernels otimizados para arquiteturas específicas (como a Together AI com ThunderKittens) ganham uma vantagem competitiva em velocidade e custo. E isso afeta diretamente o preço do treinamento e, em última análise, o preço dos serviços de IA para os usuários finais.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…