Together AI Blog→ original

Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200

A Together AI lançou o Instant Clusters — clusters de GPU autossuficientes para treinamento e inferência de modelos. Suportam NVIDIA H100 e B200, prontos para f

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Together AI oficialmente lançou o Instant Clusters — clusters de GPU autossuficientes, que são implantados em minutos e prontos para produção sem longos processos de aprovação e configuração manual.

O que é isso

O Instant Clusters são clusters de GPU baseados nas NVIDIA H100 e B200, implantados via API como serviços em nuvem. Você cria um cluster através do console web, CLI ou programaticamente, e em poucos minutos ele está pronto para receber cargas de trabalho. A arquitetura permite começar com uma configuração compacta — 8 GPUs em um nó — e dimensionar para centenas de GPUs em uma configuração de rede distribuída sem alterar o código da aplicação.

Os clusters são flexíveis na escolha de orquestração: suportam Kubernetes para workloads containerizados e Slurm para HPC tradicional. Você pode fixar as versões do NVIDIA Driver e CUDA para cada cluster, garantindo reprodutibilidade entre execuções e experimentos. A integração com ferramentas de infraestrutura como código (Terraform, SkyPilot) torna a implantação parte do pipeline de CI/CD.

Stack completo incluído

Normalmente, a construção de um cluster de GPU requer dias de trabalho de engenharia: instalação de drivers em cada nó, configuração de fabrics de rede, configuração de certificados HTTPS, organização de armazenamento e gerenciamento de recursos. O Instant Clusters resolve esse problema: todos os componentes críticos já estão incorporados na imagem e prontos para execução. O que vem na caixa:

  • GPU Operator — instalação automática e gerenciamento de drivers NVIDIA, incluindo runtime para CUDA e contêineres
  • Ingress Controller — roteamento de tráfego de entrada para o cluster, suporte para balanceamento e failover
  • NVIDIA Network Operator — gerenciamento de redes de alta velocidade (NVIDIA Quantum InfiniBand e Spectrum-X Ethernet com RoCE)
  • Cert Manager — criação automática e rotação de certificados TLS para endpoints HTTPS
  • Armazenamento — armazenamento paralelo de alto desempenho localizado próximo aos nós de computação para acesso rápido

Resultado: o cluster está pronto para produção fora da caixa, sem semanas de configuração após a implantação.

Otimizado para treinamento em larga escala

Os clusters são projetados para treinamento distribuído de modelos. Entre os nós, é usado NVIDIA Quantum-2 InfiniBand com garantia de baixa latência e alta largura de banda. Dentro de cada nó, as GPUs são conectadas através de NVLink e NVLink Switch, proporcionando comunicação ultrarápida.

Essa arquitetura é crítica para aprendizado por reforço, pré-treinamento de grandes modelos e cronogramas de treinamento multifásicos. Exemplo concreto: a empresa Latent Health treina modelos que raciocinam como clínicos, analisando dados clínicos multimodais. Os modelos devem levar em conta preferências complexas (por exemplo, como resolver diagnósticos conflitantes) e requisitos de diferentes seguradoras.

Com o Instant Clusters, eles podem executar aprendizado por reforço em larga escala em conjuntos completos de dados clínicos, experimentar rapidamente e depois destilar os resultados em modelos pequenos e eficientes, que frequentemente superam modelos de fundação muito maiores.

«Com o

Instant Clusters, podemos começar um experimento em escala completa em horas em vez de semanas de preparação de infraestrutura».

O que isso significa

A infraestrutura de GPU agora se sente como uma nuvem moderna: API-first, autoatendimento, dimensionamento previsível. Anteriormente, os clusters de GPU eram montados manualmente, de forma longa e complexa. Agora é um serviço em nuvem gerenciado. Para startups, significa um caminho rápido para a primeira inferência sem custos de engenharia de infraestrutura. Para empresas — resposta rápida à demanda: crescimento inesperado de tráfego de inferência ou novo projeto de pesquisa requer apenas uma chamada de API, não longas compras.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…