Together AI lançou os clusters de GPU autossuficientes Instant Clusters nas NVIDIA H100 e B200
A Together AI lançou o Instant Clusters — clusters de GPU autossuficientes para treinamento e inferência de modelos. Suportam NVIDIA H100 e B200, prontos para f
Processado por IA de Together AI Blog; editado por Hamidun News
A Together AI oficialmente lançou o Instant Clusters — clusters de GPU autossuficientes, que são implantados em minutos e prontos para produção sem longos processos de aprovação e configuração manual.
O que é isso
O Instant Clusters são clusters de GPU baseados nas NVIDIA H100 e B200, implantados via API como serviços em nuvem. Você cria um cluster através do console web, CLI ou programaticamente, e em poucos minutos ele está pronto para receber cargas de trabalho. A arquitetura permite começar com uma configuração compacta — 8 GPUs em um nó — e dimensionar para centenas de GPUs em uma configuração de rede distribuída sem alterar o código da aplicação.
Os clusters são flexíveis na escolha de orquestração: suportam Kubernetes para workloads containerizados e Slurm para HPC tradicional. Você pode fixar as versões do NVIDIA Driver e CUDA para cada cluster, garantindo reprodutibilidade entre execuções e experimentos. A integração com ferramentas de infraestrutura como código (Terraform, SkyPilot) torna a implantação parte do pipeline de CI/CD.
Stack completo incluído
Normalmente, a construção de um cluster de GPU requer dias de trabalho de engenharia: instalação de drivers em cada nó, configuração de fabrics de rede, configuração de certificados HTTPS, organização de armazenamento e gerenciamento de recursos. O Instant Clusters resolve esse problema: todos os componentes críticos já estão incorporados na imagem e prontos para execução. O que vem na caixa:
- GPU Operator — instalação automática e gerenciamento de drivers NVIDIA, incluindo runtime para CUDA e contêineres
- Ingress Controller — roteamento de tráfego de entrada para o cluster, suporte para balanceamento e failover
- NVIDIA Network Operator — gerenciamento de redes de alta velocidade (NVIDIA Quantum InfiniBand e Spectrum-X Ethernet com RoCE)
- Cert Manager — criação automática e rotação de certificados TLS para endpoints HTTPS
- Armazenamento — armazenamento paralelo de alto desempenho localizado próximo aos nós de computação para acesso rápido
Resultado: o cluster está pronto para produção fora da caixa, sem semanas de configuração após a implantação.
Otimizado para treinamento em larga escala
Os clusters são projetados para treinamento distribuído de modelos. Entre os nós, é usado NVIDIA Quantum-2 InfiniBand com garantia de baixa latência e alta largura de banda. Dentro de cada nó, as GPUs são conectadas através de NVLink e NVLink Switch, proporcionando comunicação ultrarápida.
Essa arquitetura é crítica para aprendizado por reforço, pré-treinamento de grandes modelos e cronogramas de treinamento multifásicos. Exemplo concreto: a empresa Latent Health treina modelos que raciocinam como clínicos, analisando dados clínicos multimodais. Os modelos devem levar em conta preferências complexas (por exemplo, como resolver diagnósticos conflitantes) e requisitos de diferentes seguradoras.
Com o Instant Clusters, eles podem executar aprendizado por reforço em larga escala em conjuntos completos de dados clínicos, experimentar rapidamente e depois destilar os resultados em modelos pequenos e eficientes, que frequentemente superam modelos de fundação muito maiores.
«Com o
Instant Clusters, podemos começar um experimento em escala completa em horas em vez de semanas de preparação de infraestrutura».
O que isso significa
A infraestrutura de GPU agora se sente como uma nuvem moderna: API-first, autoatendimento, dimensionamento previsível. Anteriormente, os clusters de GPU eram montados manualmente, de forma longa e complexa. Agora é um serviço em nuvem gerenciado. Para startups, significa um caminho rápido para a primeira inferência sem custos de engenharia de infraestrutura. Para empresas — resposta rápida à demanda: crescimento inesperado de tráfego de inferência ou novo projeto de pesquisa requer apenas uma chamada de API, não longas compras.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.