OpenAI apresentou o MRC — um protocolo de rede para clusters de treinamento de AI com 100 mil GPUs
Por meio do Open Compute Project, a OpenAI publicou a especificação do MRC, um novo protocolo de rede para o treinamento de grandes modelos. Ele divide o tráfeg
Processado por IA de OpenAI Blog; editado por Hamidun News
OpenAI apresentou o MRC — um novo protocolo de rede para supercomputadores usados no treinamento de grandes modelos de IA. Segundo a empresa, ele já está implementado em todos os seus maiores clusters na NVIDIA GB200, incluindo a instalação OCI em Abilene e os sistemas Microsoft Fairwater, e ajuda a manter o desempenho mesmo quando links de rede e switches falham.
Por que o MRC era Necessário
O treinamento de modelos frontier depende não apenas das GPUs em si, mas também da rede entre elas. A cada etapa de treinamento, ocorrem milhões de trocas de dados, e se apenas um pacote ou fluxo chegar notavelmente mais tarde que os outros, alguns aceleradores começam a ficar ociosos. Em clusters menores, tais atrasos ainda podem ser tolerados, mas em sistemas na escala de Stargate, o problema se torna sistêmico: quanto mais nós envolvidos, maior a chance de congestionamento, tremulação de latência e falhas de hardware.
Para a OpenAI, isso não é mais um desafio de engenharia secundário. A empresa observa que o ChatGPT é usado por mais de 900 milhões de pessoas semanalmente, o que significa que a infraestrutura computacional está se tornando uma camada fundamental do serviço. É por isso que a equipe, trabalhando com AMD, Broadcom, Intel, Microsoft e NVIDIA nos últimos dois anos, reconstruiu a pilha de rede para fornecer não apenas alta velocidade, mas comportamento previsível sob carga e durante falhas parciais.
Como a Rede Funciona
A ideia-chave por trás do MRC é não tratar a interface de rede como um único tubo grande a 800 Gbps. Em vez disso, OpenAI a divide em vários canais menores: por exemplo, oito linhas de 100 Gbps, cada uma indo para seu próprio switch. Isso cria uma rede multi-plano onde o mesmo tráfego pode ser roteado através de muitos caminhos independentes.
Em tal configuração, de acordo com as estimativas da OpenAI, uma rede de aproximadamente 131.000 GPUs pode ser construída com apenas dois níveis de switches Ethernet, enquanto um design tradicional de 800 Gbps exigiria três ou quatro níveis. O próprio protocolo então entra em jogo, estendendo a pilha RoCE familiar para tarefas de treinamento de IA.
Em vez de enviar todo o tráfego por uma única rota, o MRC "dispersa" pacotes de uma única transferência através de centenas de caminhos simultaneamente. Os pacotes podem chegar fora de ordem, mas isso é aceitável porque cada pacote já especifica seu endereço de memória final, e o receptor monta os dados no lugar conforme chegam. Isso permite que a rede use canais disponíveis de forma mais uniforme e lida muito melhor com congestionamento local.
- Uma única troca é dividida em múltiplos caminhos paralelos através de diferentes planos de rede
- Quando sinais de congestionamento são detectados, o protocolo remove o caminho problemático e o substitui por outro
- Quando um pacote é perdido, o MRC rapidamente assume falha e retransmite os dados
- Se um pacote é perdido devido a congestionamento no lado do receptor, o packet trimming ajuda—enviando apenas o cabeçalho para solicitar explicitamente retransmissão
OpenAI enfatiza especificamente que o MRC pode contornar falhas de rede em escalas de microssegundos, enquanto os fabrics tradicionais poderiam exigir segundos ou até dezenas de segundos para reconfigurar rotas. Isso é especialmente crítico para treinamento síncrono, onde toda a etapa de computação é determinada não pela média, mas pela transferência mais lenta no cluster. Com esse balanceamento, múltiplas tarefas podem compartilhar um único cluster com menos risco de interferência mútua.
O que Muda na Operação
Outro shift importante é afastar-se do roteamento dinâmico convencional em favor do source routing baseado em SRv6. Em uma rede típica, switches recalculam rotas através de protocolos como BGP, o que adiciona complexidade e introduz novos modos de falha. No MRC, o remetente codifica o caminho do pacote diretamente no endereço IPv6, e switches simplesmente executam essa rota sequencialmente usando tabelas estáticas.
A ideia parece radical, mas de acordo com OpenAI, simplifica o plano de controle e elimina a necessidade de constantemente consertar manualmente a lógica de rede. Para OpenAI, prática importa mais que teoria, e aqui a empresa tem números concretos. Ela relata que suas redes de treinamento consistem em milhões de links, e em implantações reais, múltiplas interrupções breves podem ocorrer entre switches tier-0 e tier-1 a cada minuto—sem impacto mensurável no pretraining síncrono.
Durante o treinamento de um de seus modelos frontier recentes para ChatGPT e Codex, engenheiros tiveram que reinicializar quatro switches tier-1, e isso não exigiu coordenação com as equipes que estavam conduzindo o treinamento na época. Se uma interface de rede com oito portas perde uma porta, a taxa de transferência diminui em no máximo um oitavo, mas a tarefa em si continua executando ao invés de falhar completamente.
O que Isso Significa
MRC demonstra que a corrida por modelos mais fortes está se movimentando cada vez mais para a infraestrutura. OpenAI não está apenas acelerando o treinamento de seus clusters, mas também está contribuindo o protocolo para o Open Compute Project, tentando transformar sua própria solução de engenharia em um padrão industrial. Se a abordagem for adotada por outros labs e provedores de nuvem, grandes clusters de IA se tornarão mais baratos, mais simples de operar e mais resilientes a falhas sem ajuste de rede manual constante.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.