OpenAI apresenta o protocolo MRC para redes de supercomputadores com milhões de GPUs
A OpenAI, junto com AMD, Broadcom, Intel, Microsoft e NVIDIA, desenvolveu o protocolo MRC para redes de supercomputadores de AI. Ele distribui pacotes por cente
Processado por IA de MarkTechPost; editado por Hamidun News
OpenAI, em colaboração com AMD, Broadcom, Intel, Microsoft e NVIDIA, apresentou o MRC (Multipath Reliable Connection) — um novo protocolo de rede aberto para grandes clusters de AI. O protocolo resolve um problema-chave: como construir um supercomputador com centenas de milhares de GPUs quando a confiabilidade da rede se torna um gargalo.
Como o MRC Funciona
O MRC distribui pacotes de dados por centenas de caminhos de rede simultaneamente. Isso significa que se um caminho falhar, os dados viajam por rotas alternativas sem perder velocidade. A recuperação de falhas ocorre em microssegundos — tão rápido que o treinamento da rede neural mal nota as interrupções. Os protocolos de rede tradicionais selecionam um caminho primário e comutam para um backup apenas se o primário falhar. O MRC funciona em um princípio fundamentalmente diferente: monitora centenas de caminhos potenciais em tempo real e distribui dinamicamente a carga entre canais saudáveis. É como a diferença entre uma única estrada com um desvio e uma rede de vielas onde os carros podem viajar por qualquer rota livre.
Vantagens Práticas
O principal sucesso do MRC é simplificar a arquitetura do supercomputador. Anteriormente, clusters com 100.000+ GPUs exigiam uma hierarquia de três níveis de comutadores Ethernet. Caro, complexo de montar e exige muita energia para resfriamento. O MRC permite apenas dois níveis, o que simplifica radicalmente o design e reduz os custos de equipamento.
- Menos equipamento de rede — montagem e manutenção simplificadas
- Latência de rede reduzida graças a caminhos mais diretos entre GPUs
- Redução no consumo de energia para resfriamento de comutadores
- Melhor escalabilidade — arquitetura funciona até milhões de GPUs
Padrão Aberto para o Ecossistema
O MRC não é uma solução fechada de uma empresa. OpenAI escolheu uma abordagem aberta e envolveu os principais fabricantes de equipamento de rede: AMD, Broadcom, Intel, Microsoft, NVIDIA. Isso significa que outras empresas, provedores de nuvem e centros de pesquisa poderão implementar o MRC em seus supercomputadores. A abertura do padrão é importante justamente porque nesses níveis de escala, até pequenas melhorias em confiabilidade e eficiência de rede afetam o custo do treinamento de modelos e a velocidade de desenvolvimento em toda a indústria de AI.
O Que Isso Significa
MRC é uma resposta ao desafio de escala. À medida que os modelos de AI crescem, aumentam as demandas sobre a infraestrutura computacional. A arquitetura de rede que funciona para um cluster de 10.000 GPUs pode se tornar um gargalo em 500.000 GPUs. O MRC permite construir supercomputadores ainda maiores sem uma revisão radical da arquitetura. Para a indústria, isso significa treinamento de modelos mais barato e implementação mais rápida de inovações.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.