MarkTechPost→ original

OpenAI apresenta o protocolo MRC para redes de supercomputadores com milhões de GPUs

A OpenAI, junto com AMD, Broadcom, Intel, Microsoft e NVIDIA, desenvolveu o protocolo MRC para redes de supercomputadores de AI. Ele distribui pacotes por cente

Processado por IA de MarkTechPost; editado por Hamidun News
OpenAI apresenta o protocolo MRC para redes de supercomputadores com milhões de GPUs
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

OpenAI, em colaboração com AMD, Broadcom, Intel, Microsoft e NVIDIA, apresentou o MRC (Multipath Reliable Connection) — um novo protocolo de rede aberto para grandes clusters de AI. O protocolo resolve um problema-chave: como construir um supercomputador com centenas de milhares de GPUs quando a confiabilidade da rede se torna um gargalo.

Como o MRC Funciona

O MRC distribui pacotes de dados por centenas de caminhos de rede simultaneamente. Isso significa que se um caminho falhar, os dados viajam por rotas alternativas sem perder velocidade. A recuperação de falhas ocorre em microssegundos — tão rápido que o treinamento da rede neural mal nota as interrupções. Os protocolos de rede tradicionais selecionam um caminho primário e comutam para um backup apenas se o primário falhar. O MRC funciona em um princípio fundamentalmente diferente: monitora centenas de caminhos potenciais em tempo real e distribui dinamicamente a carga entre canais saudáveis. É como a diferença entre uma única estrada com um desvio e uma rede de vielas onde os carros podem viajar por qualquer rota livre.

Vantagens Práticas

O principal sucesso do MRC é simplificar a arquitetura do supercomputador. Anteriormente, clusters com 100.000+ GPUs exigiam uma hierarquia de três níveis de comutadores Ethernet. Caro, complexo de montar e exige muita energia para resfriamento. O MRC permite apenas dois níveis, o que simplifica radicalmente o design e reduz os custos de equipamento.

  • Menos equipamento de rede — montagem e manutenção simplificadas
  • Latência de rede reduzida graças a caminhos mais diretos entre GPUs
  • Redução no consumo de energia para resfriamento de comutadores
  • Melhor escalabilidade — arquitetura funciona até milhões de GPUs

Padrão Aberto para o Ecossistema

O MRC não é uma solução fechada de uma empresa. OpenAI escolheu uma abordagem aberta e envolveu os principais fabricantes de equipamento de rede: AMD, Broadcom, Intel, Microsoft, NVIDIA. Isso significa que outras empresas, provedores de nuvem e centros de pesquisa poderão implementar o MRC em seus supercomputadores. A abertura do padrão é importante justamente porque nesses níveis de escala, até pequenas melhorias em confiabilidade e eficiência de rede afetam o custo do treinamento de modelos e a velocidade de desenvolvimento em toda a indústria de AI.

O Que Isso Significa

MRC é uma resposta ao desafio de escala. À medida que os modelos de AI crescem, aumentam as demandas sobre a infraestrutura computacional. A arquitetura de rede que funciona para um cluster de 10.000 GPUs pode se tornar um gargalo em 500.000 GPUs. O MRC permite construir supercomputadores ainda maiores sem uma revisão radical da arquitetura. Para a indústria, isso significa treinamento de modelos mais barato e implementação mais rápida de inovações.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…