OpenAI apresentou o MRC — um protocolo de rede para clusters de treinamento de AI com 100 mil GPUs
Por meio do Open Compute Project, a OpenAI publicou a especificação do MRC, um novo protocolo de rede para o treinamento de grandes modelos. Ele divide o tráfeg

◐ Слушать статью
Por meio do Open Compute Project, a OpenAI publicou a especificação do MRC, um novo protocolo de rede para o treinamento de grandes modelos. Ele divide o tráfego de uma única comunicação em centenas de caminhos, contorna falhas mais rápido e simplifica a arquitetura de rede. Segundo a empresa, o MRC já opera nos maiores clusters com NVIDIA GB200 e permite suportar falhas de links e até reinicializações de switches sem interromper o treinamento.