OpenAI presentó MRC — un protocolo de red para clusters de entrenamiento de AI con 100.000 GPUs
A través del Open Compute Project, OpenAI publicó la especificación de MRC, un nuevo protocolo de red para el entrenamiento de grandes modelos. Divide el tráfic

◐ Слушать статью
A través del Open Compute Project, OpenAI publicó la especificación de MRC, un nuevo protocolo de red para el entrenamiento de grandes modelos. Divide el tráfico de una sola comunicación en cientos de rutas, sortea los fallos más rápido y simplifica la arquitectura de red. Según la empresa, MRC ya funciona en los clusters más grandes con NVIDIA GB200 y permite sobrellevar fallos de enlaces e incluso reinicios de switches sin detener el entrenamiento.