OpenAI Blog→ original

OpenAI presentó MRC — un protocolo de red para clusters de entrenamiento de AI con 100.000 GPUs

A través del Open Compute Project, OpenAI publicó la especificación de MRC, un nuevo protocolo de red para el entrenamiento de grandes modelos. Divide el tráfic

Procesado por IA desde OpenAI Blog; editado por Hamidun News
OpenAI presentó MRC — un protocolo de red para clusters de entrenamiento de AI con 100.000 GPUs
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI ha presentado MRC — un nuevo protocolo de red para supercomputadoras utilizadas en el entrenamiento de grandes modelos de IA. Según la empresa, ya está desplegado en todos sus mayores clusters en NVIDIA GB200, incluyendo la instalación OCI en Abilene y los sistemas Microsoft Fairwater, y ayuda a mantener el rendimiento incluso cuando los enlaces de red y conmutadores fallan.

Por Qué Se Necesitaba MRC

El entrenamiento de modelos frontier depende no solo de las propias GPU, sino también de la red entre ellas. En cada paso de entrenamiento, ocurren millones de intercambios de datos, y si aunque sea un paquete o flujo llega notablemente más tarde que los demás, algunos aceleradores comienzan a quedarse ociosos. En clusters más pequeños, tales retrasos aún pueden tolerarse, pero en sistemas de la escala de Stargate, el problema se vuelve sistémico: cuantos más nodos implicados, mayor es la posibilidad de congestión, fluctuación de latencia y fallos de hardware.

Para OpenAI, esto ya no es un desafío de ingeniería secundario. La empresa señala que ChatGPT es utilizado por más de 900 millones de personas semanalmente, lo que significa que la infraestructura computacional se está convirtiendo en una capa fundamental del servicio. Por eso el equipo, trabajando con AMD, Broadcom, Intel, Microsoft y NVIDIA durante los últimos dos años, ha reconstruido la pila de red para proporcionar no solo alta velocidad, sino un comportamiento predecible bajo carga y durante fallos parciales.

Cómo Funciona la Red

La idea clave detrás de MRC es no tratar la interfaz de red como una única tubería grande a 800 Gbps. En su lugar, OpenAI la divide en varios canales más pequeños: por ejemplo, ocho líneas de 100 Gbps, cada una yendo a su propio conmutador. Esto crea una red multi-plano donde el mismo tráfico puede encaminarse a través de muchos caminos independientes.

En tal configuración, según las estimaciones de OpenAI, se puede construir una red de aproximadamente 131.000 GPU con solo dos niveles de conmutadores Ethernet, mientras que un diseño tradicional de 800 Gbps requeriría tres o cuatro niveles. El propio protocolo luego entra en juego, extendiendo la familiar pila RoCE para tareas de entrenamiento de IA.

En lugar de enviar todo el tráfico por una única ruta, MRC "dispersa" paquetes de una única transferencia a través de cientos de caminos simultáneamente. Los paquetes pueden llegar fuera de orden, pero esto es aceptable porque cada paquete ya especifica su dirección de memoria final, y el receptor ensambla los datos en su lugar conforme llegan. Esto permite que la red use los canales disponibles de forma más uniforme y maneja mucho mejor la congestión local.

  • Un único intercambio se divide en múltiples caminos paralelos a través de diferentes planos de red
  • Cuando se detectan signos de congestión, el protocolo elimina el camino problemático y lo reemplaza con otro
  • Cuando se pierde un paquete, MRC rápidamente asume el fallo y retransmite los datos
  • Si un paquete se pierde debido a congestión en el lado del receptor, el packet trimming ayuda—enviando solo el encabezado para solicitar explícitamente la retransmisión

OpenAI enfatiza específicamente que MRC puede eludir fallos de red en escalas de microsegundos, mientras que los fabrics tradicionales podrían requerir segundos o incluso decenas de segundos para reconfigurar rutas. Esto es especialmente crítico para el entrenamiento síncrono, donde todo el paso de computación está determinado no por el promedio, sino por la transferencia más lenta en el cluster. Con este equilibrio, múltiples tareas pueden compartir un único cluster con menor riesgo de interferencia mutua.

Qué Cambia en la Operación

Otro cambio importante es alejarse del enrutamiento dinámico convencional a favor del enrutamiento de origen basado en SRv6. En una red típica, los conmutadores recalculan las rutas a través de protocolos como BGP, lo que añade complejidad e introduce nuevos modos de fallo. En MRC, el remitente codifica la ruta del paquete directamente en la dirección IPv6, y los conmutadores simplemente ejecutan esta ruta secuencialmente usando tablas estáticas.

La idea parece radical, pero según OpenAI, simplifica el plano de control y elimina la necesidad de reparar constantemente la lógica de red manualmente. Para OpenAI, la práctica importa más que la teoría, y aquí la empresa tiene números concretos. Reporta que sus redes de entrenamiento constan de millones de enlaces, y en despliegues reales, pueden ocurrir múltiples interrupciones breves entre conmutadores tier-0 y tier-1 cada minuto—sin impacto medible en el pretraining síncrono.

Durante el entrenamiento de uno de sus modelos frontier recientes para ChatGPT y Codex, los ingenieros tuvieron que reiniciar cuatro conmutadores tier-1, y esto no requirió coordinación con los equipos que estaban realizando el entrenamiento en ese momento. Si una interfaz de red de ocho puertos pierde un puerto, el rendimiento disminuye como máximo una octava parte, pero la tarea en sí continúa ejecutándose en lugar de fallar completamente.

Lo Que Esto Significa

MRC demuestra que la carrera por modelos más fuertes se está desplazando cada vez más hacia la infraestructura. OpenAI no solo está acelerando el entrenamiento de sus clusters, sino que también está contribuyendo el protocolo al Open Compute Project, intentando convertir su propia solución de ingeniería en un estándar industrial. Si el enfoque es adoptado por otros laboratorios y proveedores en la nube, los grandes clusters de IA se volverán más baratos, más simples de operar y más resilientes a fallos sin ajuste de red manual constante.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…