OpenAI presenta el protocolo MRC para redes de supercomputadoras con millones de GPUs
OpenAI, junto con AMD, Broadcom, Intel, Microsoft y NVIDIA, desarrolló el protocolo MRC para redes de supercomputadoras de AI. Distribuye paquetes por cientos d
Procesado por IA desde MarkTechPost; editado por Hamidun News
OpenAI, en colaboración con AMD, Broadcom, Intel, Microsoft y NVIDIA, presentó el MRC (Multipath Reliable Connection) — un nuevo protocolo de red abierto para grandes clusters de AI. El protocolo resuelve un problema clave: cómo construir una supercomputadora con cientos de miles de GPUs cuando la confiabilidad de la red se convierte en un cuello de botella.
Cómo Funciona el MRC
El MRC distribuye paquetes de datos por cientos de rutas de red simultáneamente. Esto significa que si una ruta falla, los datos viajan por rutas alternativas sin perder velocidad. La recuperación de fallos ocurre en microsegundos — tan rápido que el entrenamiento de la red neuronal apenas se da cuenta de las interrupciones.
Los protocolos de red tradicionales seleccionan una ruta primaria y cambian a una copia de seguridad solo si la primaria falla. El MRC funciona bajo un principio fundamentalmente diferente: monitorea cientos de rutas potenciales en tiempo real y distribuye dinámicamente la carga entre canales saludables. Es como la diferencia entre una sola carretera con un desvío y una red de callejones donde los autos pueden viajar por cualquier ruta libre.
Ventajas Prácticas
El principal logro del MRC es simplificar la arquitectura de las supercomputadoras. Anteriormente, los clusters con 100.000+ GPUs requerían una jerarquía de tres niveles de conmutadores Ethernet. Costoso, complejo de montar y requiere mucha energía para el enfriamiento. El MRC permite solo dos niveles, lo que simplifica radicalmente el diseño y reduce los costos de equipamiento.
- Menos equipamiento de red — montaje y mantenimiento simplificados
- Latencia de red reducida gracias a rutas más directas entre GPUs
- Reducción del consumo de energía para el enfriamiento de conmutadores
- Mejor escalabilidad — la arquitectura funciona hasta millones de GPUs
Estándar Abierto para el Ecosistema
El MRC no es una solución cerrada de una sola empresa. OpenAI eligió un enfoque abierto e implicó a los principales fabricantes de equipamiento de red: AMD, Broadcom, Intel, Microsoft, NVIDIA. Esto significa que otras empresas, proveedores de nube y centros de investigación podrán implementar el MRC en sus supercomputadoras. La apertura del estándar es importante precisamente porque a estas escalas, incluso pequeñas mejoras en confiabilidad y eficiencia de la red afectan el costo del entrenamiento de modelos y la velocidad de desarrollo en toda la industria de AI.
Qué Significa Esto
El MRC es una respuesta al desafío de la escala. A medida que crecen los modelos de AI, crecen las demandas en la infraestructura computacional. La arquitectura de red que funciona para un cluster de 10.000 GPUs puede convertirse en un cuello de botella en 500.000 GPUs. El MRC permite construir supercomputadoras aún más grandes sin una replanificación radical de la arquitectura. Para la industria, esto significa entrenamiento de modelos más económico e implementación más rápida de innovaciones.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.