MarkTechPost→ original

OpenAI presenta el protocolo MRC para redes de supercomputadoras con millones de GPUs

OpenAI, junto con AMD, Broadcom, Intel, Microsoft y NVIDIA, desarrolló el protocolo MRC para redes de supercomputadoras de AI. Distribuye paquetes por cientos d

Procesado por IA desde MarkTechPost; editado por Hamidun News
OpenAI presenta el protocolo MRC para redes de supercomputadoras con millones de GPUs
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI, en colaboración con AMD, Broadcom, Intel, Microsoft y NVIDIA, presentó el MRC (Multipath Reliable Connection) — un nuevo protocolo de red abierto para grandes clusters de AI. El protocolo resuelve un problema clave: cómo construir una supercomputadora con cientos de miles de GPUs cuando la confiabilidad de la red se convierte en un cuello de botella.

Cómo Funciona el MRC

El MRC distribuye paquetes de datos por cientos de rutas de red simultáneamente. Esto significa que si una ruta falla, los datos viajan por rutas alternativas sin perder velocidad. La recuperación de fallos ocurre en microsegundos — tan rápido que el entrenamiento de la red neuronal apenas se da cuenta de las interrupciones.

Los protocolos de red tradicionales seleccionan una ruta primaria y cambian a una copia de seguridad solo si la primaria falla. El MRC funciona bajo un principio fundamentalmente diferente: monitorea cientos de rutas potenciales en tiempo real y distribuye dinámicamente la carga entre canales saludables. Es como la diferencia entre una sola carretera con un desvío y una red de callejones donde los autos pueden viajar por cualquier ruta libre.

Ventajas Prácticas

El principal logro del MRC es simplificar la arquitectura de las supercomputadoras. Anteriormente, los clusters con 100.000+ GPUs requerían una jerarquía de tres niveles de conmutadores Ethernet. Costoso, complejo de montar y requiere mucha energía para el enfriamiento. El MRC permite solo dos niveles, lo que simplifica radicalmente el diseño y reduce los costos de equipamiento.

  • Menos equipamiento de red — montaje y mantenimiento simplificados
  • Latencia de red reducida gracias a rutas más directas entre GPUs
  • Reducción del consumo de energía para el enfriamiento de conmutadores
  • Mejor escalabilidad — la arquitectura funciona hasta millones de GPUs

Estándar Abierto para el Ecosistema

El MRC no es una solución cerrada de una sola empresa. OpenAI eligió un enfoque abierto e implicó a los principales fabricantes de equipamiento de red: AMD, Broadcom, Intel, Microsoft, NVIDIA. Esto significa que otras empresas, proveedores de nube y centros de investigación podrán implementar el MRC en sus supercomputadoras. La apertura del estándar es importante precisamente porque a estas escalas, incluso pequeñas mejoras en confiabilidad y eficiencia de la red afectan el costo del entrenamiento de modelos y la velocidad de desarrollo en toda la industria de AI.

Qué Significa Esto

El MRC es una respuesta al desafío de la escala. A medida que crecen los modelos de AI, crecen las demandas en la infraestructura computacional. La arquitectura de red que funciona para un cluster de 10.000 GPUs puede convertirse en un cuello de botella en 500.000 GPUs. El MRC permite construir supercomputadoras aún más grandes sin una replanificación radical de la arquitectura. Para la industria, esto significa entrenamiento de modelos más económico e implementación más rápida de innovaciones.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…