UC Berkeley creó mKernel: una biblioteca unificada para sincronización de GPU en clústeres
El equipo UCCL de UC Berkeley lanzó mKernel — una biblioteca CUDA para sincronización de GPU en clústeres masivos. En lugar de tres herramientas separadas, comb

El equipo UCCL de UC Berkeley ha lanzado mKernel — una biblioteca CUDA que revoluciona la sincronización de GPU en grandes clusters. La biblioteca combina comunicación local entre GPUs, sincronización entre servidores y computación en un único kernel persistente, evitando cambios de contexto constantes.
Cuello de botella en Clusters a Gran Escala
En grandes centros de datos, la sincronización entre GPUs es uno de los principales cuellos de botella en ancho de banda. Cuando los ingenieros trabajan en el entrenamiento distribuido de modelos grandes, enfrentan un problema que tradicionalmente se ha resuelto de manera muy ineficiente. El enfoque antiguo era por capas: los ingenieros usaban tres herramientas y bibliotecas separadas.
La primera — para comunicación rápida dentro de un servidor único (NVLink, que funciona a través de cables de alta velocidad entre GPUs). La segunda — para sincronización entre diferentes servidores a través de la red (RDMA, que usa adaptadores de red especializados). La tercera — para los cálculos en sí.
Cada transición entre estos tres sistemas congela todo el pipeline de GPU: se ve obligada a detenerse, cambiar contexto, descargar parte de la memoria, cargar nuevos datos, y solo entonces continuar funcionando. En clusters con miles de GPUs, estos retrasos de microsegundos se acumulan en minutos de rendimiento perdido.
Cómo mKernel Resuelve el Problema
mKernel cambia la filosofía radicalmente. En lugar de tres sistemas separados, todas las operaciones — comunicación local, sincronización de red y computación — funcionan en un único kernel persistente. Este es un programa que vive constantemente en la memoria de GPU y nunca se descarga en la CPU. La arquitectura combina tres componentes:
- NVLink para comunicación entre GPUs en un servidor — proporciona velocidades 10-20x más altas que PCIe, gracias a canales de alta velocidad directos entre GPUs
- RDMA a través de adaptadores de red para sincronización entre servidores — evita sobrecarga de CPU y retrasos del sistema operativo al transferir datos entre máquinas
- Cálculos densos integrados directamente en el kernel — la GPU funciona con datos locales sin cambios, se sincroniza con vecinos e inmediatamente pasa a la siguiente tarea
Esto significa que la GPU puede hacer la transición sin problemas de comunicación local por NVLink a sincronización global por RDMA a sus propios cálculos — todo en una única pieza de código, sin paradas.
Ejemplo Concreto: Cómo Funciona en la Práctica
En el entrenamiento distribuido, una GPU no puede avanzar hasta que otras GPUs en diferentes servidores terminen sus cálculos y sincronicen gradientes. En el enfoque antiguo, la GPU simplemente espera con un pipeline completamente vacío. Con mKernel el proceso es diferente: la GPU continúa cálculos locales en datos ya cargados, se sincroniza simultáneamente con vecinos vía NVLink y RDMA, e inmediatamente pasa a la siguiente onda de entrenamiento sin interrupciones. Es como una línea de montaje de fábrica de automóviles que no se detiene mientras una pieza se mueve a la siguiente estación.
Por Qué Esto Es Crítico para Data Centers
El entrenamiento distribuido de modelos grandes es una de las tareas computacionales más complejas en el desarrollo de IA moderno. Cuando utilizas simultáneamente 1000 GPUs (y las grandes empresas trabajan con aún más), incluso un pequeño retraso de sincronización puede desperdiciar el 20-30% de todos los recursos inútilmente. mKernel promete eliminar completamente este overhead. En pruebas iniciales, los investigadores ya ven resultados: en clusters multinodo, la biblioteca muestra aceleración de sincronización 2-3x en operaciones típicas. Esto es especialmente crítico para el mecanismo de atención en transformers, donde la sincronización de gradientes entre GPUs es la parte más costosa de todo el trabajo.
Qué Significa Esto
mKernel es una señal de que la programación de GPU está entrando en una era de sistemas integrados. Anteriormente, los ingenieros escribían código en capas: primero cálculos, luego sincronización, luego transmisión. Ahora el límite entre ellos se está difuminando. Esto significa computación más rápida en data centers, esto significa entrenamiento más accesible y más rápido de modelos grandes, y lo más importante — la próxima generación de sistemas distribuidos se diseñará de una manera completamente nueva.