MarkTechPost→ original

UC Berkeley criou mKernel: uma biblioteca unificada para sincronização de GPU em clusters

A equipe UCCL da UC Berkeley lançou mKernel — uma biblioteca CUDA para sincronização de GPU em clusters massivos. Em vez de três ferramentas separadas, ela comb

UC Berkeley criou mKernel: uma biblioteca unificada para sincronização de GPU em clusters
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A equipe UCCL da UC Berkeley lançou o mKernel — uma biblioteca CUDA que revoluciona a sincronização de GPU em grandes clusters. A biblioteca combina comunicação local entre GPUs, sincronização entre servidores e computação em um único kernel persistente, evitando constantes trocas de contexto.

Gargalo em Clusters em Grande Escala

Em grandes data centers, a sincronização entre GPUs é um dos principais gargalos de largura de banda. Quando engenheiros trabalham no treinamento distribuído de grandes modelos, eles enfrentam um problema que era tradicionalmente resolvido de forma muito ineficiente. A abordagem antiga era em camadas: engenheiros usavam três ferramentas e bibliotecas separadas.

A primeira — para comunicação rápida dentro de um único servidor (NVLink, que funciona através de cabos de alta velocidade entre GPUs). A segunda — para sincronização entre diferentes servidores pela rede (RDMA, que usa adaptadores de rede especializados). A terceira — para os próprios cálculos.

Cada transição entre esses três sistemas congela todo o pipeline da GPU: ela é forçada a parar, trocar contexto, descarregar parte da memória, carregar novos dados, e somente depois continuar funcionando. Em clusters com milhares de GPUs, essas atrasos de microsegundo se acumulam em minutos de desempenho perdido.

Como o mKernel Resolve o Problema

O mKernel muda a filosofia radicalmente. Em vez de três sistemas separados, todas as operações — comunicação local, sincronização de rede e computação — funcionam em um único kernel persistente. Este é um programa que vive constantemente na memória da GPU e nunca é descarregado para a CPU. A arquitetura combina três componentes:

  • NVLink para comunicação entre GPUs em um servidor — oferece velocidades 10-20x mais altas que PCIe, graças a canais de alta velocidade diretos entre GPUs
  • RDMA através de adaptadores de rede para sincronização entre servidores — evita sobrecarga da CPU e atrasos do sistema operacional ao transferir dados entre máquinas
  • Computações densas incorporadas diretamente no kernel — a GPU funciona com dados locais sem trocas, sincroniza com vizinhos e imediatamente passa para a próxima tarefa

Isso significa que a GPU pode fazer a transição perfeitamente da comunicação local por NVLink para sincronização global por RDMA para seus próprios cálculos — tudo em um único pedaço de código, sem nenhuma parada.

Exemplo Concreto: Como Funciona na Prática

No treinamento distribuído, uma GPU não pode avançar até que outras GPUs em diferentes servidores terminem seus cálculos e sincronizem gradientes. Na abordagem antiga, a GPU simplesmente espera com um pipeline completamente vazio. Com o mKernel o processo é diferente: a GPU continua cálculos locais em dados já carregados, sincroniza simultaneamente com vizinhos via NVLink e RDMA, e imediatamente passa para a próxima onda de treinamento sem interrupções. É como uma linha de montagem de fábrica de automóveis que não para enquanto uma peça se move para a próxima estação.

Por Que Isso É Crítico para Data Centers

O treinamento distribuído de grandes modelos é uma das tarefas computacionais mais complexas no desenvolvimento de IA moderno. Quando você usa simultaneamente 1000 GPUs (e grandes empresas trabalham com ainda mais), até mesmo um pequeno atraso de sincronização pode desperdiçar 20-30% de todos os recursos inutilmente. O mKernel promete eliminar completamente esse overhead. Em testes iniciais, pesquisadores já veem resultados: em clusters multi-nó, a biblioteca mostra aceleração de sincronização 2-3x em operações típicas. Isso é especialmente crítico para o mecanismo de atenção em transformers, onde a sincronização de gradientes entre GPUs é a parte mais custosa de todo o trabalho.

O Que Isso Significa

O mKernel é um sinal de que a programação de GPU está entrando em uma era de sistemas integrados. Anteriormente, engenheiros escreviam código em camadas: primeiro cálculos, depois sincronização, depois transmissão. Agora a fronteira entre eles está desfocada. Isso significa computação mais rápida em data centers, isso significa treinamento mais acessível e mais rápido de grandes modelos, e mais importante — a próxima geração de sistemas distribuídos será projetada de forma completamente nova.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…