MarkTechPost→ оригинал

OpenAI представила протокол MRC для сетей суперкомпьютеров с миллионами GPU

OpenAI с AMD, Broadcom, Intel, Microsoft и NVIDIA разработала протокол MRC для сетей AI суперкомпьютеров. Он распределяет пакеты по сотням путей одновременно и

OpenAI представила протокол MRC для сетей суперкомпьютеров с миллионами GPU
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI, в сотрудничестве с AMD, Broadcom, Intel, Microsoft и NVIDIA, представила MRC (Multipath Reliable Connection) — новый открытый сетевой протокол для больших AI кластеров. Протокол решает ключевую проблему: как построить суперкомпьютер с сотнями тысяч GPU, когда сетевая надёжность становится узким местом.

Как работает MRC MRC распределяет пакеты данных по сотням сетевых путей одновременно.

Это означает, что если один путь отказывает, данные идут по альтернативным маршрутам без потери скорости. Восстановление после сбоев происходит за микросекунды — настолько быстро, что обучение нейросети почти не замечает помех. Традиционные сетевые протоколы выбирают один основной путь и переключаются на резервный только если основной сломался. MRC работает принципиально иначе: он мониторит сотни потенциальных путей в реальном времени и динамически распределяет нагрузку между здоровыми каналами. Это похоже на разницу между одной дорогой с объездом и сетью переулков, где машины могут ехать по любому свободному маршруту.

Практические преимущества Главное достижение MRC — упростить архитектуру суперкомпьютеров.

Раньше для кластеров с 100+ тысячами GPU требовалась трёх-ярусная иерархия коммутаторов Ethernet. Дорого, сложно в монтаже, требует много энергии на охлаждение. MRC позволяет обойтись всего двумя уровнями, что радикально упрощает конструкцию и снижает затраты на оборудование.

  • Меньше сетевого оборудования — упрощение монтажа и обслуживания Снижение задержек сети благодаря более прямым путям между GPU Снижение энергопотребления на охлаждение коммутаторов * Лучше масштабируется — архитектура работает до миллионов GPU ## Открытый стандарт для экосистемы MRC — это не закрытое решение одной компании. OpenAI выбрала открытый подход и привлекла главных производителей сетевого оборудования: AMD, Broadcom, Intel, Microsoft, NVIDIA. Это означает, что другие компании, облачные провайдеры и исследовательские центры смогут внедрить MRC в свои суперкомпьютеры. Открытость стандарта важна именно потому, что при таких масштабах даже небольшие улучшения в надёжности и эффективности сети влияют на стоимость обучения моделей и скорость развития всей AI индустрии.

Что это значит MRC — это ответ на вызов масштаба.

По мере роста AI моделей растут требования к вычислительной инфраструктуре. Сетевая архитектура, которая работает для кластера из 10 000 GPU, может стать узким местом на 500 000 GPU. MRC позволяет строить ещё более крупные суперкомпьютеры без радикального пересмотра архитектуры. Для индустрии это значит дешевле обучение моделей и быстрее внедрение инноваций.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…