OpenAI Blog→ оригинал

OpenAI представила MRC — сетевой протокол для обучения ИИ-кластеров на 100 тысяч GPU

OpenAI открыла через Open Compute Project спецификацию MRC — нового сетевого протокола для обучения больших моделей. Он разбивает трафик одного обмена на сотни

OpenAI представила MRC — сетевой протокол для обучения ИИ-кластеров на 100 тысяч GPU
Источник: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI рассказала о MRC — новом сетевом протоколе для суперкомпьютеров, на которых обучаются большие AI-модели. По словам компании, он уже развёрнут во всех её крупнейших кластерах на NVIDIA GB200, включая площадку OCI в Абилине и системы Microsoft Fairwater, и помогает удерживать производительность даже при сбоях линков и коммутаторов.

Зачем понадобился MRC

Обучение frontier-моделей упирается не только в сами GPU, но и в сеть между ними. На каждом шаге тренировки происходят миллионы обменов данными, и если хотя бы один пакет или один поток приходит заметно позже остальных, часть ускорителей начинает простаивать. На небольших кластерах такие задержки ещё можно пережить, но на системах уровня Stargate проблема становится системной: чем больше узлов, тем выше шанс перегрузки, дрожания задержек и аппаратных отказов.

Для OpenAI это уже не второстепенная инженерная задача. Компания пишет, что ChatGPT еженедельно используют более 900 млн человек, а значит вычислительная инфраструктура превращается в базовый слой сервиса. Поэтому команда вместе с AMD, Broadcom, Intel, Microsoft и NVIDIA последние два года пересобирала сетевой стек так, чтобы он давал не просто высокую скорость, а предсказуемое поведение под нагрузкой и при частичных поломках.

Как устроена сеть

Ключевая идея MRC — не считать сетевой интерфейс одной большой трубой на 800 Гбит/с. Вместо этого OpenAI делит его на несколько более мелких каналов: например, на восемь линий по 100 Гбит/с, каждая из которых идёт в свой коммутатор. Так получается многоплоскостная сеть, где один и тот же трафик можно вести по множеству независимых путей.

В такой конфигурации, по оценке OpenAI, можно собрать сеть примерно на 131 тысячу GPU всего с двумя уровнями Ethernet-коммутаторов, тогда как классическая схема на 800 Гбит/с потребовала бы трёх или четырёх уровней. Дальше вступает в игру сам протокол, который расширяет привычный стек RoCE для задач AI-обучения. Вместо того чтобы отправлять весь обмен по одному маршруту, MRC «распыляет» пакеты одного переноса сразу по сотням путей.

Пакеты могут приходить не по порядку, но это допустимо, потому что в них сразу указан конечный адрес в памяти, и получатель раскладывает данные по местам по мере поступления. За счёт этого сеть ровнее использует доступные каналы и заметно лучше переживает локальные перегрузки.

  • Один обмен разбивается на множество параллельных путей через разные сетевые плоскости При признаках перегрузки протокол убирает проблемный путь и заменяет его другим При потере пакета MRC быстро предполагает отказ и повторно отправляет данные * Если пакет теряется из-за перегрузки на стороне приёмника, помогает packet trimming — пересылка только заголовка для явного запроса на ретрансляцию OpenAI отдельно подчёркивает, что MRC умеет обходить сетевые сбои на масштабе микросекунд, тогда как традиционной фабрике на перестройку маршрутов могли требоваться секунды или даже десятки секунд. Это особенно важно для синхронного обучения, где весь шаг вычислений определяется не средней, а самой медленной передачей в кластере. При таком балансе несколько задач могут делить один кластер с меньшим риском мешать друг другу.

Что меняется в эксплуатации

Ещё один важный сдвиг — отказ от привычной динамической маршрутизации в пользу source routing на базе SRv6. В обычной сети коммутаторы сами пересчитывают маршруты через протоколы вроде BGP, а это добавляет сложность и новые классы отказов. В MRC отправитель сам кодирует путь пакета в IPv6-адресе, а коммутаторы просто последовательно исполняют этот маршрут по статическим таблицам.

Идея выглядит радикально, но именно она, по словам OpenAI, упрощает контрольную плоскость и убирает необходимость постоянно лечить сетевую логику вручную. Практика для OpenAI важнее теории, и здесь у компании есть конкретные цифры. Она пишет, что её обучающие сети состоят из миллионов линков, а в реальных запусках между коммутаторами tier-0 и tier-1 могут происходить множественные кратковременные обрывы каждую минуту — без измеримого влияния на синхронное pretraining-обучение.

Во время тренировки одной из недавних frontier-моделей для ChatGPT и Codex инженерам пришлось перезагрузить четыре коммутатора tier-1, и это не потребовало координации с командами, которые в тот момент вели обучение. Если у сетевого интерфейса на восемь портов падает один порт, пропускная способность уменьшается максимум на одну восьмую, но сама задача продолжает жить, а не падает целиком.

Что это значит MRC показывает, что гонка за сильными моделями всё

сильнее смещается в инфраструктуру. OpenAI не просто ускоряет обучение своих кластеров, но и выносит протокол в Open Compute Project, пытаясь превратить собственное инженерное решение в отраслевой стандарт. Если подход подхватят другие лаборатории и облачные провайдеры, крупные AI-кластеры станут дешевле, проще в эксплуатации и устойчивее к сбоям без постоянной ручной настройки сети.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…