Together AI: GPT-5.5, Gemini и Opus не умеют писать быстрые мульти-GPU ядра
Together AI выпустила бенчмарк ParallelKernelBench — 87 задач на генерацию CUDA-ядер для мульти-GPU систем из реальных кодовых баз. Лучшие модели — GPT-5.5…
AI-обработка оригинала Together AI Blog; редакция Hamidun News
Together AI опубликовала ParallelKernelBench (PKB) — первый открытый бенчмарк для оценки способности языковых моделей генерировать эффективные CUDA-ядра для мульти-GPU окружений. Протестировав более 40 моделей на 87 реальных задачах, исследователи обнаружили: лучшие frontier-модели решают менее трети задач корректно — и лишь единицы из них реально обгоняют наивную PyTorch-реализацию.
Почему мульти-GPU сложнее
Языковые модели уже неплохо научились писать код для одного GPU, и большинство существующих бенчмарков GPU-программирования ограничиваются именно этим сценарием. Но реальные производственные AI-системы давно вышли за этот предел: они работают на десятках и сотнях GPU одновременно. В таких конфигурациях вычислительная мощность перестаёт быть главным узким местом — им становится коммуникация между устройствами.
По данным Together AI, накладные расходы на передачу данных между GPU съедают более 20% задержки при инференсе — и этот разрыв будет расти, поскольку мощность чипов продолжает опережать пропускную способность межчипового соединения. Задача мульти-GPU-генерации принципиально отличается от одиночного GPU по трём причинам: Комбинаторный взрыв вариантов — нужно выбирать между тензорным, контекстным, экспертным, данных и другими видами параллелизма, каждый из которых создаёт свой паттерн коммуникации Другая модель производительности — вместо локального вычислительного roofline главным ограничителем становится пропускная способность межчипового соединения * Новый архитектурный выбор — как физически перемещать данные между GPU: через copy engine, TMA, SM load/store или NVLS, и стоит ли совмещать передачу данных с вычислениями ## Как устроен бенчмарк PKB включает 87 задач из реальных кодовых баз: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM и NeMo-RL — а также нестандартных распределённых рабочих нагрузок: маршрутизации в графовых нейросетях, распределённых FFT и Gaussian splatting. Такой подбор охватывает все основные способы шардирования: тензорный, контекстный, данных, экспертный, последовательный и FSDP/ZeRO.
Каждая задача начинается со стандартной реализации на PyTorch + NCCL и описания топологии оборудования. Модель должна заменить её собственным CUDA-ядром, которое передаёт данные напрямую между GPU по NVLink через симметричную память, минуя стандартный стек коллективных операций. Оценка ведётся по трём критериям: корректность результата, ускорение по wall-clock и достижение communication roofline — теоретического предела пропускной способности соединения.
Результаты и неожиданные победы
Together AI протестировала более 40 моделей, в том числе GPT-5.5, Gemini 3 Pro и Opus 4.7 — текущие флагманские варианты от OpenAI, Google и Anthropic. Итоги оказались одинаково неудачными для всех: Лучшая модель решила корректно менее трети из 87 задач Менее четверти корректных решений обогнали наивную базовую реализацию на PyTorch + NCCL * Основные провалы — в управлении коммуникацией между GPU и выборе правильного метода передачи данных Вместе с тем несколько решений оказались неожиданно сильными: отдельные сгенерированные ядра превзошли все публично доступные реализации. Особенно показателен случай с GRPO-обучением в NVIDIA NeMo-RL — для этой операции до сих пор не существовало оптимизированного публичного кода, и языковая модель его написала раньше, чем это сделали люди.
«Несколько сгенерированных ядер оказались быстрее всего, что есть в открытом доступе», — из технического отчёта
ParallelKernelBench.
Что это значит PKB фиксирует следующую границу в развитии AI-кодинга:
переход от отдельного GPU к распределённым мульти-GPU системам. Пока frontier-модели с этим не справляются — но редкие вспышки успеха намекают, что прогресс возможен при целенаправленном сборе специализированных тренировочных данных. Для команд, которые оптимизируют инференс и обучение на GPU-кластерах, это важный ориентир: инструмент созревает, но к широкому применению ещё не готов.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.