Together AI: GPT-5.5, Gemini и Opus не умеют писать быстрые мульти-GPU ядра

Together AI выпустила бенчмарк ParallelKernelBench — 87 задач на генерацию CUDA-ядер для мульти-GPU систем из реальных кодовых баз. Лучшие модели — GPT-5.5…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Together AI Blog

30 июн. 2026 г.· 3 мин

AI-обработка оригинала Together AI Blog; редакция Hamidun News

Together AI: GPT-5.5, Gemini и Opus не умеют писать быстрые мульти-GPU ядра — Источник: Together AI Blog. Коллаж: Hamidun News.

◐ Слушать статью

Together AI опубликовала ParallelKernelBench (PKB) — первый открытый бенчмарк для оценки способности языковых моделей генерировать эффективные CUDA-ядра для мульти-GPU окружений. Протестировав более 40 моделей на 87 реальных задачах, исследователи обнаружили: лучшие frontier-модели решают менее трети задач корректно — и лишь единицы из них реально обгоняют наивную PyTorch-реализацию.

Почему мульти-GPU сложнее

Языковые модели уже неплохо научились писать код для одного GPU, и большинство существующих бенчмарков GPU-программирования ограничиваются именно этим сценарием. Но реальные производственные AI-системы давно вышли за этот предел: они работают на десятках и сотнях GPU одновременно. В таких конфигурациях вычислительная мощность перестаёт быть главным узким местом — им становится коммуникация между устройствами.

По данным Together AI, накладные расходы на передачу данных между GPU съедают более 20% задержки при инференсе — и этот разрыв будет расти, поскольку мощность чипов продолжает опережать пропускную способность межчипового соединения. Задача мульти-GPU-генерации принципиально отличается от одиночного GPU по трём причинам: Комбинаторный взрыв вариантов — нужно выбирать между тензорным, контекстным, экспертным, данных и другими видами параллелизма, каждый из которых создаёт свой паттерн коммуникации Другая модель производительности — вместо локального вычислительного roofline главным ограничителем становится пропускная способность межчипового соединения * Новый архитектурный выбор — как физически перемещать данные между GPU: через copy engine, TMA, SM load/store или NVLS, и стоит ли совмещать передачу данных с вычислениями ## Как устроен бенчмарк PKB включает 87 задач из реальных кодовых баз: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM и NeMo-RL — а также нестандартных распределённых рабочих нагрузок: маршрутизации в графовых нейросетях, распределённых FFT и Gaussian splatting. Такой подбор охватывает все основные способы шардирования: тензорный, контекстный, данных, экспертный, последовательный и FSDP/ZeRO.

Каждая задача начинается со стандартной реализации на PyTorch + NCCL и описания топологии оборудования. Модель должна заменить её собственным CUDA-ядром, которое передаёт данные напрямую между GPU по NVLink через симметричную память, минуя стандартный стек коллективных операций. Оценка ведётся по трём критериям: корректность результата, ускорение по wall-clock и достижение communication roofline — теоретического предела пропускной способности соединения.

Результаты и неожиданные победы

Together AI протестировала более 40 моделей, в том числе GPT-5.5, Gemini 3 Pro и Opus 4.7 — текущие флагманские варианты от OpenAI, Google и Anthropic. Итоги оказались одинаково неудачными для всех: Лучшая модель решила корректно менее трети из 87 задач Менее четверти корректных решений обогнали наивную базовую реализацию на PyTorch + NCCL * Основные провалы — в управлении коммуникацией между GPU и выборе правильного метода передачи данных Вместе с тем несколько решений оказались неожиданно сильными: отдельные сгенерированные ядра превзошли все публично доступные реализации. Особенно показателен случай с GRPO-обучением в NVIDIA NeMo-RL — для этой операции до сих пор не существовало оптимизированного публичного кода, и языковая модель его написала раньше, чем это сделали люди.

«Несколько сгенерированных ядер оказались быстрее всего, что есть в открытом доступе», — из технического отчёта

ParallelKernelBench.

Что это значит PKB фиксирует следующую границу в развитии AI-кодинга:

переход от отдельного GPU к распределённым мульти-GPU системам. Пока frontier-модели с этим не справляются — но редкие вспышки успеха намекают, что прогресс возможен при целенаправленном сборе специализированных тренировочных данных. Для команд, которые оптимизируют инференс и обучение на GPU-кластерах, это важный ориентир: инструмент созревает, но к широкому применению ещё не готов.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.