NVIDIA Developer Blog→ оригинал

NVIDIA TensorRT теперь масштабирует инференс генеративного AI на несколько GPU

NVIDIA обновила TensorRT: движок теперь поддерживает инференс сразу на нескольких GPU. Ключевые оптимизации — слияние ядер, управление памятью, квантизация…

AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA TensorRT теперь масштабирует инференс генеративного AI на несколько GPU
Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA обновила TensorRT, добавив нативную поддержку инференса на нескольких GPU сразу — крупные генеративные модели теперь можно запускать в продакшне без ручного шардирования и без потери ключевых оптимизаций движка.

Почему одного GPU уже мало

Современные генеративные модели растут быстрее, чем растёт объём видеопамяти. Диффузионные сети для генерации видео, мультимодальные LLM с расширенным контекстом и комплексные пайплайны для медиаконтента давно вышли за пределы 80 ГБ — верхней планки флагманского H100. Разработчики инференс-систем оказывались перед жёстким выбором: либо дробить вычислительный граф вручную и терять оптимизации TensorRT, либо переходить на сторонние фреймворки с более низкой пропускной способностью. TensorRT — де-факто стандарт для продакшн-деплоя на оборудовании NVIDIA. Движок оптимизирует вычислительные графы на уровне ядер: сливает операции, планирует использование памяти, применяет квантизацию — и за счёт этого выдаёт наименьшую задержку и наибольшую пропускную способность из доступных вариантов. Проблема в том, что все эти оптимизации прежде работали только в рамках одного GPU.

Что даёт multi-device inference

Новая возможность позволяет TensorRT автоматически распределять модель между несколькими GPU, сохраняя весь арсенал оптимизаций: Kernel fusion — слияние операций для минимизации накладных расходов при передаче данных между устройствами Memory planning — умное управление VRAM между GPU без избыточного копирования тензоров Квантизация INT8/FP8 — применяется ко всему вычислительному графу целиком, а не только к отдельным его частям Tensor parallelism — автоматическое разбиение весов модели по устройствам без ручной правки кода * Pipeline parallelism — разные слои сети работают параллельно на разных картах, увеличивая общую пропускную способность Прежде для достижения аналогичного результата требовалась сложная связка TensorRT с внешними инструментами — TensorRT-LLM или Triton Inference Server — и несколько недель инженерной настройки. Теперь поддержка нескольких устройств встроена в сам движок.

Кому это нужно сегодня

Больше всего от новой возможности выиграют команды, строящие инференс-пайплайны для генерации медиаконтента: системы text-to-video, адаптация контента в реальном времени, интерактивные аватары, мультимодальные ассистенты. Все эти задачи требуют одновременно большой модели (значит, много памяти) и минимальной задержки (значит, никаких компромиссов по оптимизации). Новая функция также меняет экономику инференса в облаке. Вместо того чтобы вручную разбираться с шардированием весов на кластере GPU и поддерживать самописную логику синхронизации, команды смогут использовать стандартный TensorRT API — и получить ту же производительность с меньшими затратами на разработку и поддержку. Отдельно стоит выделить средний сегмент: компании, у которых есть два-четыре GPU, но нет отдельной ML-инфра команды. Именно для них снятие барьера входа в многоустройственный инференс — наибольший практический сдвиг.

Что это значит

Масштабирование AI-инференса на несколько устройств переходит из разряда «задача для узких специалистов» в категорию «встроенная фича движка». Когда TensorRT берёт управление распределением на себя, дистанция между обученной моделью и масштабируемым продакшн-сервисом существенно сокращается — и это прямо влияет на то, какие AI-продукты могут себе позволить запустить команды среднего размера.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…