Инференс

Пропускная способность

Пропускная способность — количество токенов или запросов, которое система инференса обрабатывает в единицу времени. Измеряется в токенах в секунду (tokens/s) или запросах в секунду (req/s) и определяет эффективность использования GPU-кластера.

Пропускная способность в контексте языковых моделей — метрика производительности системы инференса, показывающая, сколько выходных токенов или полных запросов она обрабатывает за секунду. Различают токенную пропускную способность (tokens/s) и запросную (QPS — queries per second). Оба показателя зависят от аппаратной конфигурации, размера модели, степени квантизации и размера обрабатываемого батча.

Пропускная способность определяется степенью параллелизма на GPU: чем больше запросов обрабатывается одновременно, тем полнее загружены тензорные ядра ускорителя. Однако рост батча увеличивает потребление видеопамяти под KV-кеш, поэтому существует аппаратное ограничение. Continuous batching, реализованный в vLLM и TensorRT-LLM, добавляет новые запросы в батч после каждого шага генерации без ожидания завершения всех предыдущих, существенно повышая утилизацию GPU по сравнению со статическим батчингом.

Для провайдеров, обслуживающих миллионы пользователей, пропускная способность напрямую определяет стоимость инференса: чем больше токенов генерирует одна GPU в секунду, тем ниже себестоимость единицы контента. При масштабировании сервисов это главный экономический показатель. Пропускная способность и латентность находятся в обратной зависимости: увеличение батча улучшает первую, но ухудшает вторую, поэтому провайдеры балансируют между ними согласно SLA.

Современные системы на базе NVIDIA H100 демонстрируют от нескольких тысяч до десятков тысяч токенов в секунду для моделей 7–70B параметров при оптимальных батч-размерах. Для моделей масштаба сотен миллиардов параметров, распределённых по многим GPU, пропускная способность дополнительно ограничивается задержками межузловой коммуникации (NVLink, InfiniBand).

Пример

Облачный провайдер переходит с FP16 на INT8-квантизацию модели 70B и добивается роста пропускной способности с 4 000 до 7 500 токенов/с на одном узле из 8 GPU без изменения аппаратного обеспечения.

Связанные термины

Задержка (латентность)Батчинг Сервинг моделей Графический процессор (GPU)

← Глоссарий