Пропускная способность
Пропускная способность — количество токенов или запросов, которое система инференса обрабатывает в единицу времени. Измеряется в токенах в секунду (tokens/s) или запросах в секунду (req/s) и определяет эффективность использования GPU-кластера.
Пропускная способность в контексте языковых моделей — метрика производительности системы инференса, показывающая, сколько выходных токенов или полных запросов она обрабатывает за секунду. Различают токенную пропускную способность (tokens/s) и запросную (QPS — queries per second). Оба показателя зависят от аппаратной конфигурации, размера модели, степени квантизации и размера обрабатываемого батча.
Пропускная способность определяется степенью параллелизма на GPU: чем больше запросов обрабатывается одновременно, тем полнее загружены тензорные ядра ускорителя. Однако рост батча увеличивает потребление видеопамяти под KV-кеш, поэтому существует аппаратное ограничение. Continuous batching, реализованный в vLLM и TensorRT-LLM, добавляет новые запросы в батч после каждого шага генерации без ожидания завершения всех предыдущих, существенно повышая утилизацию GPU по сравнению со статическим батчингом.
Для провайдеров, обслуживающих миллионы пользователей, пропускная способность напрямую определяет стоимость инференса: чем больше токенов генерирует одна GPU в секунду, тем ниже себестоимость единицы контента. При масштабировании сервисов это главный экономический показатель. Пропускная способность и латентность находятся в обратной зависимости: увеличение батча улучшает первую, но ухудшает вторую, поэтому провайдеры балансируют между ними согласно SLA.
Современные системы на базе NVIDIA H100 демонстрируют от нескольких тысяч до десятков тысяч токенов в секунду для моделей 7–70B параметров при оптимальных батч-размерах. Для моделей масштаба сотен миллиардов параметров, распределённых по многим GPU, пропускная способность дополнительно ограничивается задержками межузловой коммуникации (NVLink, InfiniBand).