Инференс

Задержка (латентность)

Задержка (латентность) — время от отправки запроса к языковой модели до получения ответа. Измеряется двумя ключевыми показателями: TTFT (time to first token — до первого токена) и TPOT (time per output token — время генерации каждого последующего токена).

Латентность инференса — временной промежуток между моментом, когда клиент отправил запрос к языковой модели, и завершением генерации ответа. Различают сквозную латентность (end-to-end latency) и две ключевые составляющие: TTFT определяет воспринимаемую «отзывчивость» системы — как быстро начинает появляться текст; TPOT показывает среднюю скорость генерации каждого следующего токена и определяет, насколько быстро разворачивается длинный ответ.

На TTFT влияют объём входного промпта, загруженность GPU и наличие KV-кеша для повторяющихся контекстов. TPOT определяется пропускной способностью матричных операций на ускорителе и авторегрессивной природой генерации: каждый токен требует отдельного прохода через сеть. При работе с длинными документами (контекст в сотни тысяч токенов) TTFT может достигать нескольких секунд: обработка 128 тысяч токенов на NVIDIA H100 занимает порядка 1–3 секунд в зависимости от модели и конфигурации.

Латентность критически важна для интерактивных приложений — чат-ботов, ассистентов, голосовых интерфейсов. Исследования пользовательского опыта устойчиво показывают, что задержка свыше 200–300 мс воспринимается как заметный лаг. Для автономных пайплайнов пакетной обработки важнее пропускная способность, но в прямом диалоге с пользователем низкий TTFT — приоритет номер один.

К 2026 году облачные API Anthropic Claude и OpenAI GPT-4o показывают TTFT в диапазоне 300–800 мс для типичных запросов, TPOT — около 15–30 мс на токен при стандартных нагрузках. Специализированные аппаратные решения (Groq LPU, Cerebras WSE) демонстрируют TPOT ниже 5 мс за счёт архитектур с минимальными задержками доступа к памяти.

Пример

Команда, разрабатывающая голосового ассистента, оптимизирует TTFT до 200 мс, чтобы первые слова ответа озвучивались немедленно после завершения реплики пользователя.

Связанные термины

Пропускная способность Инференс Стриминг ответа Спекулятивное декодирование

← Глоссарий