Инференс — Глоссарий ИИ

Инференс

Инференс — процесс применения обученной модели машинного обучения к новым данным для получения предсказаний или генерации контента. В отличие от обучения, инференс не изменяет веса модели и выполняется в реальном времени или в пакетном режиме.

Инференс (inference; в русскоязычной литературе также «вывод» или «предсказание») — стадия жизненного цикла ML-модели, на которой готовая обученная модель обрабатывает новые входные данные и формирует выходные: классификацию, текстовый ответ, сгенерированное изображение или иной результат. Параметры модели на этой стадии заморожены — выполняется только прямой проход (forward pass) без обратного распространения ошибки.

Для языковых моделей инференс устроен авторегрессионно: модель генерирует следующий токен, опираясь на все предыдущие, и повторяет этот шаг до появления стоп-токена или достижения лимита длины контекста. Вычислительная стоимость растёт квадратично с длиной контекста из-за механизма внимания (attention), что стимулировало разработку оптимизаций: KV-кеширование снижает повторные вычисления при генерации, а непрерывная батчировка (continuous batching) повышает утилизацию GPU. Специализированные движки — vLLM, TensorRT-LLM, llama.cpp — ускоряют инференс на 2–10× по сравнению с наивной реализацией.

Инференс определяет операционные затраты production-системы. Ключевые метрики: латентность (время до первого токена и общее время генерации ответа) и пропускная способность (число запросов или токенов в секунду). У крупных AI-сервисов при высоких нагрузках затраты на инференс сопоставимы с затратами на обучение или превышают их. Для edge-устройств — смартфонов, встроенных систем — инференс требует квантизации весов до int8 или int4 и структурного прунинга, чтобы модель умещалась в ограниченной памяти.

К 2026 году рынок инференс-инфраструктуры выделился в самостоятельный сегмент. NVIDIA доминирует через GPU-линейку H100/H200/B200; среди специализированных чипов — Groq LPU с ультранизкой латентностью и Cerebras Wafer-Scale Engine с высокой пропускной способностью. Облачные провайдеры предлагают serverless inference с тарификацией за токен, а не за арендованные вычислительные ресурсы.

Пример

Когда пользователь отправляет запрос в ChatGPT, серверы OpenAI выполняют инференс модели GPT-4o: запрос токенизируется, проходит через слои трансформера, и каждый следующий токен ответа генерируется за единицы миллисекунд до отображения в браузере.

Связанные термины

Токен Quantization

← Глоссарий