Habr AI→ оригинал

Pourquoi la latence détermine l’architecture des systèmes d’AI plus que la précision du modèle

Pendant des années, les ingénieurs ont optimisé les modèles d’AI pour l’accuracy et le recall, mais dans les systèmes en production, c’est un tout autre paramèt

◐ Слушать статью

Задержка — одна из наиболее недооцененных сил в проектировании AI-систем. Пока инженеры соревнуются в точности и полноте обучающих данных, production-реальность расставляет приоритеты иначе: медленный ответ убивает продукт быстрее, чем редкая ошибка модели.

Метрики обучения не равны метрикам продукта В фазе разработки основным

мерилом качества служат accuracy, precision, recall и F1-score. Это правильные метрики для оценки интеллекта системы — но они ничего не говорят о том, как пользователь воспринимает продукт в реальных условиях. Команды нередко замечают это лишь после запуска: A/B-тест показывает высокий accuracy, но пользователи жалуются на «тормоза» — и retention падает. Исследования UX показывают: пользователи готовы ждать не дольше 200–300 миллисекунд, прежде чем начинают чувствовать «торможение». При задержке от одной секунды внимание переключается. При задержке свыше трёх секунд значительная часть аудитории просто закрывает вкладку. Эта асимметрия носит бизнес-характер: точность модели влияет на удержание аудитории медленно и косвенно, а задержка бьёт по метрикам мгновенно.

«Даже самая умная система ИИ начинает сильно раздражать, если ответ

приходит слишком поздно» — именно поэтому latency часто определяет архитектуру в большей степени, чем любое другое проектное решение.

Как latency меняет архитектурные решения

Требование по задержке влияет на каждый уровень системы — от выбора базовой модели до инфраструктуры развёртывания. Архитектор, проектирующий AI-продукт с SLA в 200 мс, принимает принципиально другие решения, чем тот, кто работает с SLA в 5 секунд. Типичные компромиссы, которые диктует latency: Размер модели — большие модели умнее, но медленнее; часто приходится выбирать дистиллированную или квантизированную версию Стриминг токенов — вместо ожидания полного ответа пользователь видит текст по мере генерации, воспринимаемая скорость кратно выше Кэширование — повторные запросы отдаются из кэша без инференса, задержка падает до единиц миллисекунд Каскадные архитектуры — простые запросы обрабатывает лёгкая модель, сложные — большая; роутер решает на лету * Географическое размещение — серверы ближе к пользователю сокращают сетевую задержку, которая съедает сотни миллисекунд даже у быстрой модели ## Инструменты для снижения задержки Квантизация снижает точность хранения весов с 32-битной до 8-битной или 4-битной — модель работает быстрее, почти не теряя в качестве ответов.

Прунинг удаляет незначимые связи, уменьшая модель без переобучения. Комбинация этих техник позволяет развернуть более мощные модели в условиях жёстких latency-требований. На уровне инференса батчинг позволяет обрабатывать несколько запросов одновременно, снижая среднюю стоимость каждого.

Специализированные ускорители — GPU, TPU, NPU — сокращают время матричных операций в десятки раз по сравнению с CPU. Отдельный мощный класс решений — prefill-оптимизация: если системный промпт у всех пользователей одинаковый, его активации можно вычислить заранее и переиспользовать при каждом запросе. Именно на этом принципе построен prompt caching в современных LLM API — он экономит не только деньги, но и сотни миллисекунд задержки.

Что это значит Задержка — не технический нюанс, а продуктовое решение первого уровня.

Прежде чем выбирать архитектуру и модель, команде нужно зафиксировать SLA по latency для каждого сценария использования. Это требование потом пронизывает все уровни: от размера модели и метода инференса до инфраструктуры и UX-паттернов. Системы, которые проектируются «от точности», нередко приходится переписывать, когда выясняется, что пользователи просто не ждут ответа.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…