ZDNet AI→ оригинал

Google представила TurboQuant: как новая компрессия снижает стоимость локального ИИ

Google показала TurboQuant — метод сжатия KV-кэша, который может уменьшить память для инференса минимум в шесть раз и ускорить расчёт внимания. Это особенно важ

◐ Слушать статью

Google Research 24 марта 2026 года представила TurboQuant — алгоритм сжатия, который уменьшает прожорливость языковых моделей по памяти прямо во время ответа. Разработка не делает ИИ внезапно дешёвым, но может заметно облегчить запуск локальных моделей и длинных диалогов.

Как это работает

Главная цель TurboQuant — не уменьшить сами веса модели, а ужать KV-кэш, то есть рабочую память, в которой LLM хранит промежуточные ключи и значения для уже обработанных токенов. Чем длиннее переписка или документ, тем сильнее раздувается этот кэш, а вместе с ним растут требования к памяти и пропускной способности. Именно поэтому длинный контекст сегодня часто упирается не только в GPU, но и в стоимость памяти.

«Рост KV-кэша — серьёзное узкое место по памяти и вычислительной скорости».

У TurboQuant два этапа. Сначала метод PolarQuant поворачивает и сжимает векторы так, чтобы сохранить как можно больше полезной структуры при меньшем числе бит. Затем подключается QJL — дополнительный шаг, который компенсирует ошибку и убирает смещение при расчёте внутреннего произведения, то есть того самого сравнения, на котором держится механизм внимания. Практически это означает простую вещь: кэш можно хранить намного компактнее, не переобучая модель и не трогая её веса.

Где появляется выгода

Google проверила TurboQuant на длинноконтекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval, а также на открытых моделях Gemma, Mistral и Llama-3.1-8B-Instruct. В блоге компания делает сильное заявление: KV-кэш можно ужать до 3 бит без fine-tuning и без потери качества, одновременно ускорив вычисления внимания. Для тех, кто запускает ИИ локально или хочет обслуживать больше запросов на том же железе, это звучит как очень практичная оптимизация.

  • Сжатие KV-кэша как минимум в 6 раз на задачах с длинным контекстом До 8-кратного ускорения расчёта attention logits на GPU Nvidia H100 в 4-битном режиме Работа без дообучения и без fine-tuning модели Сильные результаты не только в LLM-инференсе, но и в векторном поиске Почти нулевое время предварительной индексации по сравнению с рядом классических методов квантования Самый прикладной эффект — шанс запускать более длинные сессии на ограниченном железе. Если раньше локальная модель упиралась в память из-за растущего кэша, теперь этот потолок можно отодвинуть. Для ноутбуков, мини-серверов и edge-сценариев это важнее, чем абстрактные разговоры о «революции»: часть экономии действительно превращается в более доступный локальный ИИ.

Пределы технологии Но TurboQuant не решает всю экономику ИИ.

Он не уменьшает базовый размер модели, не отменяет дорогие GPU и не убирает расходы на сеть, хранение данных и энергопотребление дата-центров. Это точечная оптимизация одного из самых болезненных узких мест инференса. Более того, в формулировках Google есть нюанс: в блоге говорится о 3 битах без компромисса по качеству, тогда как в абстракте научной работы формулировка осторожнее — полная нейтральность качества заявлена при 3,5 бита на канал, а при 2,5 бита уже есть небольшая деградация.

Есть и второй предел: эффективность не всегда приводит к снижению общих расходов. Если обслуживание моделей становится дешевле, компании обычно не покупают меньше вычислений, а расширяют контекст, увеличивают размер моделей или обслуживают больше пользователей. Это классический эффект Джевонса.

Поэтому TurboQuant, скорее всего, не остановит гонку за памятью и ускорителями. Максимум, что он обещает прямо сейчас, — сделать отдельные сценарии, особенно локальный запуск и длинные диалоги, заметно более экономичными. И ещё один важный момент: у Google пока нет публичного плана продуктового развёртывания этой технологии в Gemini или Google Cloud.

Что это значит

TurboQuant выглядит не как громкий маркетинговый релиз, а как полезный инфраструктурный апгрейд. Если результаты из статьи подтвердятся в реальных продуктах, локальные LLM смогут держать более длинный контекст на том же железе, а облачные сервисы — дешевле обрабатывать инференс. Но ждать, что одна техника резко обрушит стоимость всего AI-рынка, пока рано.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…