ZDNet AI→ оригинал

Google presenta TurboQuant: cómo la nueva compresión reduce el costo de la AI local

Google presentó TurboQuant, un método de compresión de KV cache que puede reducir al menos seis veces la memoria necesaria para la inferencia y acelerar el cálc

◐ Слушать статью

Google Research 24 марта 2026 года представила TurboQuant — алгоритм сжатия, который уменьшает прожорливость языковых моделей по памяти прямо во время ответа. Разработка не делает ИИ внезапно дешёвым, но может заметно облегчить запуск локальных моделей и длинных диалогов.

Как это работает

Главная цель TurboQuant — не уменьшить сами веса модели, а ужать KV-кэш, то есть рабочую память, в которой LLM хранит промежуточные ключи и значения для уже обработанных токенов. Чем длиннее переписка или документ, тем сильнее раздувается этот кэш, а вместе с ним растут требования к памяти и пропускной способности. Именно поэтому длинный контекст сегодня часто упирается не только в GPU, но и в стоимость памяти.

«Рост KV-кэша — серьёзное узкое место по памяти и вычислительной скорости».

У TurboQuant два этапа. Сначала метод PolarQuant поворачивает и сжимает векторы так, чтобы сохранить как можно больше полезной структуры при меньшем числе бит. Затем подключается QJL — дополнительный шаг, который компенсирует ошибку и убирает смещение при расчёте внутреннего произведения, то есть того самого сравнения, на котором держится механизм внимания. Практически это означает простую вещь: кэш можно хранить намного компактнее, не переобучая модель и не трогая её веса.

Где появляется выгода

Google проверила TurboQuant на длинноконтекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval, а также на открытых моделях Gemma, Mistral и Llama-3.1-8B-Instruct. В блоге компания делает сильное заявление: KV-кэш можно ужать до 3 бит без fine-tuning и без потери качества, одновременно ускорив вычисления внимания. Для тех, кто запускает ИИ локально или хочет обслуживать больше запросов на том же железе, это звучит как очень практичная оптимизация.

  • Сжатие KV-кэша как минимум в 6 раз на задачах с длинным контекстом До 8-кратного ускорения расчёта attention logits на GPU Nvidia H100 в 4-битном режиме Работа без дообучения и без fine-tuning модели Сильные результаты не только в LLM-инференсе, но и в векторном поиске Почти нулевое время предварительной индексации по сравнению с рядом классических методов квантования Самый прикладной эффект — шанс запускать более длинные сессии на ограниченном железе. Если раньше локальная модель упиралась в память из-за растущего кэша, теперь этот потолок можно отодвинуть. Для ноутбуков, мини-серверов и edge-сценариев это важнее, чем абстрактные разговоры о «революции»: часть экономии действительно превращается в более доступный локальный ИИ.

Пределы технологии Но TurboQuant не решает всю экономику ИИ.

Он не уменьшает базовый размер модели, не отменяет дорогие GPU и не убирает расходы на сеть, хранение данных и энергопотребление дата-центров. Это точечная оптимизация одного из самых болезненных узких мест инференса. Более того, в формулировках Google есть нюанс: в блоге говорится о 3 битах без компромисса по качеству, тогда как в абстракте научной работы формулировка осторожнее — полная нейтральность качества заявлена при 3,5 бита на канал, а при 2,5 бита уже есть небольшая деградация.

Есть и второй предел: эффективность не всегда приводит к снижению общих расходов. Если обслуживание моделей становится дешевле, компании обычно не покупают меньше вычислений, а расширяют контекст, увеличивают размер моделей или обслуживают больше пользователей. Это классический эффект Джевонса.

Поэтому TurboQuant, скорее всего, не остановит гонку за памятью и ускорителями. Максимум, что он обещает прямо сейчас, — сделать отдельные сценарии, особенно локальный запуск и длинные диалоги, заметно более экономичными. И ещё один важный момент: у Google пока нет публичного плана продуктового развёртывания этой технологии в Gemini или Google Cloud.

Что это значит

TurboQuant выглядит не как громкий маркетинговый релиз, а как полезный инфраструктурный апгрейд. Если результаты из статьи подтвердятся в реальных продуктах, локальные LLM смогут держать более длинный контекст на том же железе, а облачные сервисы — дешевле обрабатывать инференс. Но ждать, что одна техника резко обрушит стоимость всего AI-рынка, пока рано.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…