خوارزمية TurboQuant من جوجل تهوي بأسهم مصنعي الذاكرة بعد نشر البحث

Q: Источник материала?

Оригинальная публикация на TNW. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

قدمت جوجل TurboQuant — طريقة لضغط ذاكرة التخزين المؤقت KV لنماذج اللغة الكبيرة تقلل استهلاك الذاكرة بمعامل لا يقل عن ستة أضعاف ولا تؤثر على الجودة وفقا للشركة.

ЖХ

Редакция Hamidun News

AI‑мониторинг · TNW

2026-04-30· 3 мин

خوارزمية TurboQuant من جوجل تهوي بأسهم مصنعي الذاكرة بعد نشر البحث — Источник: TNW. Коллаж: Hamidun News.

Google Research представила TurboQuant — алгоритм сжатия для AI-моделей, который уменьшает объём ключевой рабочей памяти минимум в шесть раз без заметной потери качества. Рынок отреагировал мгновенно: после публикации 24 марта 2026 года инвесторы начали пересматривать, сколько памяти вообще понадобится индустрии генеративного AI.

Что показала

Google TurboQuant решает узкое, но дорогое место в инференсе больших языковых моделей — key-value cache, или KV-кэш. Это хранилище контекста, которое позволяет модели не пересчитывать уже обработанные токены заново. Чем длиннее запрос, документ или диалог, тем быстрее растёт этот кэш и тем больше памяти GPU он занимает.

По данным Google, новый метод сжимает KV-кэш до 3 бит на значение вместо стандартных 16 бит и снижает расход памяти как минимум в шесть раз. Для практики это важно не меньше, чем для науки. Освобождённая память позволяет обслуживать больше одновременных запросов на том же железе, запускать более длинные контекстные окна или использовать более крупные модели без расширения парка ускорителей.

Авторы пишут, что TurboQuant не требует дообучения или fine-tuning и будет представлен на ICLR 2026. В тестах использовались модели семейств Gemma, Mistral и Llama, а также стандартные long-context бенчмарки.

Как устроен алгоритм В основе TurboQuant — двухэтапная схема.

Сначала метод PolarQuant переводит векторы в полярное представление, чтобы избавиться от лишних служебных данных, которые обычно съедают часть выигрыша у традиционного квантования. Затем подключается QJL — техника, которая кодирует остаточную ошибку всего одним дополнительным битом на измерение и снижает искажения в attention. В результате большая часть бюджета битов уходит на сохранение смысла исходных данных, а не на технический оверхед.

Google называет KV-кэш «высокоскоростной цифровой шпаргалкой» для модели. сжатие KV-кэша с 16 до 3 бит минимум 6-кратное сокращение памяти * до 8-кратного ускорения расчёта attention на

Nvidia H100 при 4-битном режиме работа без обучения и fine-tuning применение не только в LLM, но и в векторном поиске Google утверждает, что на задачах Needle in a Haystack TurboQuant сохранял идеальный результат даже при шестикратном сжатии кэша. На LongBench и ZeroSCROLLS метод также не уступил или превзошёл KIVI — один из известных базовых подходов к квантованию KV-кэша. Отдельно компания тестировала TurboQuant для vector search и получила более высокий recall без больших кодбуков и подгонки под конкретный датасет. Это уже прямая зона интереса для поиска, рекомендаций и рекламных систем.

Почему отреагировал рынок

Фондовый рынок услышал в этой публикации не академический прогресс, а сигнал о возможном снижении спроса на память для AI-инфраструктуры. В течение нескольких часов после выхода материала акции Micron снизились на 3%, Western Digital — на 4,7%, а SanDisk — на 5,7%. Логика проста: если ключевой компонент инференса внезапно требует в разы меньше памяти, то будущие закупки HBM, DRAM и накопителей могут выглядеть уже не так линейно, как закладывали инвесторы.

Но это не означает, что индустрии внезапно понадобится в шесть раз меньше железа. Память — лишь одна статья расходов дата-центров, а аппетит моделей к вычислениям растёт быстрее любой локальной оптимизации. Даже аналитики предупреждают от слишком прямых выводов: алгоритмы сжатия существовали и раньше, но не обрушивали спрос на инфраструктуру целиком.

История вычислений чаще показывает обратный эффект: как только ресурсы становятся дешевле, компании начинают делать более тяжёлые и массовые системы на том же бюджете.

Что это значит

TurboQuant — не повод списывать производителей памяти, а ранний индикатор нового этапа гонки эффективности. Теперь выигрывать будут не только те, кто покупает больше GPU, но и те, кто умеет сильнее сжать инференс без потери качества. Для AI-продуктов это шанс снизить себестоимость запросов, а для рынка — напоминание, что софт уже влияет на капитализацию железа.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com