Habr AI→ оригинал

Google показала TurboQuant: 3-битный KV-кэш для LLM, но рынок памяти запаниковал рано

Google показала TurboQuant — способ ужать KV-кэш LLM до 3 бит и резко снизить расход VRAM на длинных контекстах. На этой новости рынок памяти дернулся вниз, но

Google показала TurboQuant: 3-битный KV-кэш для LLM, но рынок памяти запаниковал рано
Источник: Habr AI. Коллаж: Hamidun News.

Google Research представила TurboQuant — алгоритм, который обещает ужать KV-кэш языковых моделей до 3 бит без дообучения и почти без потери качества. На фоне этих заявлений рынок памяти быстро испугался, хотя до реальной революции в дата-центрах пока далеко.

Почему рынок дернулся 24 марта 2026 года

Google Research выпустила материал о TurboQuant, а уже через два дня инвесторы начали продавать бумаги компаний, связанных с памятью. SK Hynix потеряла 6,23%, Samsung — 4,8%, Micron и SanDisk в США просели примерно на 5% и 8%. Логика рынка выглядела прямолинейно: если большие модели смогут обходиться в разы меньшим объёмом памяти для инференса, спрос на HBM и DRAM в дата-центрах тоже должен снизиться.

Но такая трактовка оказалась слишком грубой и не учитывала, где именно TurboQuant даёт выигрыш. Проблема, на которую нацелен алгоритм, связана не со всей памятью модели, а только с KV-кэшем. Это служебные представления токенов, которые трансформер хранит во время генерации текста, чтобы не пересчитывать их на каждом шаге.

На коротком контексте KV-кэш почти не мешает, но на длинном именно он становится главным потребителем памяти. Для крупных моделей с окнами в десятки и сотни тысяч токенов объём такого кэша может занимать десятки гигабайт и превращаться в узкое место при массовом инференсе.

Что делает

TurboQuant Квантовать веса моделей индустрия научилась давно: для этого есть GPTQ, AWQ и другие подходы. С KV-кэшем ситуация сложнее, потому что он возникает в реальном времени и уникален для каждого запроса. Нельзя один раз подготовить данные, откалибровать схему и затем просто применять её везде.

Нужен метод, который умеет быстро сжимать любой новый вектор на лету и при этом не разваливает качество ответа на длинных контекстах. Именно эту задачу и пытается решить TurboQuant. Схема у Google двухступенчатая.

Сначала этап PolarQuant поворачивает вектор случайной ортогональной матрицей, чтобы распределение значений стало более ровным и предсказуемым. После этого можно применить заранее рассчитанный оптимальный квантователь без калибровочных данных. Затем включается этап QJL, который кодирует знак остаточной ошибки одним битом и снижает систематическое смещение в скалярных произведениях.

За счёт этого ошибка не так заметно накапливается на длинной последовательности токенов, а модель лучше сохраняет качество ответа. 3-битное представление KV-кэша без переобучения модели До 8 раз быстрее вычисление логитов внимания на H100 по данным авторов Как минимум в 6 раз меньше VRAM под сам KV-кэш Отсутствие обязательной офлайн-калибровки под конкретную модель ## Где у метода пределы Самый важный нюанс в том, что технология пока рано выглядит как промышленный стандарт. Сообщество уже заметило: на маленьких моделях уровня до 3B параметров агрессивное сжатие до 3 бит может заметно портить качество, вызывать повторы и ухудшать связность текста.

Для многих практических сценариев более безопасным вариантом остаётся 4-битный режим. Кроме того, Google пока опубликовала только блогпост и препринт. Официальной реализации ещё нет, а в vLLM, llama.

cpp и SGLang алгоритм по состоянию на 29 апреля 2026 года не встроен. Есть и научный конфликт вокруг приоритета идеи. Цзяньян Гао, один из авторов более раннего алгоритма RaBitQ, заявил, что TurboQuant слишком близок к их подходу и при этом некорректно описывает предшественника.

Среди претензий — преуменьшение методологического сходства, спорная критика теории RaBitQ и сравнение на неравных условиях: TurboQuant тестировали на GPU A100, а RaBitQ в одном из бенчмарков — на однопоточном Python. Жалоба уже направлена в комитет по этике ICLR, а Google публичного ответа пока не дала.

Что это значит

TurboQuant выглядит не как обвал рынка памяти, а как сильное улучшение в одном конкретном узком месте LLM-инференса. Если Google выпустит код и метод войдёт в стандартные стеки, длинные контексты станут дешевле, а запуск крупных моделей на более скромном железе — реальнее. Но прямо сейчас это скорее важный исследовательский результат, чем готовый переворот индустрии.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…