TechCrunch→ оригинал

Google apresenta o TurboQuant — algoritmo que comprime em seis vezes a memória de trabalho da AI

A Google anunciou o TurboQuant — um algoritmo de compressão da memória de trabalho de redes neurais com fator declarado de até seis vezes. Por enquanto, trata-s

Google apresenta o TurboQuant — algoritmo que comprime em seis vezes a memória de trabalho da AI
Источник: TechCrunch. Коллаж: Hamidun News.

Google анонсировала TurboQuant — новый алгоритм сжатия рабочей памяти нейросетей, который по заявлению компании способен уменьшить потребление памяти до шести раз. Объявление немедленно вызвало волну шуток в технологическом сообществе: пользователи по всему миру сравнивают разработку с Pied Piper — вымышленным алгоритмом из сериала HBO «Кремниевая долина», ставшим культовым символом необоснованного технологического хайпа. Пока TurboQuant остаётся лабораторным экспериментом: ни технической статьи, ни публичного кода, ни сроков коммерческого внедрения компания не обозначила.

Почему память нейросетей — критическая проблема Большие языковые модели требуют колоссальных объёмов GPU-памяти. Эта проблема имеет два измерения. Первое — статическое: сами веса модели.

Llama 3.1 с 70 миллиардами параметров занимает около 140 гигабайт в полной точности. Второе измерение — динамическое: промежуточные вычисления, которые модель производит при обработке каждого запроса.

Эти временные данные называются активациями, и именно они при работе с длинными контекстами становятся главным узким местом. Когда модель обрабатывает документ на 100 000 токенов, ей необходимо удерживать в памяти результаты вычислений каждого слоя для каждого токена — так называемый KV-cache. Объём этих данных растёт линейно с длиной контекста и может превышать объём самих весов при достаточно длинном вводе.

Именно здесь TurboQuant предлагает радикальное решение. Как работает TurboQuant Алгоритм применяет квантизацию — технику снижения числовой точности представлений — непосредственно к активациям в режиме реального времени. Стандартная квантизация десятилетиями применялась к статическим весам моделей: вместо 32-битных чисел с плавающей точкой использовать 8-битные или 4-битные целые.

Это хорошо работает для неизменных весов, поскольку диапазон значений предсказуем. Активации — совсем другое дело. Их значения непредсказуемо варьируются в зависимости от конкретного запроса, что делает стандартную квантизацию неэффективной без потери качества.

Google утверждает, что TurboQuant решает эту проблему с помощью адаптивных методов, которые учитывают статистику активаций на лету. По заявлению компании, это позволяет добиться шестикратного сжатия без значимой деградации качества ответов. Что означало бы подтверждение результатов Даже более скромный практический результат — двух-трёхкратное сжатие — изменил бы экономику AI-инфраструктуры.

Крупнейшие облачные провайдеры тратят десятки миллиардов долларов ежегодно на GPU-инфраструктуру для обслуживания запросов к моделям. Значительная часть этих затрат обусловлена именно требованиями к памяти при инференсе. Сжатие активаций означало бы более мощные модели на том же железе, меньшую задержку за счёт сокращения операций с памятью и возможность обработки длинных контекстов без деградации производительности.

Для edge-устройств последствия ещё значительнее. Сейчас запуск моделей уровня Llama 3.1 70B требует нескольких видеокарт или агрессивных компромиссов по точности.

TurboQuant мог бы существенно снизить эту планку — открыть мощные модели для ноутбуков и рабочих станций с ограниченной памятью. Феномен Pied Piper и что за ним стоит Сравнение с Pied Piper — не просто мем. В сериале вымышленный стартап создаёт алгоритм универсального сжатия с фантастическими характеристиками, основанный на оригинальном «коэффициенте Вайсмана».

Параллели с TurboQuant очевидны: революционные цифры, закрытый код, отсутствие независимой проверки. Разница в том, что Google DeepMind — не гаражный стартап. Компания имеет длинный послужной список реальных достижений в области эффективности: Flash Attention, оптимизация KV-cache, алгоритмы дистилляции.

Если TurboQuant прошёл внутреннее рецензирование и был анонсирован публично, за этим скорее всего стоит реальный результат. Следующий обязательный шаг — публикация на arXiv и независимое воспроизведение показателей сторонними исследователями. До этого момента TurboQuant остаётся обещанием.

Если результаты подтвердятся, шутки про Pied Piper уйдут в прошлое вместе с проблемой памяти нейросетей — и это будет хорошим исходом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…