Habr AI→ оригинал

SemanticZip: por que a tentativa de comprimir significados em 14 vezes se chocou com a realidade

Разработчик представил прототип SemanticZip — алгоритм, который сжимает текст в 14 раз, удаляя «выводимую» информацию. Вместо работы с байтами, система опираетс

SemanticZip: por que a tentativa de comprimir significados em 14 vezes se chocou com a realidade
Источник: Habr AI. Коллаж: Hamidun News.

Мы привыкли мерить прогресс в нейросетях размером контекстного окна. Сначала было 4 тысячи токенов, потом 128 тысяч, а теперь Google и вовсе обещает миллионы. Но что, если мы подходим к проблеме не с того конца? Вместо того чтобы строить огромные «амбары» для данных, разработчик прототипа SemanticZip попытался сделать сами данные сверхплотными. Идея проста и элегантна: зачем хранить в тексте слова, которые нейросеть может легко угадать сама? Это попытка перенести теорию информации Шеннона и Колмогоровскую сложность в мир больших языковых моделей, превратив ИИ в своего рода архиватор смыслов.

В основе SemanticZip лежит концепция удаления избыточности. Если мы скажем «столица Франции — это...», любому современному алгоритму не нужно слово «Париж», чтобы понять суть сообщения. Прототип работал именно так: он вычищал из текста всё, что казалось ему очевидным, оставляя лишь уникальное смысловое ядро. В теории это позволяло сократить объем передаваемой информации в 14 раз. Представьте, что вместо «Войны и мира» вы передаете нейросети тонкую брошюру, а она на лету восстанавливает все философские отступления Толстого. Звучит как технологическая сингулярность, которая должна была наступить еще вчера.

Однако на этапе «разбора полетов» выяснилось, что красивая математическая модель разбивается о непредсказуемость современных LLM. Проблема оказалась в процессе декомпрессии. Когда мы распаковываем обычный ZIP-архив, мы получаем бит-в-бит исходный файл. В случае со «смысловым сжатием» мы просим нейросеть догадаться, что именно было пропущено. И вот тут начинается хаос. Достаточно модели ошибиться в одном ключевом прилагательном или союзе, и весь смысл предложения меняется на противоположный. Оказалось, что современные модели еще не обладают той степенью детерминизма, которая нужна для работы со сверхплотными данными.

Автор проекта честно признал: красивые метафоры о «сжатии смыслов» проигрывают скучному и приземленному RAG (Retrieval-Augmented Generation). RAG не пытается упаковать всё знание мира в три строчки. Он просто идет в базу данных и достает нужный кусок текста в его первозданном, избыточном виде. Да, это требует больше памяти и вычислительных мощностей, но это работает. В индустрии AI сейчас наблюдается явный тренд на упрощение: вместо сложных надстроек над логикой моделей разработчики выбирают надежные методы доставки контекста. Избыточность, которую мы так пытались победить, оказалась критически важной для точности.

Этот эксперимент подсветил важную проблему: мы всё еще плохо понимаем, как именно нейросети хранят и извлекают информацию. Мы пытаемся навязать им человеческую логику сжатия, в то время как они оперируют вероятностями. Пока вероятность ошибки при «распаковке» смысла отлична от нуля, такие системы будут оставаться лишь интересными игрушками для энтузиастов. Попытка сэкономить на токенах привела к тому, что ценность самой информации упала из-за риска искажений. Это напоминает ситуацию с JPEG: при сильном сжатии картинка всё еще узнаваема, но детали превращаются в кашу. В тексте такая «каша» может стоить слишком дорого.

Будущее, скорее всего, не за магическими архиваторами, а за оптимизацией архитектур самих моделей. Пока что нам придется смириться с тем, что для передачи сложной мысли нужно много слов. Попытка обмануть математику и заставить ИИ «додумывать» за нас пока приводит лишь к красивым, но бесполезным прототипам. Мы всё еще находимся в эпохе, где количество переходит в качество, а не заменяется им.

Главное: избыточность — это не баг, а фича, обеспечивающая стабильность ИИ. Сможем ли мы когда-нибудь доверять «сжатым» смыслам так же, как доверяем ZIP-архивам?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…