MarkTechPost→ оригинал

DeepSeek-V4: Как новые алгоритмы сжатия сделали контекст в миллион токенов реальностью

Китайская лаборатория DeepSeek выпустила превью-версии моделей серии V4: флагманскую DeepSeek-V4-Pro (1,6 трлн параметров) и быструю DeepSeek-V4-Flash (284 млрд

DeepSeek-V4: Как новые алгоритмы сжатия сделали контекст в миллион токенов реальностью
Источник: MarkTechPost. Коллаж: Hamidun News.

Господство в индустрии искусственного интеллекта больше не определяется исключительно способностью модели логически мыслить. На передний план выходит объем оперативной памяти — способность нейросети удерживать в голове огромные массивы информации без астрономических затрат на серверное оборудование. На протяжении последних лет окно контекста в один миллион токенов, эквивалентное десяткам толстых книг или масштабным корпоративным базам кода, считалось прерогативой самых дорогих и ресурсоемких систем. Однако лаборатория DeepSeek в очередной раз переписывает правила игры, выпуская превью-версию моделей серии DeepSeek-V4. Их главная инновация заключается не в простом наращивании мощностей, а в радикальном переосмыслении фундаментальных механизмов памяти.

Чтобы осознать масштаб достижения, необходимо понять техническую преграду, стоявшую перед разработчиками. В традиционных архитектурах трансформеров каждый новый сгенерированный токен заставляет модель оглядываться на весь предыдущий текст. Вся эта история общения хранится в так называемом KV-кэше, который при достижении отметки в миллион токенов раздувается до гигантских размеров, пожирая дорогостоящую память графических ускорителей. Это делало массовое коммерческое использование длинного контекста экономически нецелесообразным на этапе вывода, то есть инференса. Большинство компаний обходило эту проблему созданием сложных поисковых систем, которые извлекали лишь нужные фрагменты текста, но такие костыли неизбежно приводили к потере важных нюансов и логических связей в документах.

Инженеры DeepSeek решили устранить саму первопричину проблемы, внедрив два новых архитектурных подхода: сжатое разреженное внимание и глубоко сжатое внимание. Если объяснять эту сложную математику простым языком, то новая модель перестает хранить фотографически точную копию каждого прочитанного слова. Вместо этого алгоритмы архивируют информацию, создавая плотные смысловые сгустки, и обращают внимание только на те фрагменты, которые критически важны для текущего вычисления. Это похоже на то, как человек читает длинный роман: мы не помним каждую запятую в первой главе, но четко удерживаем в голове мотивы персонажей и устройство мира, мгновенно извлекая эти знания при необходимости.

Технологическое изящество DeepSeek-V4 также кроется в мастерском использовании архитектуры смеси экспертов. Флагманская версия DeepSeek-V4-Pro обладает колоссальным общим объемом в одну целую шесть десятых триллиона параметров, однако для генерации одного слова активируются лишь сорок девять миллиардов из них. Более легкая версия, DeepSeek-V4-Flash, содержит двести восемьдесят четыре миллиарда параметров, из которых задействуется смехотворно малая часть — всего тринадцать миллиардов. Такой подход позволяет сохранить невероятную глубину знаний и аналитических способностей модели, требуя при этом вычислительных ресурсов, сопоставимых с запуском систем прошлых поколений.

Последствия этого релиза для индустрии трудно переоценить. Возможность загружать миллионы токенов за минимальную стоимость ставит под угрозу целые сегменты бизнеса, построенные на разработке инфраструктуры для векторных баз данных и систем поиска с дополненной генерацией. Корпоративным клиентам больше не нужно фрагментировать свои финансовые отчеты, юридические контракты или программный код. Они могут просто поместить весь контекст целиком в оперативную память модели и вести с ней диалог в реальном времени. Это кардинально ускоряет процесс разработки программного обеспечения, анализ научных статей и проведение аудитов безопасности, делая эти инструменты доступными даже для небольших стартапов.

Более того, этот шаг укрепляет репутацию DeepSeek как главного дестабилизатора устоявшегося рынка. В то время как крупные технологические корпорации долгое время соревновались в создании закрытых систем с высокой стоимостью подписки, независимые исследователи демонстрируют, что интеллектуальная оптимизация алгоритмов способна победить грубую вычислительную силу. Это неизбежно заставит конкурентов пересмотреть свою ценовую политику и ускорить внедрение инноваций в архитектуру нейросетей, чтобы не оказаться позади в гонке за эффективность.

В конечном итоге, релиз DeepSeek-V4 знаменует собой переход к новой эре генеративного искусственного интеллекта. Эре, где безграничная память становится стандартной функцией, а не премиальной опцией. Когда вычислительная стоимость анализа гигантских массивов данных падает до исторических минимумов, фокус разработки смещается от попыток удержать информацию в контексте к созданию более сложных автономных агентов, способных обрабатывать эти знания неделями и месяцами, меняя наше представление о возможностях машинного интеллекта.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…