DeepSeek-V4-Pro Comprimido em 50x, Agora Rodando em um T4 Gratuito do Kaggle
Pesquisadores testaram executar DeepSeek-V4-Pro com 1,6 trilhões de parâmetros sem um cluster caro: o autor do projeto comprimiu pesos via SVD, processou fragme

Эксперимент с DeepSeek-V4-Pro показывает, что даже модель класса 1,6 трлн параметров можно довести до рабочего состояния без кластера из H100, если отказаться от идеи запускать ее в исходном виде. Вместо полноценного инференса автор проекта собрал крайне агрессивную аппроксимацию: ужал веса через низкоранговое разложение, прогнал гигантские шарды через потоковую обработку и вручную адаптировал архитектуру под существующие инструменты. Результат далек от продакшена, но сам факт запуска на бесплатной NVIDIA T4 в Kaggle выглядит как сильная демонстрация того, насколько много сегодня решают математика и инженерная изобретательность.
В исходном описании речь идет о DeepSeek-V4-Pro, которую автор называет 1,6-триллионной MoE-моделью с весами объемом более 800 ГБ. Для такого класса систем обычно нужна совсем другая инфраструктура: несколько H100, большой запас видеопамяти, быстрые каналы между узлами и нормальный объем локального диска. На этом фоне выбор бесплатного инстанса Kaggle с T4 на 16 ГБ VRAM и примерно 50 ГБ диска выглядит не как попытка повторить стандартный запуск, а как эксперимент на грани возможного.
Важна и сама постановка задачи: не сохранить модель в первозданном виде, а проверить, сколько полезной структуры можно удержать после радикального сжатия. Ключевой ход в проекте — отказ от обычного 4-битного квантования в пользу SVD-трансмутации, то есть низкорангового разложения матриц весов. По описанию автора, ранг 64 дал около 50-кратного сжатия.
Такая схема оставляет основные зависимости между параметрами, но выбрасывает массу деталей и вместе с ними часть качества. Для гигантской модели это жесткий обмен: точность падает, зато появляется шанс уместить систему в доступное железо. По сути, это уже не исходная модель в полном смысле слова, а ее математический каркас, который все еще способен сохранять часть контекста и ассоциативных связей.
Второй важный элемент — работа с весами в режиме почти аварийного MLOps. Вместо того чтобы хранить весь набор параметров локально, автор обрабатывал шарды последовательно через safe_open: скачивал один файл, извлекал нужный тензор, сжимал его в оперативной памяти, отправлял результат в репозиторий и полностью очищал кэш перед следующим шагом. Так удалось протащить через ограничение по диску набор весов, который в обычном сценарии просто не поместился бы на бесплатной машине.
Отдельно подчеркивается, что потребление RAM не поднималось выше 4 ГБ. Это важная деталь, потому что в подобных задачах упираются не только в VRAM, но и в логистику файлов, когда модель физически нельзя даже распаковать без промежуточных трюков. Третий слой конструкции — архитектурный identity theft.
Библиотека transformers, как утверждает автор, еще не поддерживала DeepSeek-V4, поэтому конфигурацию пришлось маскировать под DeepSeek-V2 и отдельно править маршрутизацию MoE через monkey patching. С инженерной точки зрения это хрупкий прием: он зависит от версии библиотек, формата конфигов и устройства роутера экспертов. Но именно этот шаг показывает, что часть ограничений вокруг больших моделей связана не только с железом, но и с совместимостью инструментов.
Если стек еще не знает новую архитектуру, исследователям нередко приходится сначала адаптировать фреймворк под модель, а уже потом заниматься качеством вывода. На выходе получилась версия модели, которая, по словам автора, помещается в память одной T4 и способна поддерживать контекст, но заметно деградирует по качеству. Среди побочных эффектов называются галлюцинации и смешение русского, английского и китайского в одном ответе.
Это делает систему плохим кандидатом для надежных прикладных сценариев, где важны точность, стабильность и предсказуемость. Зато как proof of concept проект работает: он показывает, что даже ультракрупные open-weight модели можно не только обсуждать в терминах дата-центров, но и разбирать на более доступные, пусть и сильно урезанные конфигурации. Главный вывод здесь не в том, что T4 внезапно стала заменой современному GPU-кластеру.
Скорее наоборот: эксперимент хорошо показывает цену таких компромиссов и границу, за которой запуск модели уже означает не полноценный инференс, а исследовательскую реконструкцию. Но именно такие проекты двигают вперед практику сжатия, approximate inference и доступного MLOps. Чем больше появляется подобных обходных решений, тем ниже входной барьер для тех, кто хочет экспериментировать с большими моделями без корпоративного бюджета.