DeepSeek-V4-Pro Comprimido 50x, Ahora Ejecutándose en un T4 Gratuito de Kaggle
Los investigadores probaron ejecutar DeepSeek-V4-Pro con 1,6 billones de parámetros sin un clúster costoso: el autor del proyecto comprimió pesos mediante…
Procesado por IA desde Habr AI; editado por Hamidun News
El experimento con DeepSeek-V4-Pro demuestra que incluso un modelo de la clase de 1,6 billones de parámetros puede llevarse a un estado funcional sin un clúster H100, si abandona la idea de ejecutarlo en su forma original. En lugar de una inferencia completa, el autor del proyecto armó una aproximación extremadamente agresiva: comprimió pesos mediante descomposición de bajo rango, procesó fragmentos gigantes a través de transmisión por flujo y adaptó manualmente la arquitectura a herramientas existentes. El resultado está lejos de ser production-ready, pero el mero hecho de ejecutarse en una T4 NVIDIA gratuita en Kaggle parece una fuerte demostración de cuánto importan las matemáticas y la ingeniosidad de ingeniería hoy en día.
La descripción original discute DeepSeek-V4-Pro, que el autor llama un modelo MoE de 1,6 billones de parámetros con pesos que superan 800 GB. Para esta clase de sistemas, típicamente se necesita una infraestructura completamente diferente: varios H100s, grandes cantidades de memoria de vídeo, canales rápidos entre nodos y espacio de disco local adecuado. Ante esto, la elección de una instancia Kaggle gratuita con una T4 con 16 GB VRAM y aproximadamente 50 GB de disco parece no como un intento de replicar una ejecución estándar, sino como un experimento en el borde de lo posible.
El propio planteamiento del problema también es importante: no preservar el modelo en su forma original, sino verificar cuánta estructura útil se puede retener después de una compresión radical. El movimiento clave en el proyecto es abandonar la cuantización estándar de 4 bits a favor de la transmutación SVD, es decir, descomposición de bajo rango de matrices de pesos. Según la descripción del autor, un rango de 64 proporcionó aproximadamente 50 veces de compresión.
Este esquema preserva las dependencias principales entre parámetros, pero descarta muchos detalles y junto con ellos parte de la calidad. Para un modelo gigante, este es un compromiso duro: la precisión cae, pero hay una oportunidad de ajustar el sistema al hardware disponible. En esencia, esto ya no es el modelo original en el sentido pleno, sino su esqueleto matemático, que aún es capaz de preservar parte del contexto y conexiones asociativas.
El segundo elemento importante es trabajar con pesos en un modo de MLOps casi de emergencia. En lugar de almacenar el conjunto completo de parámetros localmente, el autor procesó fragmentos secuencialmente a través de safe_open: descargó un archivo, extrajo el tensor necesario, lo comprimió en RAM, envió el resultado al repositorio y limpió completamente la caché antes del siguiente paso. Esto permitió contornar la limitación de disco un conjunto de pesos que en un escenario normal simplemente no cabría en una máquina gratuita.
Se enfatiza por separado que el consumo de RAM nunca superó 4 GB. Este es un detalle importante, porque en tales tareas uno se topa no solo con limitaciones de VRAM sino también con logística de archivos, cuando el modelo físicamente no puede descomprimirse sin trucos intermedios. La tercera capa de la construcción es un robo de identidad arquitectónico.
La biblioteca transformers, según el autor, aún no admitía DeepSeek-V4, por lo que la configuración tuvo que enmascararse como DeepSeek-V2 y el enrutamiento MoE tuvo que parcharse por separado a través de monkey patching. Desde una perspectiva de ingeniería, esta es una técnica frágil: depende de la versión de las bibliotecas, el formato de configuración y el diseño del enrutador de expertos. Pero es precisamente este paso el que muestra que algunas de las limitaciones en torno a los modelos grandes están relacionadas no solo con el hardware, sino también con la compatibilidad de herramientas.
Si el stack aún no conoce la nueva arquitectura, los investigadores a menudo tienen que adaptar primero el framework al modelo, y solo entonces tratar la calidad de la salida. El resultado fue una versión del modelo que, según el autor, cabe en la memoria de una sola T4 y puede mantener contexto, pero se degrada notablemente en calidad. Entre los efectos secundarios hay alucinaciones y mezcla de ruso, inglés y chino en una sola respuesta.
Esto hace que el sistema sea un mal candidato para escenarios de producción confiables donde importan la precisión, la estabilidad y la previsibilidad. Pero como prueba de concepto, el proyecto funciona: demuestra que incluso los modelos gigantescos open-weight no solo pueden discutirse en términos de data-centers, sino también desglosarse en configuraciones más accesibles, aunque muy reducidas. La conclusión principal aquí no es que la T4 de repente se haya convertido en un reemplazo para clústeres GPU modernos.
Al contrario: el experimento muestra claramente el costo de tales compromisos y el límite más allá del cual ejecutar un modelo significa no inferencia completa, sino reconstrucción a nivel de investigación. Pero son precisamente tales proyectos los que avanzan la práctica de compresión, inferencia aproximada y MLOps accesible. Cuantas más de estas soluciones alternativas aparezcan, más bajo será el barrera de entrada para quienes deseen experimentar con modelos grandes sin un presupuesto corporativo.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.