Google mostró TurboQuant: caché KV de 3 bits para LLM, pero el mercado de memoria entró en pánico prematuramente
Google mostró TurboQuant — una forma de comprimir el caché KV de LLM a 3 bits y reducir drásticamente el consumo de VRAM en contextos largos. El mercado de…
Procesado por IA desde Habr AI; editado por Hamidun News
Google Research presentó TurboQuant — un algoritmo que promete comprimir el KV-cache de modelos de lenguaje a 3 bits sin reentrenamiento y con casi ninguna pérdida de calidad. Ante estas afirmaciones, el mercado de memoria rápidamente se asustó, aunque una verdadera revolución en los centros de datos sigue siendo lejana.
Por qué el mercado reaccionó
El 24 de marzo de 2026, Google Research lanzó material sobre TurboQuant, y apenas dos días después, los inversores comenzaron a vender acciones de empresas relacionadas con la memoria. SK Hynix perdió 6,23%, Samsung cayó 4,8%, Micron y SanDisk en EE. UU. cayeron aproximadamente 5% y 8% respectivamente. La lógica del mercado parecía directa: si los grandes modelos pudieran funcionar con significativamente menos memoria para inferencia, la demanda de HBM y DRAM en los centros de datos también debería disminuir. Pero esta interpretación resultó demasiado simplista y no tuvo en cuenta exactamente dónde TurboQuant proporciona beneficios.
El problema que aborda el algoritmo no está relacionado con toda la memoria del modelo, sino solo con el KV-cache. Estas son representaciones auxiliares de tokens que un transformador almacena durante la generación de texto para evitar recalcularlos en cada paso. En contextos cortos, el KV-cache apenas interfiere, pero en los largos, se convierte en el principal consumidor de memoria. Para modelos grandes con ventanas de decenas y centenas de miles de tokens, el volumen de ese cache puede ocupar decenas de gigabytes y convertirse en un cuello de botella en la inferencia masiva.
Qué hace TurboQuant
La industria aprendió hace mucho tiempo a cuantizar los pesos de los modelos: existen GPTQ, AWQ y otros enfoques para esto. Con el KV-cache, la situación es más compleja porque surge en tiempo real y es único para cada solicitud. No se pueden preparar datos una sola vez, calibrar un esquema y luego simplemente aplicarlo en todas partes. Se necesita un método que pueda comprimir rápidamente cualquier nuevo vector sobre la marcha sin comprometer la calidad de la respuesta en contextos largos.
Esta es precisamente la tarea que TurboQuant intenta resolver. El esquema de Google es de dos fases. Primero, la fase PolarQuant rota el vector con una matriz ortogonal aleatoria para hacer que la distribución de valores sea más uniforme y predecible. Después de esto, se puede aplicar un cuantizador óptimo precalculado sin datos de calibración. Luego entra en funcionamiento la fase QJL, que codifica el signo del error residual con un bit y reduce el sesgo sistemático en los productos escalares. Gracias a esto, el error no se acumula notoriamente en una larga secuencia de tokens, y el modelo preserva mejor la calidad de la respuesta.
- Representación de 3 bits del KV-cache sin reentrenamiento del modelo
- Cálculo de logits de atención hasta 8 veces más rápido en H100 según los autores
- Al menos 6 veces menos VRAM para el propio KV-cache
- Sin calibración offline obligatoria para un modelo específico
Dónde tiene límites el método
El matiz más importante es que la tecnología aún parece prematura como estándar industrial. La comunidad ya lo ha notado: en modelos pequeños con hasta 3B parámetros, la compresión agresiva a 3 bits puede degradar notoriamente la calidad, causar repeticiones y empeorar la coherencia del texto. Para muchos escenarios prácticos, un modo de 4 bits sigue siendo la opción más segura.
Además, Google hasta ahora solo ha publicado una entrada de blog y un preprint. Aún no existe una implementación oficial, y al 29 de abril de 2026, el algoritmo no está integrado en vLLM, llama.cpp o SGLang.
También hay una disputa científica sobre la prioridad de la idea. Jianyang Gao, uno de los autores del algoritmo anterior RaBitQ, afirmó que TurboQuant es demasiado similar a su enfoque y describe incorrectamente el predecesor. Entre las quejas están subestimar la similitud metodológica, crítica cuestionable de la teoría RaBitQ y comparación en condiciones desiguales: TurboQuant se probó en una GPU A100, mientras que RaBitQ en uno de los benchmarks estuvo en Python de un solo hilo.
La queja ya ha sido presentada al comité de ética del ICLR, y Google aún no ha dado una respuesta pública.
Qué significa
TurboQuant parece no ser un colapso del mercado de memoria, sino una mejora significativa en un punto específico y estrecho de la inferencia de LLM. Si Google libera el código y el método entra en pilas estándar, los contextos largos se volverán más económicos, y ejecutar modelos grandes en hardware más modesto se volverá más realista. Pero por ahora es más bien un resultado de investigación importante que una revolución industrial lista para usar.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.