MarkTechPost→ original

Google presenta TurboQuant: compresión de caché KV 6x para LLMs sin pérdida de precisión

Google presentó TurboQuant — un nuevo método para comprimir la caché KV de grandes modelos de lenguaje sin ajuste fino y sin pérdida de calidad en pruebas…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Google presenta TurboQuant: compresión de caché KV 6x para LLMs sin pérdida de precisión
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Google Research ha presentado TurboQuant — un algoritmo de compresión de caché KV para modelos de lenguaje grande que tiene como objetivo abordar una de las limitaciones clave del contexto largo. Según la empresa, el método reduce el consumo de memoria un mínimo de seis veces e in ciertas configuraciones acelera el cálculo de attention hasta ocho veces sin pérdida de calidad en tareas de benchmark.

Por qué el caché KV ralentiza

Cuando un LLM trabaja con contexto largo, almacena claves y valores intermedios en el caché KV para evitar recalcularlos para cada token. Esto ahorra computación, pero rápidamente choca con los límites de memoria: cuanto más grande sea el modelo y cuanto más largo sea el diálogo o documento, más crece el caché. Como resultado, el cuello de botella se convierte no solo en la GPU en sí, sino también en la transferencia de datos entre la SRAM rápida y la memoria HBM. Para inference esto es especialmente problemático, porque las consultas largas comienzan a costar significativamente más tanto en latencia como en requisitos de hardware.

Google compara el caché KV con una "chuleta digital de alta velocidad" que el modelo utiliza en lugar de cálculos repetidos.

La cuantización estándar resuelve parcialmente el problema, pero tiene su propio efecto secundario: junto con los datos comprimidos, es necesario almacenar constantes de cuantización adicionales. Estos bits de sobrecarga consumen parte de los ahorros, especialmente cuando se trata de miles de millones de valores dentro de un contexto largo. Este es precisamente el lugar donde Google construye TurboQuant: la idea no es simplemente comprimir vectores de manera más agresiva, sino eliminar el overhead innecesario que impide lograr ahorros reales de memoria.

Cómo funciona TurboQuant TurboQuant consta de dos etapas.

Primero, se utiliza PolarQuant: un algoritmo que rota aleatoriamente vectores, los traduce a una representación más conveniente y luego cuantiza las coordenadas individualmente. Este enfoque preserva la estructura básica de los datos originales sin ajustes complejos para cada bloque. Luego entra en juego la segunda capa — Quantized Johnson-Lindenstrauss, o QJL.

Toma el error residual después de la primera etapa y lo codifica con un único bit adicional para eliminar el sesgo sistemático en el cálculo del producto interno y la puntuación de attention. Prácticamente, esto es importante por dos razones. Primero, TurboQuant sigue siendo data-oblivious: no requiere datasets para calibración, entrenamiento adicional o fine-tuning para modelos específicos.

Segundo, el método funciona para escenarios online, donde el caché necesita ser comprimido directamente durante la inference, en lugar de preparar un pipeline offline separado. Google enfatiza que este enfoque es útil no solo para LLMs, sino también para búsqueda vectorial, donde grandes arrays de embeddings también necesitan almacenarse y compararse de forma rápida y económica. El propio TurboQuant se está preparando para su presentación en ICLR 2026.

Qué resultados logró

Google Google probó TurboQuant en LongBench, Needle In A Haystack, ZeroSCROLLS, RULER y L-Eval, utilizando modelos abiertos Gemma y Mistral. Según la empresa, TurboQuant mantiene la calidad en tareas de contexto largo mientras reduce significativamente el caché KV. El blog de Google enfatiza la cuantización de 3 bits sin pérdida de calidad en benchmarks probados, y el resumen del artículo en arXiv señala por separado la preservación total de la calidad en 3,5 bits por canal con solo una ligera degradación en 2,5 bits.

reducción mínima de 6x en la memoria del caché KV aceleración de hasta 8x del cálculo de attention logits en H100 en configuración de 4 bits en comparación con claves de 32 bits sin cuantizar sin necesidad de entrenamiento adicional, fine-tuning o datasets de calibración resultados sólidos también en búsqueda vectorial: TurboQuant superó los métodos baseline PQ y RabbiQ en recall en el dataset GloVe Por separado, Google apuesta por aplicar el método a la búsqueda. TurboQuant, PolarQuant y QJL reducen no solo el uso de memoria, sino también el tiempo de construcción del índice, mientras mantienen la precisión de la búsqueda del vecino más cercano. Esto hace que la tecnología sea interesante no solo para modelos generativos, sino para cualquier infraestructura que necesite trabajar con enormes colecciones de vectores: desde búsqueda semántica hasta sistemas de recomendación y la capa de retrieval de productos de IA.

Qué significa esto

TurboQuant muestra que el próximo gran avance para LLMs puede provenir no de nuevos parámetros del modelo, sino de una gestión de memoria más inteligente. Si el enfoque de Google se valida en producción y aparece en stacks de inference populares, el contexto largo se volverá más barato, rápido y accesible incluso sin actualizaciones de hardware. Para desarrolladores, esta es una oportunidad de encajar sesiones más largas y escenarios de RAG dentro del mismo presupuesto de GPU, y para usuarios — obtener respuestas más estables en documentos grandes y conversaciones largas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…