DeepSeek, Google y Meta: 10 técnicas de compresión de KV-cache en LLM para reducir memoria en inferencia
KV-cache ha sido durante mucho tiempo un cuello de botella para ejecutar LLMs con contexto largo, y ahora los investigadores ofrecen no uno, sino una docena…
Procesado por IA desde MarkTechPost; editado por Hamidun News
El KV-cache ha evolucionado de un detalle auxiliar a uno de los principales cuellos de botella de la inferencia LLM en producción. Una nueva revisión ha compilado 10 técnicas que ayudan a reducir el consumo de memoria sin retreinamiento completo del modelo y en muchos casos aceleran significativamente la generación.
Dónde los LLM Se Atascan
Cuanto más largo es el contexto y cuantas más solicitudes simultáneas atiende un modelo, más rápido crece el KV-cache—un almacenamiento intermedio de claves y valores del mecanismo de atención. La revisión proporciona un ejemplo revelador: un modelo con 30 mil millones de parámetros con tamaño de lote 128 y entrada de 1024 tokens puede ocupar hasta 180 GB de memoria en su KV-cache. Incluso para un modelo 7B, los pesos ocupan alrededor de 14 GB de memoria GPU, mientras que el cache ocupa aproximadamente 72 GB—significando que el mecanismo de generación en sí comienza a costar más que almacenar los parámetros.
Debido a esto, la optimización del KV-cache se ha convertido en una dirección de investigación separada, no una tarea menor de ajuste. Comprimir el cache permite aumentar el tamaño del lote, servir a más usuarios en la misma GPU y evitar alcanzar límites de memoria con prompts largos. Una ventaja importante es que muchos de estos métodos funcionan directamente durante la inferencia: el modelo base no necesita ser retreinado y el efecto es inmediatamente visible en el rendimiento y el costo de servicio.
Cómo Se Comprime
Los investigadores ahora utilizan varias estrategias que difieren no solo en calidad sino también en colocación dentro del pipeline. Algunos métodos descartan los tokens menos útiles, otros reducen la precisión de la representación en cache y otros aún alteran la propia arquitectura de atención. Una clase separada redistribuye memoria entre capas porque las capas tempranas necesitan contexto más rico, mientras que las capas más profundas pueden funcionar con menos claves y valores. Esencialmente, ya no se trata de porcentajes de ahorro sino de la capacidad de ejecutar contexto largo en el mismo hardware.
- Poda de tokens: H2O, StreamingLLM y SnapKV mantienen solo una porción de los estados. H2O retiene tokens "pesados" con alta contribución de atención, StreamingLLM mantiene los primeros tokens y una ventana reciente, mientras que SnapKV selecciona posiciones importantes por atención al final del prompt.
- Asignación de presupuesto por capa: PyramidKV y PyramidInfer operan sobre la suposición de que las capas profundas necesitan contexto menos rico que las tempranas, por lo que la memoria se asigna de manera desigual.
- Cuantización: KIVI, KVQuant y TurboQuant reducen la precisión de la representación del KV-cache mientras intentan preservar la calidad de la generación.
- Cambios arquitectónicos: MQA, GQA y MLA reducen el tamaño del cache a nivel del propio esquema de atención, en lugar de estar sobre un modelo existente.
- Compresión de bajo rango: Palu, LoRC y métodos similares cortan la dimensión oculta de tensores KV en lugar de la longitud de la secuencia.
Los más simples de implementar son los métodos sin entrenamiento adicional. H2O encuentra tokens que recopilan la mayor parte de la atención y descarta posiciones débiles. StreamingLLM mantiene los primeros tokens como "anclas de atención" más una ventana reciente, haciéndolo adecuado para conversaciones infinitas pero arriesgando la pérdida de información importante del contexto medio. SnapKV opera durante la etapa de precompletado y selecciona posiciones importantes separadamente por cabeza de atención, por lo que típicamente supera esquemas más gruesos con el mismo presupuesto de cache.
Las distribuciones de peso de atención a menudo siguen una ley de
potencia, por lo que eliminar tokens de baja contribución no siempre impacta severamente la calidad.
Quién Proporciona las Mejores Ganancias
En cuantización, KIVI, KVQuant y TurboQuant se destacan notablemente. KIVI convierte KV-cache a representación de 2 bits sin fine-tuning y, según la revisión, entrega hasta 2,6x menos uso de memoria máxima en la combinación "pesos más cache" y permite ejecutar lotes hasta cuatro veces más grandes. KVQuant va más allá: utiliza calibración, precisión mixta y manejo separado de outliers para mantener calidad incluso en contextos extremadamente largos.
El resultado más agresivo en el material se atribuye a TurboQuant de Google Research. Este método primero alinea distribuciones de valores a través de rotación ortogonal aleatoria, luego corrige el error de cuantización de modo que la estimación del producto escalar permanezca insesgada. En H100, muestra al menos reducción de 6x en memoria y hasta 8x atención más rápida con precisión de 3 bits.
Para equipos de infraestructura, esto ya no es una optimización local sino un reclamo por un nuevo estándar de servicio.
Una pista separada es cambiar la propia arquitectura del modelo. GQA ya se ha convertido en la norma de facto para LLMs modernos de peso abierto: mientras se usaba solo en la versión 70B de Llama 2, en Llama 3 se expandió a 8B y 70B. Yendo más lejos está MLA de DeepSeek, donde en lugar de clave y valor de tamaño completo, se almacena una representación latente comprimida por token. La revisión nota que DeepSeek-V2 redujo KV-cache en 93,3% comparado con su modelo anterior denso de 67B a través de MLA.
Qué Significa
El mercado LLM está cada vez menos restringido por el tamaño de los pesos y cada vez más por el costo de memoria en contexto largo. Para equipos que construyen servicios de inferencia, la conclusión es directa: las ganancias ahora provienen no de una técnica mágica sino de selección cuidadosa entre eviction, cuantización y arquitectura adaptada a cargas de trabajo específicas, SLAs y presupuestos de GPU.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.