TNW→ original

El Algoritmo TurboQuant de Google derrumba las acciones de fabricantes de memoria tras la publicación de investigación

Google presentó TurboQuant — un método de compresión de cache KV para LLMs que reduce el consumo de memoria al menos seis veces y, según la empresa, no…

Procesado por IA desde TNW; editado por Hamidun News
El Algoritmo TurboQuant de Google derrumba las acciones de fabricantes de memoria tras la publicación de investigación
Fuente: TNW. Collage: Hamidun News.
◐ Escuchar artículo

Google Research ha presentado TurboQuant — un algoritmo de compresión para modelos de IA que reduce la memoria de caché clave-valor en al menos seis veces sin pérdida notable de calidad. El mercado reaccionó inmediatamente: tras la publicación el 24 de marzo de 2026, los inversores comenzaron a reevaluar cuánta memoria necesitaría realmente la industria de IA generativa.

Qué demostró Google

TurboQuant resuelve un cuello de botella estrecho pero costoso en la inferencia de grandes modelos de lenguaje — el caché clave-valor, o KV-caché. Este es un almacenamiento de contexto que permite al modelo no recalcular tokens ya procesados. Cuanto más largo es la solicitud, documento o diálogo, más rápido crece este caché y más memoria de GPU consume.

Según Google, el nuevo método comprime el KV-caché a 3 bits por valor en lugar de los 16 bits estándar y reduce el consumo de memoria en al menos seis veces. Para la práctica, esto es tan importante como para la ciencia. La memoria liberada permite servir más solicitudes simultáneas en el mismo hardware, ejecutar ventanas de contexto más largas o usar modelos más grandes sin expandir el parque de aceleradores.

Los autores escriben que TurboQuant no requiere reentrenamiento o fine-tuning y será presentado en ICLR 2026. Las pruebas utilizaron modelos de las familias Gemma, Mistral y Llama, así como benchmarks estándar de contexto largo.

Cómo funciona el algoritmo

TurboQuant se basa en un esquema de dos etapas. Primero, el método PolarQuant convierte vectores a representación polar para eliminar datos de overhead innecesarios que normalmente consumen parte de las ganancias de la cuantización tradicional. Luego se aplica QJL — una técnica que codifica el error residual con solo un bit adicional por dimensión y reduce distorsiones en la atención.

Como resultado, la mayor parte del presupuesto de bits va a preservar el significado semántico de los datos originales en lugar de overhead técnico.

Google llama al KV-caché una "hoja de trucos digital de alta

velocidad" para el modelo.

  • compresión del KV-caché de 16 a 3 bits
  • reducción mínima de memoria 6 veces
  • aceleración de hasta 8 veces del cálculo de atención en Nvidia H100 en modo de 4 bits
  • funcionamiento sin entrenamiento y fine-tuning
  • aplicación no solo en LLMs sino también en búsqueda vectorial

Google afirma que en tareas Needle in a Haystack, TurboQuant mantenía resultados perfectos incluso con compresión de caché seis veces mayor. En LongBench y ZeroSCROLLS, el método también igualó o superó KIVI — uno de los enfoques baseline bien conocidos para cuantización de KV-caché.

Por separado, la empresa probó TurboQuant para búsqueda vectorial y logró mayor recall sin grandes codebooks ni ajuste a datasets específicos. Ya es un área de interés directo para búsqueda, recomendación y sistemas publicitarios.

Por qué reaccionó el mercado

El mercado de valores vio en esta publicación no un progreso académico sino una señal de posible reducción en la demanda de memoria para infraestructura de IA. Dentro de horas de la publicación del artículo, las acciones de Micron cayeron 3%, Western Digital cayó 4,7% y SanDisk cayó 5,7%.

La lógica es simple: si un componente clave de la inferencia de repente requiere significativamente menos memoria, las futuras compras de HBM, DRAM y almacenamiento podrían no parecer tan lineales como los inversores habían proyectado.

Pero esto no significa que la industria de repente necesite seis veces menos hardware. La memoria es solo una partida de gasto en centros de datos, y el apetito de los modelos por computación crece más rápido que cualquier optimización local. Incluso analistas advierten contra conclusiones demasiado directas: los algoritmos de compresión existían antes pero no colapsaron completamente la demanda de infraestructura.

La historia de la computación más frecuentemente muestra el efecto opuesto: una vez que los recursos se vuelven más baratos, las empresas comienzan a construir sistemas más pesados y masivos con el mismo presupuesto.

Qué significa esto

TurboQuant no es razón para descontar a los fabricantes de memoria sino un indicador inicial de una nueva etapa en la carrera de eficiencia. Ahora ganadores serán no solo quienes compran más GPUs sino también quienes saben comprimir mejor la inferencia sin perder calidad. Para productos de IA esto es una oportunidad de reducir costos por solicitud, y para el mercado — un recordatorio de que el software ya influye en la capitalización del hardware.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…