TechCrunch→ original

Google presenta TurboQuant — un algoritmo que comprime seis veces la memoria de trabajo de la AI

Google anunció TurboQuant — un algoritmo de compresión de la memoria de trabajo de redes neuronales con un factor declarado de hasta seis veces. Por ahora es…

Procesado por IA desde TechCrunch; editado por Hamidun News
Google presenta TurboQuant — un algoritmo que comprime seis veces la memoria de trabajo de la AI
Fuente: TechCrunch. Collage: Hamidun News.
◐ Escuchar artículo

Google anunció TurboQuant — un nuevo algoritmo para comprimir la memoria de trabajo de redes neuronales que, según la empresa, puede reducir el consumo de memoria hasta seis veces. El anuncio desencadenó inmediatamente una ola de bromas en la comunidad tecnológica: usuarios de todo el mundo están comparando el desarrollo con Pied Piper — un algoritmo ficticio de la serie HBO "Silicon Valley", que se convirtió en un símbolo de culto del hype tecnológico infundado. Por ahora, TurboQuant sigue siendo un experimento de laboratorio: la empresa no ha divulgado un artículo técnico, ni código público, ni plazos para la implementación comercial.

Por qué la memoria de redes neuronales es un problema crítico

Los grandes modelos de lenguaje requieren enormes volúmenes de memoria GPU. Este problema tiene dos dimensiones. La primera es estática: los pesos del modelo en sí.

Llama 3.1 con 70 mil millones de parámetros ocupa aproximadamente 140 gigabytes en precisión total. La segunda dimensión es dinámica: cálculos intermedios que el modelo realiza al procesar cada solicitud.

Estos datos temporales se denominan activaciones, y son precisamente estos los que se convierten en el principal cuello de botella al trabajar con contextos largos. Cuando un modelo procesa un documento con 100.000 tokens, debe mantener en memoria los resultados de cálculo de cada capa para cada token — el llamado KV-cache.

El volumen de estos datos crece linealmente con la longitud del contexto y puede superar el volumen de los pesos en sí con una entrada suficientemente larga. Aquí es exactamente donde TurboQuant ofrece una solución radical.

Cómo Funciona TurboQuant

El algoritmo aplica cuantización — una técnica para reducir la precisión numérica — directamente a las activaciones en tiempo real. La cuantización estándar se ha aplicado durante décadas a pesos de modelo estáticos: usar enteros de 8 bits o 4 bits en lugar de números de punto flotante de 32 bits. Esto funciona bien para pesos invariables porque el rango de valores es predecible.

Las activaciones son un asunto completamente diferente. Sus valores varían de manera impredecible según la solicitud específica, lo que hace que la cuantización estándar sea ineficaz sin pérdida de calidad. Google afirma que TurboQuant resuelve este problema mediante métodos adaptativos que tienen en cuenta las estadísticas de activación sobre la marcha.

Según la empresa, esto logra una compresión de seis veces sin degradación significativa de la calidad de las respuestas.

Qué Significaría la Confirmación de Resultados

Incluso resultados prácticos más modestos — compresión de dos a tres veces — cambiarían la economía de la infraestructura de IA. Los proveedores de nube más grandes gastan decenas de miles de millones de dólares anualmente en infraestructura GPU para servir solicitudes de modelos. Una porción significativa de estos costos se debe a los requisitos de memoria durante la inferencia.

Comprimir las activaciones significaría modelos más poderosos en el mismo hardware, menor latencia mediante la reducción de operaciones de memoria y la capacidad de manejar contextos largos sin degradación de desempeño. Para dispositivos periféricos, las consecuencias son aún más significativas. Actualmente, ejecutar modelos al nivel de Llama 3.

1 70B requiere varias tarjetas gráficas o compromisos agresivos en precisión. TurboQuant podría reducir significativamente esta barrera — abriendo modelos poderosos a laptops y estaciones de trabajo con memoria limitada.

El Fenómeno Pied Piper y Lo Que Hay Detrás

La comparación con Pied Piper es más que un meme. En la serie, una startup ficticia crea un algoritmo de compresión universal con características fantásticas, basado en el original "coeficiente de Weissman". Los paralelismos con TurboQuant son obvios: cifras revolucionarias, código cerrado, ausencia de verificación independiente.

La diferencia es que Google DeepMind no es una startup de garaje. La empresa tiene un largo historial de logros reales en eficiencia: Flash Attention, optimización de KV-cache, algoritmos de destilación. Si TurboQuant pasó la revisión interna y fue anunciado públicamente, muy probablemente representa un resultado real.

El siguiente paso obligatorio es la publicación en arXiv y la reproducción independiente de los resultados por investigadores de terceros. Hasta ese momento, TurboQuant sigue siendo una promesa. Si los resultados se confirman, las bromas sobre Pied Piper pasarán al olvido junto con el problema de memoria de redes neuronales — y eso sería un buen resultado.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…