Inferencia

Cuantización

La cuantización es la técnica de representar los pesos de una red neuronal — y opcionalmente sus activaciones — en formatos numéricos de menor precisión como INT8 o INT4 en lugar de los formatos predeterminados FP16 o BF16, reduciendo la huella de memoria y acelerando la inferencia a costa de una pequeña degradación de precisión generalmente aceptable.

La cuantización de redes neuronales reduce el número de bits utilizados para almacenar parámetros del modelo. Un modelo de lenguaje grande estándar almacena pesos en punto flotante de 16 bits (BF16), consumiendo 2 bytes por parámetro: un modelo de 70 mil millones de parámetros requiere aproximadamente 140 GB en esta precisión. Cuantizar a enteros de 8 bits (INT8) reduce el uso de memoria a la mitad, aproximadamente 70 GB; la cuantización de 4 bits (INT4 o NF4) la reduce a aproximadamente 35 GB, colocando un modelo de 70B al alcance de un par de GPU NVIDIA RTX 4090 de grado consumidor (cada una con 24 GB VRAM) o un único A100 de 80 GB. La reducción de memoria se traduce directamente en menores costos de alojamiento y permite el despliegue en hardware que de otra manera sería insuficiente.

Existen dos metodologías principales. La cuantización post-entrenamiento (PTQ) aplica cuantización a un modelo ya entrenado sin actualizaciones adicionales de gradientes: GPTQ (2022) utiliza información aproximada de segundo orden para minimizar el error de cuantización capa por capa; AWQ (Activation-aware Weight Quantization, cuantización de pesos consciente de activación, 2023) identifica y protege la pequeña fracción de pesos que más contribuyen a la magnitud de activación, preservando la precisión en rangos muy bajos de bits sin reentrenamiento. La cuantización consciente del entrenamiento (QAT) inserta cuantización simulada en el bucle de entrenamiento para que el modelo aprenda a compensar la pérdida de precisión durante el descenso de gradientes, produciendo mayor precisión que PTQ en el mismo rango de bits al costo de computación de entrenamiento adicional. Formatos híbridos como NF4 (4-bit NormalFloat, optimizado para pesos que siguen una distribución normal, utilizado en bitsandbytes) y GGUF (el formato de contenedor utilizado por llama.cpp para inferencia en CPU e inferencia mixta CPU/GPU) se han convertido en los formatos de distribución dominantes para modelos de pesos abiertos.

La cuantización es el habilitador principal de la inferencia LLM local y en dispositivo. Sin ella, incluso un modelo de 7 mil millones de parámetros en FP16 requiere aproximadamente 14 GB de memoria, excediendo la capacidad de la mayoría de GPU de portátiles y aceleradores móviles. A escala en la nube, la cuantización de pesos INT8 reduce a la mitad la demanda de ancho de banda de memoria durante la fase de decodificación —el cuello de botella dominante para la generación de tokens— aproximadamente duplicando el rendimiento por GPU. La pérdida de precisión es típicamente insignificante en INT8 y pequeña pero medible en INT4 en la mayoría de benchmarks; ir a 2 bits o 1 bit incurre en una degradación mayor y sigue siendo una frontera activa de investigación.

A partir de 2026, la cuantización de pesos INT8 es esencialmente universal en implementaciones de inferencia en la nube. La comunidad de código abierto distribuye casi todos los modelos de pesos abiertos principales —LLaMA 3, Mistral, Qwen 2.5, Gemma 2— como archivos GGUF cuantizados por defecto en Hugging Face. El marco MLX de Apple aprovecha la cuantización de 4 bits para inferencia en dispositivo en Apple Silicon. BitNet b1.58 de Microsoft Research (2024) demostró precisión competitiva con pesos ternarios (−1, 0, +1), y Qualcomm ha enviado aceleradores de inferencia INT4 dedicados en SoC móviles. La cuantización de caché KV —cuantización independiente de los tensores de atención almacenados de FP16 a INT8 o INT4— también se ha convertido en práctica estándar en pilas de servicio de producción incluyendo vLLM y TensorRT-LLM.

Ejemplo

Un desarrollador ejecuta LLaMA 3 70B localmente en una única GPU NVIDIA RTX 4090 usando cuantización GGUF de 4 bits a través de llama.cpp; el modelo cuantizado ocupa aproximadamente 38 GB en memoria del sistema con descarga parcial a GPU en lugar de los ~140 GB requeridos en precisión completa BF16, permitiendo inferencia local práctica con solo una reducción menor en la precisión de benchmarks.

Términos relacionados

Inferencia QLoRA On-Device AI VRAM

Últimas noticias sobre el tema

Phi-4-Mini de Microsoft: implementación de cuantización, RAG y LoRA en un único notebook Jupyter2026-04-23

← Glosario