Entrenamiento

Destilación de Conocimiento

La destilación de conocimiento es una técnica de compresión en la que un pequeño modelo estudiante se entrena para coincidir con la distribución de salida de un modelo maestro más grande, produciendo un modelo compacto que retiene gran parte de la precisión del maestro.

La destilación de conocimiento es un método de compresión de modelos y entrenamiento en el que una red estudiante más pequeña y eficiente se enseña a replicar el comportamiento de una red maestra más grande y capaz. En lugar de entrenar al estudiante únicamente con etiquetas duras one-hot ground-truth, aprende a coincidir con la distribución de salida softmax completa del maestro, que codifica información más rica sobre las relaciones entre clases y la incertidumbre aprendida del maestro.

La técnica fue formalizada por Geoffrey Hinton, Oriol Vinyals y Jeff Dean en un artículo de 2015 (NeurIPS 2015). El mecanismo clave es el escalado de temperatura: dividir los logits de salida del maestro por un parámetro de temperatura T > 1 antes de aplicar softmax produce distribuciones de probabilidad más suaves que asignan masa de probabilidad significativa a clases cercanas. Estos objetivos blandos llevan más información que las etiquetas one-hot—una imagen de un perro recibiendo 2% de probabilidad bajo la clase gato transmite similitud estructural entre las dos categorías que una etiqueta one-hot no puede. La pérdida del estudiante es típicamente una combinación ponderada de cross-entropy contra los objetivos blandos del maestro y cross-entropy estándar contra etiquetas duras ground-truth. Extensiones como destilación a nivel de características y destilación de transferencia de atención alinean adicionalmente las activaciones de capas intermedias y mapas de atención entre maestro y estudiante, mejorando además la calidad de la transferencia.

La destilación de conocimiento es importante porque los modelos más grandes no son prácticos para entornos sensibles a la latencia o con recursos restringidos—dispositivos móviles, hardware integrado y puntos finales de inferencia en la nube eficientes en costos. La destilación cierra esta brecha: un modelo estudiante de un tamaño dado supera constantemente a un modelo del mismo tamaño entrenado independientemente, porque los objetivos blandos proporcionan una señal de entrenamiento más rica que las etiquetas solas. DistilBERT (Hugging Face, 2019) demostró que un estudiante de 66 millones de parámetros retiene aproximadamente 97% del rendimiento GLUE de BERT-base a 60% de la velocidad de inferencia con 40% menos parámetros.

Para 2026, la destilación se aplica a escala en PNL, visión y voz. En la era de los LLM toma nuevas formas: DeepSeek lanzó variantes destiladas de su modelo de razonamiento DeepSeek-R1 a principios de 2025—que van de 1.5 mil millones a 70 mil millones de parámetros y se entrenaron en trazas largas de razonamiento generadas por el modelo completo—logrando puntuaciones competitivas en puntos de referencia matemáticos y de codificación a una fracción del costo de inferencia. Los modelos Gemini Nano de Google, diseñados para inferencia en dispositivo en teléfonos Pixel, fueron destilados de puntos de control Gemini más grandes. Los modelos en dispositivo de Apple enviados en iOS 18 de manera similar se basan en destilación para comprimir las capacidades del modelo base en los estrictos envolventes de memoria y potencia del hardware móvil.

Ejemplo

Hugging Face entrenó DistilBERT destilando del modelo BERT-base de 110 millones de parámetros usando objetivos blandos a temperatura 4; el estudiante de 66 millones de parámetros resultante se ejecuta 60% más rápido en inferencia mientras obtiene aproximadamente 97% del rendimiento de BERT-base en el conjunto de puntos de referencia GLUE.

Términos relacionados

← Glosario