Treinamento

Destilação de Conhecimento

A destilação de conhecimento é uma técnica de compressão em que um modelo estudante pequeno é treinado para corresponder à distribuição de saída de um modelo professor maior, produzindo um modelo compacto que retém muito da precisão do professor.

A destilação de conhecimento é um método de compressão de modelo e treinamento em que uma rede estudante menor e mais eficiente é ensinada a replicar o comportamento de uma rede professor maior e mais capaz. Em vez de treinar o estudante apenas com rótulos ground-truth one-hot, ele aprende a corresponder à distribuição softmax completa do professor, que codifica informações mais ricas sobre relações entre classes e a incerteza aprendida do professor.

A técnica foi formalizada por Geoffrey Hinton, Oriol Vinyals e Jeff Dean em um artigo de 2015 (NeurIPS 2015). O mecanismo-chave é o temperature scaling: dividir os logits de saída do professor por um parâmetro de temperatura T > 1 antes de aplicar softmax produz distribuições de probabilidade mais suaves que atribuem massa de probabilidade significativa a classes próximas. Esses targets suaves carregam mais informação do que rótulos one-hot—uma imagem de cão recebendo 2% de probabilidade sob a classe gato transmite similaridade estrutural entre as duas categorias que um rótulo one-hot não consegue. A perda do estudante é tipicamente uma combinação ponderada de cross-entropy contra os targets suaves do professor e cross-entropy padrão contra rótulos ground-truth. Extensões como destilação em nível de features e attention-transfer distillation adicionalmente alinham ativações de camadas intermediárias e mapas de atenção entre professor e estudante, melhorando ainda mais a qualidade da transferência.

A destilação de conhecimento é importante porque os maiores modelos são impraticáveis para ambientes sensíveis a latência ou com recursos restritos—dispositivos móveis, hardware embarcado e endpoints de inferência na nuvem econômicos. A destilação bridging esse gap: um modelo estudante de um determinado tamanho consistentemente supera um modelo do mesmo tamanho treinado independentemente, porque targets suaves fornecem um sinal de treinamento mais rico do que apenas rótulos. DistilBERT (Hugging Face, 2019) demonstrou que um estudante de 66M parâmetros retém aproximadamente 97% do desempenho de BERT-base no GLUE em 60% da velocidade de inferência com 40% menos parâmetros.

Em 2026, a destilação é aplicada em escala em NLP, visão e fala. Na era dos LLM, assume novas formas: DeepSeek lançou variantes destiladas de seu modelo de raciocínio DeepSeek-R1 no início de 2025—variando de 1.5B a 70B parâmetros e treinadas em longas traces de raciocínio geradas pelo modelo completo—alcançando pontuações competitivas em benchmarks matemáticos e de codificação a uma fração do custo de inferência. Os modelos Gemini Nano do Google, projetados para inferência on-device em telefones Pixel, foram destilados de checkpoints maiores do Gemini. Os modelos on-device da Apple enviados no iOS 18 similarmente dependem de destilação para compactar capacidades de modelos foundation nos envelopes apertados de memória e potência do hardware móvel.

Exemplo

Hugging Face treinou DistilBERT destilando do modelo BERT-base de 110M parâmetros usando targets suaves em temperatura 4; o estudante resultante de 66M parâmetros executa 60% mais rápido na inferência enquanto pontua aproximadamente 97% do desempenho de BERT-base em toda a suite de benchmarks GLUE.

Termos relacionados

← Glossário