Обучение

Дистилляция знаний

Дистилляция знаний — метод, при котором компактная модель-«ученик» обучается воспроизводить вероятностные распределения крупной модели-«учителя», а не только правильные ответы; это позволяет уменьшить модель в разы при незначительной потере качества.

Дистилляция знаний (Knowledge Distillation) систематически описана Джеффри Хинтоном, Оривалом Виньялсом и Джеффом Дином в работе 2015 года. Вместо обучения модели-ученика на жёстких метках (0/1) его обучают на «мягких» вероятностях учителя по всем классам. Такое распределение несёт больше информации, чем единственный правильный ответ: относительные вероятности смежных категорий отражают структурные сходства в данных — например, что грузовик ближе к автомобилю, чем к банану.

Функция потерь ученика обычно комбинирует две составляющие: дистилляционную потерю — KL-дивергенцию между распределениями учителя и ученика при температуре T > 1 (высокая температура смягчает распределение, усиливая сигнал от малых вероятностей) — и стандартный cross-entropy с истинными метками. Существуют расширения: feature distillation (ученик воспроизводит промежуточные представления учителя), relation distillation (воспроизведение попарных сходств между примерами), self-distillation (итеративная дистилляция модели в саму себя).

DistilBERT (Hugging Face, 2019) достиг 97% качества BERT при сокращении числа параметров на 40% и ускорении инференса в 1,6 раза. DeepSeek-R1 (2025) применяет явную дистилляцию рассуждательных способностей от 671B-модели в варианты 7B–70B на базе Llama и Qwen. Microsoft Phi-4 частично использует синтетические данные, сгенерированные более крупными моделями, — что является формой дистилляции без явного учителя. Метод критически важен для деплоя на мобильных устройствах и edge-платформах.

К 2026 году дистилляция стала основным инструментом получения эффективных продуктовых моделей из флагманских. Спекулятивное декодирование — новый класс применений, где малая «черновая» модель генерирует токены-кандидаты, а крупная верифицирует их пакетами, ускоряя инференс в 2–4 раза без потери качества. Активно исследуется онлайн-дистилляция, при которой учитель и ученик обновляются одновременно в рамках единого процесса обучения.

Пример

Производственная система NLP заменяет BERT на DistilBERT: скорость ответа увеличивается в 1,6 раза, стоимость облачного инференса снижается примерно на 40%, а точность классификации намерений падает лишь на 2–3 процентных пункта.

Связанные термины

Малая языковая модель (SLM)Синтетические данные Файнтюнинг (дообучение)

← Глоссарий