Обучение

Трансферное обучение

Трансферное обучение — метод, при котором модель, обученная на одной задаче или наборе данных, переиспользуется для решения другой задачи, сохраняя ранее усвоенные признаки и существенно снижая потребность в размеченных данных.

Трансферное обучение основано на наблюдении, что низкоуровневые признаки — края и текстуры в изображениях, синтаксические паттерны в тексте — универсальны и полезны для широкого круга задач. Вместо обучения модели с нуля берётся сеть, предобученная на большом корпусе, и настраивается на целевой задаче с использованием значительно меньшего объёма данных. Массовое распространение метод получил с появлением глубоких сетей и датасета ImageNet в начале 2010-х, а в NLP — с выходом BERT и GPT в 2018–2019 годах.

В компьютерном зрении стандартная схема: берётся ResNet или Vision Transformer (ViT), предобученные на ImageNet (1,2 млн изображений, 1000 классов), и дообучаются финальные слои на узкодоменных данных — медицинских снимках, аэрофотографиях или промышленных изображениях. В NLP предобученные трансформеры (BERT, RoBERTa, GPT) адаптируются к специализированным корпусам. Различают: полную настройку весов (full fine-tuning), заморозку большинства слоёв с обучением только головы (feature extraction) и их комбинации.

Метод радикально снижает порог входа: задача классификации медицинских изображений, прежде требовавшая миллионов размеченных примеров, решается с несколькими тысячами при трансферном обучении. Это критично для доменов с ограниченными данными — медицина, юриспруденция, промышленная диагностика. Экономия вычислительных ресурсов также значительна: дообучение занимает часы вместо недель предобучения с нуля.

К 2026 году трансферное обучение стало базовой практикой во всей прикладной ML-разработке. Большинство производственных систем основаны на дообучении фундаментальных моделей от Anthropic, Google, Meta или OpenAI на корпоративных данных. Развитие PEFT-методов (LoRA, adapter layers, prefix tuning) сделало перенос знаний ещё более доступным по вычислительным ресурсам.

Пример

Стартап в области юридической аналитики берёт Llama 3.1 70B и дообучает её на корпусе судебных решений за несколько часов — вместо месяцев разработки с нуля — получая специализированного ассистента для правовой экспертизы.

Связанные термины

Файнтюнинг (дообучение)Предобучение Фундаментальная модель

← Глоссарий