Обучение

Обучение с учителем

Обучение с учителем (Supervised Learning) — основная парадигма машинного обучения, при которой модель обучается на размеченных данных: каждому входному примеру соответствует правильный ответ, и модель минимизирует ошибку на этих парах.

Обучение с учителем — метод машинного обучения, где модель обучается на датасете из пар (входной пример, правильный ответ). В задачах классификации модель предсказывает категорию (например, «спам / не спам» или принадлежность к одному из тысяч классов объектов), в задачах регрессии — числовое значение. Обучение состоит в подборе параметров модели, минимизирующих функцию потерь — меру расхождения между предсказанием модели и эталонным ответом.

Оптимизация выполняется методами градиентного спуска — SGD, Adam и их вариациями. Для предотвращения переобучения данные делятся на три части: тренировочное множество (обновление весов), валидационное (подбор гиперпараметров) и тестовое (итоговая оценка качества). Ключевая предпосылка метода — статистическое соответствие распределений обучающих данных и данных в производственной среде.

Обучение с учителем лежит в основе большинства промышленных применений ML: распознавание речи (Whisper), машинный перевод (системы Google Translate), компьютерное зрение (ImageNet-классификаторы), медицинская диагностика. Предобучение языковых моделей — предсказание следующего токена на триллионах текстовых токенов — является частным случаем обучения с учителем, где правильным ответом служит следующий символ в обучающем тексте.

К 2026 году обучение с учителем остаётся фундаментом пайплайнов обучения LLM в форме SFT (Supervised Fine-Tuning): после предобучения на открытых текстах модели дообучаются на тщательно отобранных размеченных диалогах и инструкциях. Качество и разнообразие разметки стали критическим конкурентным фактором: ведущие лаборатории инвестируют значительные ресурсы в создание синтетических и верифицированных датасетов.

Пример

Для адаптации модели к медицинским консультациям врачи-эксперты разметили 100 тысяч клинических вопросов эталонными ответами, после чего модель прошла SFT на этом датасете и повысила точность диагностических рекомендаций по сравнению с базовой версией.

Связанные термины

← Глоссарий