Обучение

Инструктивное дообучение

Инструктивное дообучение — этап обучения языковой модели на наборе пар «инструкция — желаемый ответ», позволяющий ей следовать произвольным командам пользователя вместо простого продолжения текста.

Инструктивное дообучение (instruction tuning) — метод настройки предобученной языковой модели на датасете из пар «запрос пользователя — правильный ответ». Данные могут быть написаны людьми вручную, сгенерированы более мощной моделью по методу self-instruct или получены путём преобразования существующих NLP-датасетов в диалоговый формат. Цель — научить модель выполнять команды и вести диалог вместо простого продолжения незавершённого текста.

Процесс технически представляет собой обычный supervised fine-tuning (SFT): модель минимизирует кросс-энтропию на обучающих парах. Датасеты охватывают десятки тысяч — миллионы разнообразных инструкций: суммаризацию, перевод, написание кода, ответы на вопросы, форматирование данных. Широко известные открытые наборы — FLAN (Google, 2021), Alpaca (Stanford, 2023, 52 000 примеров), Open-Platypus и Orca от Microsoft.

До instruction tuning базовая модель умеет продолжать текст, но не понимает диалогового контракта «вопрос — ответ». После дообучения она следует инструкциям, придерживается нужного формата и отвечает по существу. Вычислительные затраты при этом несравнимо ниже предобучения: как правило, несколько сотен GPU-часов вместо недель.

К 2025–2026 годам instruction tuning стал обязательным шагом для всех коммерческих и большинства открытых моделей. Meta выпускает каждую версию Llama в двух вариантах — base и Instruct; Mistral — в Instruct-версиях. Исследование LIMA (2023) показало, что 1000 тщательно отобранных примеров дают результаты, сравнимые с десятками тысяч автоматически сгенерированных, — качество данных принципиально важнее их объёма.

Пример

После предобучения Mistral 7B разработчики провели instruction tuning на смешанном датасете из инструкций по программированию и общих задач, получив Mistral 7B Instruct — модель, способную писать код и отвечать на вопросы по описанию задачи.

Связанные термины

← Глоссарий