Обучение

Обучающие данные

Обучающие данные — размеченный или неразмеченный набор примеров, на котором модель машинного обучения настраивает свои параметры в ходе тренировки. Качество, разнообразие и объём этих данных напрямую определяют возможности и ограничения обученной модели.

Обучающие данные — основной «сырьевой материал» машинного обучения: именно по ним модель подбирает значения своих параметров (весов), минимизируя ошибку на заданной задаче. В обучении с учителем каждый пример сопровождается меткой (ответом); в самообучении метки генерируются автоматически из структуры самих данных — например, следующее слово в предложении служит целевым токеном для языковой модели.

Процесс обучения заключается в многократном показе модели примеров из датасета и корректировке весов через обратное распространение ошибки и градиентный спуск. Данные обычно делятся на три части: обучающую (train), валидационную (validation) и тестовую (test). Для крупных языковых моделей обучающий корпус формируется из веб-текстов (Common Crawl), книг, кода и специализированных источников; Llama 3 от Meta обучалась на корпусе объёмом более 15 триллионов токенов.

Принцип «мусор на входе — мусор на выходе» (garbage in, garbage out) означает, что предвзятость, ошибки и пробелы в обучающих данных напрямую переносятся в поведение модели. Недостаточная представленность отдельных языков, профессий или демографических групп приводит к систематическим ошибкам. OpenAI, Google DeepMind и Anthropic инвестируют значительные ресурсы в фильтрацию, дедупликацию и курирование данных.

К 2026 году дефицит высококачественных обучающих данных стал одним из главных ограничений прогресса LLM: открытые веб-данные фактически исчерпаны для моделей frontier-класса. Рост качества теперь достигается за счёт синтетических данных, preference data (RLHF, DPO) и специализированных корпусов, создаваемых экспертами вручную.

Пример

Для обучения классификатора тональности отзывов на русскоязычном рынке компания собирает 100 000 комментариев с маркетплейсов, вручную размечает каждый как позитивный, нейтральный или негативный и передаёт этот датасет в качестве обучающих данных для файнтюна базовой модели.

Связанные термины

Предобучение Tokenization Синтетические данные

← Глоссарий