Обучение

Аугментация данных

Аугментация данных — набор техник расширения обучающего датасета путём создания видоизменённых копий существующих примеров при сохранении их меток. Позволяет улучшить обобщающую способность модели без сбора дополнительных реальных данных.

Аугментация данных — метод искусственного увеличения объёма обучающей выборки путём применения к исходным примерам преобразований, сохраняющих класс или смысл. В задачах компьютерного зрения это горизонтальное отражение, повороты, изменение яркости и контраста, случайная обрезка; в обработке текста — обратный перевод, замена синонимами, вставка шума на уровне символов или слов.

Техника работает потому, что нейронная сеть воспринимает аугментированный образец как новый пример, хотя его метка не изменилась, — это вынуждает модель извлекать инвариантные признаки вместо запоминания конкретных пикселей или слов. Такие методы, как Mixup (смешивание двух изображений с интерполяцией меток) и CutMix (замена случайного прямоугольника фрагментом другого изображения), обеспечивают дополнительный регуляризующий эффект. Библиотеки Albumentations и torchvision.transforms стали стандартом для CV-задач; для NLP широко применяется nlpaug.

Аугментация критически важна, когда реальных данных мало: в медицинской визуализации, промышленном контроле качества, распознавании редких событий. Правильно подобранная стратегия аугментации повышает точность модели на 2–10% на типовых бенчмарках без каких-либо дополнительных реальных данных и без роста затрат на разметку.

В 2024–2026 годах аугментация вышла за рамки простых геометрических преобразований: LLM-assisted augmentation использует языковые модели для генерации парафразов, синтетических диалогов и стилистически разнообразных текстов. В мультимодальных системах применяется согласованная аугментация сразу нескольких модальностей — изображения и соответствующего текстового описания одновременно.

Пример

При обучении детектора дефектов на производственной линии с 500 реальными снимками брака команда применяет повороты, изменение яркости и добавление шума, получая эффективный датасет из 15 000 примеров и снижая долю ложных пропусков на 30%.

Связанные термины

Обучающие данные Синтетические данные Переобучение

← Глоссарий