Аугментация данных
Аугментация данных — набор техник расширения обучающего датасета путём создания видоизменённых копий существующих примеров при сохранении их меток. Позволяет улучшить обобщающую способность модели без сбора дополнительных реальных данных.
Аугментация данных — метод искусственного увеличения объёма обучающей выборки путём применения к исходным примерам преобразований, сохраняющих класс или смысл. В задачах компьютерного зрения это горизонтальное отражение, повороты, изменение яркости и контраста, случайная обрезка; в обработке текста — обратный перевод, замена синонимами, вставка шума на уровне символов или слов.
Техника работает потому, что нейронная сеть воспринимает аугментированный образец как новый пример, хотя его метка не изменилась, — это вынуждает модель извлекать инвариантные признаки вместо запоминания конкретных пикселей или слов. Такие методы, как Mixup (смешивание двух изображений с интерполяцией меток) и CutMix (замена случайного прямоугольника фрагментом другого изображения), обеспечивают дополнительный регуляризующий эффект. Библиотеки Albumentations и torchvision.transforms стали стандартом для CV-задач; для NLP широко применяется nlpaug.
Аугментация критически важна, когда реальных данных мало: в медицинской визуализации, промышленном контроле качества, распознавании редких событий. Правильно подобранная стратегия аугментации повышает точность модели на 2–10% на типовых бенчмарках без каких-либо дополнительных реальных данных и без роста затрат на разметку.
В 2024–2026 годах аугментация вышла за рамки простых геометрических преобразований: LLM-assisted augmentation использует языковые модели для генерации парафразов, синтетических диалогов и стилистически разнообразных текстов. В мультимодальных системах применяется согласованная аугментация сразу нескольких модальностей — изображения и соответствующего текстового описания одновременно.