KDnuggets: خمس طرق لاكتشاف القيم الشاذة اتفقت على 32 فقط من أصل 816 عينة نبيذ
قارن KDnuggets خمس طرق شائعة لاكتشاف القيم الشاذة على مجموعة بيانات واقعية تضم 6497 عينة من النبيذ البرتغالي. ومن بين 816 عينة اعتبرتها خوارزمية واحدة على الأقل

KDnuggets проверил пять популярных методов поиска выбросов на реальном датасете вин и получил результат, который ломает интуицию из учебников. Из 816 образцов, помеченных хотя бы одним алгоритмом, только 32 совпали у всех основных методов.
Почему методы спорят
Для эксперимента взяли открытый Wine Quality Dataset из UCI: 6497 португальских вин Vinho Verde, включая 1599 красных и 4898 белых, с 11 физико-химическими признаками и оценками дегустаторов. Это важная деталь, потому что данные оказались не «учебниковыми»: шесть из одиннадцати признаков имели заметную асимметрию распределения, а значит классические допущения о нормальности здесь работают плохо. Первая проблема обнаружилась ещё до сравнения алгоритмов.
Если считать выбросом любой образец, у которого хотя бы один из 11 признаков экстремален, срабатываний становится слишком много. В таком режиме IQR пометил примерно 23% вин, а Z-Score — около 26%. Авторы объясняют это эффектом множественного тестирования: даже если каждый отдельный признак редко даёт случайный экстремум, при проверке 11 колонок шанс поймать «аномалию» хотя бы где-то резко растёт.
Поэтому в анализе оставили более жёсткое правило: образец считается подозрительным, только если экстремальны минимум два признака сразу.
Что показал тест
После этой поправки исследователи сравнили пять подходов: Robust Z-Score, IQR, Isolation Forest, Local Outlier Factor и Elliptic Envelope. Сходство между результатами оказалось слабым: коэффициент Жаккара для пар методов лежал в диапазоне от 0,10 до 0,30. Иначе говоря, разные инструменты смотрели на один и тот же набор данных и видели разные «странности». Из 816 вин, которые хотя бы один метод посчитал выбросами, в общий список всех четырёх основных методов попали только 32 образца. Ещё 143 вина были отмечены как минимум тремя подходами. Всё остальное оказалось спорной зоной: образцы были необычными только с точки зрения одного или двух алгоритмов.
«Вопрос не в том, какой метод лучший, а в том, какой тип необычности
вы ищете». Robust Z-Score ищет сильные отклонения по отдельным признакам. IQR хорошо ловит экстремальные значения без предположения о нормальном распределении. Isolation Forest оценивает объект сразу по всему набору признаков. LOF смотрит, насколько точка выбивается из своего локального окружения. * Elliptic Envelope опирается на многомерную нормальность и поэтому здесь оказался слабее. Отдельно авторы напоминают про ловушку в ML-методах. И Isolation Forest, и LOF в их тесте использовали contamination=0.05, то есть модель заранее обязали пометить 5% объектов как выбросы. Это не «найденная правда», а жёстко заданная квота. Поэтому одинаковая доля срабатываний у алгоритмов такого класса ещё не означает одинаковое качество.
Какие решения помогли На итог сильно повлияли три инженерных решения.
Во-первых, вместо обычного Z-Score использовали robust-версию на базе медианы и median absolute deviation: стандартная версия слишком чувствительна к самим выбросам и в этом датасете пометила лишь 0,8% строк против 3,5% у более устойчивого варианта. Во-вторых, красные и белые вина масштабировали отдельно, потому что у них разные базовые уровни химических показателей, и объединение без поправки создаёт ложные аномалии. В-третьих, Elliptic Envelope не включили в финальное «голосование доверия».
Метод предполагает многомерное нормальное распределение, а в Wine Quality Dataset это условие не выполнялось: одна из характеристик имела асимметрию 5,4, ещё несколько — выше 1. Исключение метода из консенсуса здесь не косметика, а пример нормальной аналитической дисциплины: если предпосылки нарушены, инструмент не должен определять финальный вывод. Авторы также сверили выбросы с дегустационными оценками от 3 до 9 баллов.
Образцы с экстремальным качеством — очень хорошим или очень плохим — примерно вдвое чаще попадали в консенсусный список аномалий. Это не доказывает, что алгоритмы «поняли вкус», но даёт полезную sanity check: химические отклонения действительно чаще встречаются там, где вино выбивается и по экспертной оценке.
Что это значит
Главный вывод для data science и ML-практики простой: выброс — не объективная сущность, а результат выбранного определения. Если нужен рабочий процесс без размеченной истины, разумнее не доверять одному алгоритму, а собирать консенсус из нескольких методов и уже потом решать вместе с доменной экспертизой, что удалять, а что сохранять как редкий, но ценный сигнал.