KDnuggets: five outlier detection methods agreed on only 32 of 816 wine samples
KDnuggets compared five popular outlier detection methods on a real-world dataset of 6497 Portuguese wines. Of the 816 samples that at least one algorithm consi

KDnuggets проверил пять популярных методов поиска выбросов на реальном датасете вин и получил результат, который ломает интуицию из учебников. Из 816 образцов, помеченных хотя бы одним алгоритмом, только 32 совпали у всех основных методов.
Почему методы спорят
Для эксперимента взяли открытый Wine Quality Dataset из UCI: 6497 португальских вин Vinho Verde, включая 1599 красных и 4898 белых, с 11 физико-химическими признаками и оценками дегустаторов. Это важная деталь, потому что данные оказались не «учебниковыми»: шесть из одиннадцати признаков имели заметную асимметрию распределения, а значит классические допущения о нормальности здесь работают плохо. Первая проблема обнаружилась ещё до сравнения алгоритмов.
Если считать выбросом любой образец, у которого хотя бы один из 11 признаков экстремален, срабатываний становится слишком много. В таком режиме IQR пометил примерно 23% вин, а Z-Score — около 26%. Авторы объясняют это эффектом множественного тестирования: даже если каждый отдельный признак редко даёт случайный экстремум, при проверке 11 колонок шанс поймать «аномалию» хотя бы где-то резко растёт.
Поэтому в анализе оставили более жёсткое правило: образец считается подозрительным, только если экстремальны минимум два признака сразу.
Что показал тест
После этой поправки исследователи сравнили пять подходов: Robust Z-Score, IQR, Isolation Forest, Local Outlier Factor и Elliptic Envelope. Сходство между результатами оказалось слабым: коэффициент Жаккара для пар методов лежал в диапазоне от 0,10 до 0,30. Иначе говоря, разные инструменты смотрели на один и тот же набор данных и видели разные «странности». Из 816 вин, которые хотя бы один метод посчитал выбросами, в общий список всех четырёх основных методов попали только 32 образца. Ещё 143 вина были отмечены как минимум тремя подходами. Всё остальное оказалось спорной зоной: образцы были необычными только с точки зрения одного или двух алгоритмов.
«Вопрос не в том, какой метод лучший, а в том, какой тип необычности
вы ищете». Robust Z-Score ищет сильные отклонения по отдельным признакам. IQR хорошо ловит экстремальные значения без предположения о нормальном распределении. Isolation Forest оценивает объект сразу по всему набору признаков. LOF смотрит, насколько точка выбивается из своего локального окружения. * Elliptic Envelope опирается на многомерную нормальность и поэтому здесь оказался слабее. Отдельно авторы напоминают про ловушку в ML-методах. И Isolation Forest, и LOF в их тесте использовали contamination=0.05, то есть модель заранее обязали пометить 5% объектов как выбросы. Это не «найденная правда», а жёстко заданная квота. Поэтому одинаковая доля срабатываний у алгоритмов такого класса ещё не означает одинаковое качество.
Какие решения помогли На итог сильно повлияли три инженерных решения.
Во-первых, вместо обычного Z-Score использовали robust-версию на базе медианы и median absolute deviation: стандартная версия слишком чувствительна к самим выбросам и в этом датасете пометила лишь 0,8% строк против 3,5% у более устойчивого варианта. Во-вторых, красные и белые вина масштабировали отдельно, потому что у них разные базовые уровни химических показателей, и объединение без поправки создаёт ложные аномалии. В-третьих, Elliptic Envelope не включили в финальное «голосование доверия».
Метод предполагает многомерное нормальное распределение, а в Wine Quality Dataset это условие не выполнялось: одна из характеристик имела асимметрию 5,4, ещё несколько — выше 1. Исключение метода из консенсуса здесь не косметика, а пример нормальной аналитической дисциплины: если предпосылки нарушены, инструмент не должен определять финальный вывод. Авторы также сверили выбросы с дегустационными оценками от 3 до 9 баллов.
Образцы с экстремальным качеством — очень хорошим или очень плохим — примерно вдвое чаще попадали в консенсусный список аномалий. Это не доказывает, что алгоритмы «поняли вкус», но даёт полезную sanity check: химические отклонения действительно чаще встречаются там, где вино выбивается и по экспертной оценке.
Что это значит
Главный вывод для data science и ML-практики простой: выброс — не объективная сущность, а результат выбранного определения. Если нужен рабочий процесс без размеченной истины, разумнее не доверять одному алгоритму, а собирать консенсус из нескольких методов и уже потом решать вместе с доменной экспертизой, что удалять, а что сохранять как редкий, но ценный сигнал.