KDnuggets: five outlier detection methods agreed on only 32 of 816 wine samples

Q: Источник материала?

Оригинальная публикация на KDnuggets. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-03. Время чтения: 3 мин.

KDnuggets compared five popular outlier detection methods on a real-world dataset of 6497 Portuguese wines. Of the 816 samples that at least one algorithm consi

ЖХ

Редакция Hamidun News

AI‑мониторинг · KDnuggets

2026-05-03· 3 мин

KDnuggets: five outlier detection methods agreed on only 32 of 816 wine samples — Источник: KDnuggets. Коллаж: Hamidun News.

◐ Слушать статью

KDnuggets проверил пять популярных методов поиска выбросов на реальном датасете вин и получил результат, который ломает интуицию из учебников. Из 816 образцов, помеченных хотя бы одним алгоритмом, только 32 совпали у всех основных методов.

Почему методы спорят

Для эксперимента взяли открытый Wine Quality Dataset из UCI: 6497 португальских вин Vinho Verde, включая 1599 красных и 4898 белых, с 11 физико-химическими признаками и оценками дегустаторов. Это важная деталь, потому что данные оказались не «учебниковыми»: шесть из одиннадцати признаков имели заметную асимметрию распределения, а значит классические допущения о нормальности здесь работают плохо. Первая проблема обнаружилась ещё до сравнения алгоритмов.

Если считать выбросом любой образец, у которого хотя бы один из 11 признаков экстремален, срабатываний становится слишком много. В таком режиме IQR пометил примерно 23% вин, а Z-Score — около 26%. Авторы объясняют это эффектом множественного тестирования: даже если каждый отдельный признак редко даёт случайный экстремум, при проверке 11 колонок шанс поймать «аномалию» хотя бы где-то резко растёт.

Поэтому в анализе оставили более жёсткое правило: образец считается подозрительным, только если экстремальны минимум два признака сразу.

Что показал тест

После этой поправки исследователи сравнили пять подходов: Robust Z-Score, IQR, Isolation Forest, Local Outlier Factor и Elliptic Envelope. Сходство между результатами оказалось слабым: коэффициент Жаккара для пар методов лежал в диапазоне от 0,10 до 0,30. Иначе говоря, разные инструменты смотрели на один и тот же набор данных и видели разные «странности». Из 816 вин, которые хотя бы один метод посчитал выбросами, в общий список всех четырёх основных методов попали только 32 образца. Ещё 143 вина были отмечены как минимум тремя подходами. Всё остальное оказалось спорной зоной: образцы были необычными только с точки зрения одного или двух алгоритмов.

«Вопрос не в том, какой метод лучший, а в том, какой тип необычности

вы ищете». Robust Z-Score ищет сильные отклонения по отдельным признакам. IQR хорошо ловит экстремальные значения без предположения о нормальном распределении. Isolation Forest оценивает объект сразу по всему набору признаков. LOF смотрит, насколько точка выбивается из своего локального окружения. * Elliptic Envelope опирается на многомерную нормальность и поэтому здесь оказался слабее. Отдельно авторы напоминают про ловушку в ML-методах. И Isolation Forest, и LOF в их тесте использовали contamination=0.05, то есть модель заранее обязали пометить 5% объектов как выбросы. Это не «найденная правда», а жёстко заданная квота. Поэтому одинаковая доля срабатываний у алгоритмов такого класса ещё не означает одинаковое качество.

Какие решения помогли На итог сильно повлияли три инженерных решения.

Во-первых, вместо обычного Z-Score использовали robust-версию на базе медианы и median absolute deviation: стандартная версия слишком чувствительна к самим выбросам и в этом датасете пометила лишь 0,8% строк против 3,5% у более устойчивого варианта. Во-вторых, красные и белые вина масштабировали отдельно, потому что у них разные базовые уровни химических показателей, и объединение без поправки создаёт ложные аномалии. В-третьих, Elliptic Envelope не включили в финальное «голосование доверия».

Метод предполагает многомерное нормальное распределение, а в Wine Quality Dataset это условие не выполнялось: одна из характеристик имела асимметрию 5,4, ещё несколько — выше 1. Исключение метода из консенсуса здесь не косметика, а пример нормальной аналитической дисциплины: если предпосылки нарушены, инструмент не должен определять финальный вывод. Авторы также сверили выбросы с дегустационными оценками от 3 до 9 баллов.

Образцы с экстремальным качеством — очень хорошим или очень плохим — примерно вдвое чаще попадали в консенсусный список аномалий. Это не доказывает, что алгоритмы «поняли вкус», но даёт полезную sanity check: химические отклонения действительно чаще встречаются там, где вино выбивается и по экспертной оценке.

Что это значит

Главный вывод для data science и ML-практики простой: выброс — не объективная сущность, а результат выбранного определения. Если нужен рабочий процесс без размеченной истины, разумнее не доверять одному алгоритму, а собирать консенсус из нескольких методов и уже потом решать вместе с доменной экспертизой, что удалять, а что сохранять как редкий, но ценный сигнал.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com