Обнаружение аномалий

Обнаружение аномалий (Anomaly Detection) — это выявление необычных наблюдений, паттернов или изменений в данных, которые отклоняются от «нормы» и могут сигнализировать о сбоях, мошенничестве, инцидентах безопасности, ошибках данных или редких бизнес-событиях. Ниже — системный взгляд: от формулировки задач до эксплуатации и управления алертами.

1) Типы аномалий и постановки

Точечные (point anomalies): единичные наблюдения вне нормы (всплеск депозитов по одному пользователю).
Контекстуальные: отклонения с учетом контекста (высокая нагрузка ночью — ок, днем — аномалия).
Коллективные: группа обычных точек в необычной последовательности (серия мелких транзакций).
Структурные: смена режима/распределения (change-point; новая сезонность).
Аномалии качества данных: пропуски, дубликаты, склейки, рассинхронизация меток времени, «плоские» сенсоры.

Режимы обучения:

Надзорное: есть размеченные аномалии (редко, дорого).
Полу-надзорное (one-class): обучаем «норму», все остальное — аномально.
Ненадзорное: ищем «редкое/отдаленное» без меток.

2) Данные и подготовка

Границы нормы: горизонты и сезонности (час/день/неделя), календарные события, выходные, акции.
Фичи: лаги, скользящие статистики (mean/median/EMA), квантильные признаки, энкодинги категорий, счетчики редкости, агрегаты по окнам 7/30/90.
Очистка: дедупликация, исправление временных зон, выравнивание частоты, хэндлинг пропусков (интерполяция/forward-fill/модели восстановления).
Стандартизация/робастность: RobustScaler/ранги/винзоризация для устойчивости к выбросам.
Point-in-time корректность: без утечек будущего при генерации фич.

3) Методы обнаружения

3.1. Статистика и правила

z-score/робастный z (median, MAD), IQR/бокс-плот, экспоненциальное сглаживание с доверительными коридорами.
Контрольные карты (Shewhart, CUSUM, EWMA): для производственных процессов и потоковых метрик.
Квантильные пороги (динамические по окнам), сезонно-квантильные пороги.

3.2. Расстояния, плотности, кластера

kNN distance, Local Outlier Factor (LOF) — локальная редкость.
DBSCAN/HDBSCAN — шумовые точки вне кластеров.
PCA/Robust PCA — аномалии → высокая остаточная ошибка/статистика SPE; Hotelling’s T².

3.3. Ансамбли и деревья

Isolation Forest — изолирует редкие точки короткими путями.
Randomized Thresholding/Bagging на базовых правилах — быстрые бейзлайны для прода.

3.4. Реконструкция и вероятностные

Autoencoder/VAE (в т.ч. LSTM/Transformer для последовательностей): аномалия = высокая ошибка реконструкции.
Probabilistic forecasting (квантильные прогнозы): выход за предсказанные интервалы — сигнал.
Байесовские модели/потоки нормализующих преобразований — явная неопределенность.

3.5. Временные ряды и смены режимов

ARIMA/ETS/Prophet/TBATS — прогноз + отклонение.
Change-point detection: BOCPD, RuLSIF/критерии дивергенции, Pruned Exact Linear Time (PELT).
Matrix Profile/Discord discovery — поиск «самых непохожих подпоследовательностей».

3.6. Многомерные и графовые

Multivariate TS: VAR, TCN/TFT, LSTM-VAE; кросс-корреляции и совместные интервалы доверия.
Графы: аномальные подпути/узлы (например, в сетевом трафике или платежных цепочках).

4) Выбор метода: практическая матрица

Сценарий	Данные	Рекомендация
Метрики проды, телеметрия	Поток, сезонность	EWMA/CUSUM + квантильные коридоры; затем Isolation Forest как второй слой
Фрод/транзакции	Табличка с дисбалансом	LOF/Isolation Forest как бейзлайн → Autoencoder/VAE; добавьте правила домена
Сбыты/рынок	Ежедневные ряды	Prophet/TBATS + квантильные интервалы; change-point для сдвигов
Качество данных	Сырые логи	Правила качества + статистика; алерты на схемы/NULL/дубликаты
Потоки событий	Реал-тайм	Онлайн-версии CUSUM/EWMA + легкие one-class модели; ограничение по задержке

5) Оценка качества при редких аномалиях

Дисбаланс: ROC-AUC может вводить в заблуждение; ориентируйтесь на PR-AUC, precision@k, recall@FPR≤x%, F1, Matthews CC.
Временная метрика: Average Time To Detect (ATTD), доля «ранних детекций».
Стабильность: доля флаппинга (частые включения/выключения алерта), средняя длина «тихих» периодов.
Cost-based: матрица издержек (ложноположительные/ложноотрицательные), ценность предотвращенных инцидентов.
Валидация: временные сплиты, out-of-time окна, групповые сплиты (по пользователям/устройствам), бэк-тесты.

6) Пороговые стратегии и калибровка

Статические пороги: просты, но ломаются при сезонности.
Динамические: per-segment/per-hour квантильные, адаптируются к нагрузкам и «тихим часам».
Перцентиль по скору: 99.5-й/99.9-й для high-precision; можно делать per-bucket по категориям.
Калибровка скоринга: isotonic/temperature для вероятностей; сглаживание алертов (debounce, «N из M»).
Гистерезис: разные пороги на вход/выход из состояния аномалии.

7) Интерпретируемость и RCA (root cause analysis)

Глобально: важности фич (gain/permutation), PCA-нагрузки, профили сегментов, вклад компонентов в ошибку реконструкции.
Локально: SHAP/LIME на скорах или на вспомогательных моделях.
Атрибуция по рядам: вклад тренда/сезонности/регрессоров (праздники, кампании).
Детализация: «аномальный сегмент → аномальная фича → аномальные объекты».
Каузальность: difference-in-differences/контрфакты для отделения маркетингового эффекта от «настоящей» аномалии.

8) Продакшен и MLOps

Сервинг: синхронный (низкая задержка, gRPC/REST) и асинхронный (батч/микробатч).
Фичестор: согласованность онлайн/офлайн, point-in-time, SLA на генерацию признаков.
Версионирование: модели, пороги, схемы, конфиги; храните артефакты и «слепки» данных.
Алертинг: приоритизация (P1–P3), дедупликация, suppression окна (ночь/праздники), авто-закрытие при нормализации.
Fail-safe: автоматическая деградация к правилам/простым детекторам, таймауты, ограничение QPS.
Shadow/Canary: сравнение нового детектора с текущим, offline-→shadow-→canary-→full.
Feedback loop: интерфейс разметки алертов, полу-автоматический релейблинг и дотренировка.

9) Снижение alert-fatigue

Бандлинг: группируйте близкие по времени/сегменту алерты в один инцидент.
SLO на алерты: цель по precision/количеству алертов в смену.
Escalation policy: рост приоритета при длительности/масштабе.
Rate limiting: не более N алертов за окно; «тихий период» после срабатывания.
Двухуровневая схема: дешевый грубый детектор (высокий recall) + дорогой прецизионный верификатор.

10) Чек-лист внедрения

Определены виды аномалий и бизнес-ценность их детекции
Учтены сезонности/календарь; построены контекстные признаки
Выбран метод: быстрый бейзлайн + потенциально более сложный
Пороговая стратегия (динамические/пер-сегментные) и гистерезис
Метрики: PR-AUC, ATTD, cost-metrics, отчеты по сегментам
План интерпретации и RCA; дашборды Drill-down
Алерт-политики, suppression, дедупликация
Логирование скоринга, версии, входных фич; реплей бэк-тестов
Процедуры ретрейнинга и контроль дрейфа (PSI/JS-div)
Документация: контракты данных, SLO, рунибуки

11) Типовые паттерны

«Прогноз + отклонение»: обучаем вероятностный прогноз (квантили 5–95%), сигнал при выходе за интервал.
«Реконструктор»: Autoencoder/Robust PCA → алерт по высокой reconstruction error.
«Изолятор»: Isolation Forest для табличных/мультифич; быстро, мало настроек.
«Локальная редкость»: LOF/кNN-distance — хорош для сегментов с разной плотностью.
«Смена режима»: BOCPD/PELT + валидация причин (релиз, акция, инцидент).
«Двухэтапный»: rule-based фильтр → ML-верификатор (снижение ложных).

12) Мониторинг детектора

Качество: PR-AUC/precision@k/ATTD в скользящем окне, доля подтвержденных алертов.
Данные: пропуски, лаги, необычная кардинальность, всплески событий.
Дрейф: PSI/KL/JS по ключевым фичам и скору, дрейф целевой (если есть метки).
Операционка: задержка инференса, QPS, отказоустойчивость, доля деградаций.

13) Разметка и активное обучение

Стратегии разметки: top-k по скору, разнообразие по кластерам, «пограничные» кейсы.
Синтетика: инъекции аномалий (контролируемые) для стресс-тестов.
Active learning: дозапрашиваем метки у аналитиков для спорных инцидентов.
Weak supervision: правила/эвристики как слабые метки + агрегаторы ярлыков.

14) Безопасность, этика, комплаенс

Приватность: минимизация полей, псевдонимизация, доступ по ролям.
Прозрачность: объяснимость причин алерта и действий автоматизации.
Аудит: журнал решений, воспроизводимость порогов/версий/данных.
Справедливость: контроль bias по сегментам (особенно для антифрода/скоринга).

Мини-глоссарий

Change-point: момент смены распределения/режима ряда.
PR-AUC: площадь под кривой precision-recall, устойчива при редких позитивных.
PSI: индекс стабильности населения, метрика дрейфа распределений.
Matrix Profile/Discord: способ найти «наиболее непохожую» подпоследовательность.

Итог

Эффективный контур обнаружения аномалий — это не один «умный» алгоритм, а сочетание: корректный контекст (сезонность/календарь), робастные признаки, продуманная пороговая политика, интерпретируемый RCA, жесткая операционка (SLO/алерт-политики) и цикл улучшений через обратную связь. Такой подход снижает ложные тревоги и повышает реальную пользу от аномалий — от раннего обнаружения сбоев до предотвращения потерь.

Обнаружение аномалий