Wykrywanie anomalii
Wykrywanie anomalii
Wykrywanie anomalii to identyfikacja nietypowych obserwacji, wzorów lub zmian danych, które odbiegają od „normy” i mogą sygnalizować awarie, oszustwa, incydenty bezpieczeństwa, błędy w danych lub rzadkie zdarzenia biznesowe. Poniżej widok systematyczny: od formułowania zadań do działania i zarządzania wpisami.
1) Rodzaje anomalii i stwierdzeń
Anomalie punktowe: pojedyncze obserwacje poza normą (wzrost depozytów dla jednego użytkownika).
Kontekst: wrażliwe na kontekst odchylenia (duże obciążenie w nocy - ok, w ciągu dnia - anomalia).
Zbiorowe: grupa zwykłych punktów w nietypowej kolejności (seria małych transakcji).
Struktura: punkt zmiany; nowa sezonowość).
Anomalie jakości danych: pominięcia, duplikaty, kleje, niedokonanie znaczników czasu, czujniki „płaskie”.
- Nadzór: występują wyraźne anomalie (rzadkie, drogie).
- Pół-nadzorczy (jednoklasowy): uczymy „normy”, wszystko inne jest nienormalne.
- Brak nadzoru: szukamy „rzadkich/odległych” bez tagów.
2) Dane i przygotowanie
Normalne limity: horyzonty i sezonowość (godzina/dzień/tydzień), wydarzenia kalendarzowe, weekendy, promocje.
Cechy: opóźnienia, statystyki przesuwne (średnia/mediana/EMA), cechy ilościowe, kodowanie kategorii, liczniki rzadkości, agregaty okienne 7/30/90.
Czyszczenie: deduplikacja, korekcja strefy czasowej, wyrównanie częstotliwości, pominięcie obsługi (modele interpolacji/napełniania/odzyskiwania).
Standaryzacja/solidność: RobustScaler/Ranks/vinzorization dla odporności na emisję.
Poprawność punktu w czasie: brak przyszłych wycieków podczas generowania funkcji.
3) Metody wykrywania
3. 1. Statystyki i zasady
z-score/solidne z (mediana, MAD), IQR/box plot, wykładnicze wygładzanie z korytarzami ufności.
Karty kontrolne (Shewhart, CUSUM, EWMA): do procesów produkcyjnych i mierników przepływu.
Progi ilościowe (dynamiczne według okien), progi ilościowe sezonowo.
3. 2. Odległości, gęstości, skupiska
odległość kNN, lokalny czynnik zewnętrzny (LOF) jest rzadkością lokalną.
DBSCAN/HDBSCAN - punkty hałasu poza klastrami.
PCA/Solidne PCA - anomalie → wysoki błąd resztkowy/statystyki SPE; Hotelarstwo T ².
3. 3. Komplety i drzewa
Izolacja Las - izoluje rzadkie punkty w krótki sposób.
Randomizowany Progering/Bagging na podstawowych zasadach - szybkie linie podstawowe dla żywności.
3. 4. Rekonstrukcja i probabilistyka
Autoencoder/VAE (w tym LSTM/Transformer dla sekwencji): anomalia = wysoki błąd rekonstrukcji.
Prognozowanie probabilistyczne: wykraczające poza przewidywane przedziały - sygnał.
Bajesowskie modele/strumienie normalizacji transformacji - wyraźna niepewność.
3. 5. Seria czasu i zmiany trybu
ARIMA/ETS/Prophet/TBATS - prognoza + odchylenie.
Wykrywanie punktu zmiany: BOCPD, kryteria RuLSIF/rozbieżności, dokładny czas liniowy przycinany (PELT).
Matrix Profile/Discord discovery - wyszukiwanie „najbardziej odmiennych następstw”.
3. 6. Wielowymiarowy i wykres
Multivariate TS: VAR, TCN/TFT, LSTM-VAE; wzajemnych korelacji i wspólnych przedziałów zaufania.
Kolumny: nieprawidłowe podtorzy/węzły (na przykład w ruchu sieciowym lub łańcuchach płatniczych).
4) Wybór metody: praktyczna matryca
5) Ocena jakości w przypadku rzadkich anomalii
Nierównowaga: ROC-AUC może wprowadzać w błąd; skupić się na PR-AUC, precision @ k, recall @ FPR ≤ x%, F1, Matthews CC.
Metryka czasu: średni czas do wykrycia (ATTD), odsetek „wczesnych wykryć”.
Stabilność: procent klapowania (częste włączanie/wyłączanie), średnia długość „cichych” okresów.
Koszt: macierz kosztów (fałszywie dodatni/fałszywy ujemny), wartość zdarzeń odwróconych.
Walidacja: podziały czasu, okna poza czasem, podziały grupowe (według użytkownika/urządzenia), testy pleców.
6) Strategie progowe i kalibracja
Progi statyczne: Proste, ale przerwać, gdy sezonowo.
Dynamiczny: kwantylny na segment/na godzinę, dostosowany do obciążeń i cichych godzin.
Percentyl według prędkości: 99. 5/99. 9 dla wysokiej precyzji; można wykonać na wiadro według kategorii.
Kalibracja punktacji: izotoniczna/temperatura dla prawdopodobieństwa; wygładzenie alarmu (debounce, "N of M').
Histereza: różne progi wejścia/wyjścia z stanu anomalii.
7) Interpretacja i RCA (analiza przyczyny głównej)
Globalny: przyrost/permutacja, obciążenia PCA, profile segmentów, wkład w błąd odbudowy.
Lokalnie: SHAP/LIME na rampach lub na modelach pomocniczych.
Przypisanie serii: wkład trendu/sezonowości/regresorów (wakacje, kampanie).
Szczegóły: „anormalny segment → nieprawidłowa funkcja → nieprawidłowe obiekty”.
Przyczynowość: różnica w różnicach/контра акта dla urzędu wprowadzania do obrotu „prawdziwej” anomalii.
8) Produkcja i MLOp
Podawanie: synchroniczne (niskie opóźnienia, gRPC/REST) i asynchroniczne (partia/mikrobatch).
Fichestor: spójność online/offline, punkt w czasie, SLA dla generowania funkcji.
Wersioning: modele, progi, schematy, konfiguracje; przechowywać artefakty i dane "casts'.
Ostrzeganie: priorytetyzacja (P1-P3), deduplikacja, tłumienie okien (noc/wakacje), automatyczne zamykanie podczas normalizacji.
Awaryjny: automatyczna degradacja do reguł/proste detektory, timeouts, ograniczenie QPS.
Cień/Kanaryjski: porównanie nowego detektora z obecnym, offline- → cień - → kanaryjski - → pełny.
Pętla zwrotna: interfejs znakowania alarmowego, półautomatyczne przenoszenie i szkolenie.
9) Zmniejszenie zmęczenia alarmowego
Pakiet: Wpisy grupowe zamykają się w czasie/segmencie na jeden incydent.
SLO na wpisy: cel dla precyzji/liczby wpisów na zmianę.
Polityka eskalacji: wzrost priorytetu na czas trwania/skalę.
Ograniczenie stawki: nie więcej niż N wpisów na okno; „cichy okres” po uruchomieniu.
Schemat dwupoziomowy: tani detektor gruby (high recall) + drogi weryfikator precyzyjny.
10) Lista kontrolna wdrażania
- Zidentyfikowane rodzaje anomalii i wartość biznesowa ich wykrywania
- Uwzględniono sezonowość/kalendarz; Budowane cechy kontekstowe
- Szybki punkt odniesienia + potencjalnie bardziej złożona metoda wybrana
- Strategia progowa (dynamiczna/na segment) i histereza
- Wskaźniki: PR-AUC, ATTD, mierniki kosztów, raporty segmentów
- Plan tłumaczeń ustnych i RCA; Deski rozdzielcze Wiertarka
- Polityka ostrzegania, tłumienie, deduplikowanie
- Rejestrowanie punktów, wersja, funkcje wejściowe; powtórne testy powrotne
- Procedury przekwalifikowania i sterowanie dryfem (PSI/JS-α)
- Dokumentacja: Umowy o dane, SLO, Runibooks
11) Typowe wzory
„Prognoza + odchylenie”: trenujemy prognozę probabilistyczną (kwantyle 5-95%), sygnał podczas przekraczania przedziału.
„Rekonstruktor”: Autoencoder/Solidny PCA → alert dla wysokiego błędu rekonstrukcji.
„Izolator”: Las Izolacyjny dla tabelarycznych/wielogatunkowych; szybko, kilka ustawień.
„Lokalna rzadkość”: odległość LOF/kNN - dobra dla segmentów o różnej gęstości.
„Zmiana reżimu”: BOCPD/PELT + powoduje walidację (zwolnienie, promocja, incydent).
„Dwuetapowy”: filtr oparty na zasadach → weryfikator ML (fałszywa redukcja).
12) Monitorowanie detektora
Jakość: PR-AUC/precision @ k/ATTD w oknie przesuwnym, udział potwierdzonych wpisów.
Dane: zaniechania, opóźnienia, niezwykła kardynalność, wybuchy wydarzeń.
Drift: PSI/KL/JS według kluczowych funkcji i prędkości, dryfu docelowego (jeśli zaznaczone).
System operacyjny: opóźnienie w wnioskowaniu, QPS, tolerancja błędów, udział w degradacji.
13) Znakowanie i aktywne szkolenia
Strategie znakowania: najwyższa prędkość, różnorodność w klastrach, przypadki „graniczne”.
Syntetyka: wstrzyknięcia anomalii (kontrolowane) do testów warunków skrajnych.
Aktywne uczenie się: prosimy analityków o etykiety do kontrowersyjnych incydentów.
Słaby nadzór: zasady/heurystyka jako słabe etykiety + agregatory etykiet.
14) Bezpieczeństwo, etyka, zgodność
Prywatność: minimalizacja pól, pseudonimizacja, dostęp do ról.
Przejrzystość: wyjaśnienie przyczyn alarmu i działania automatyki.
Audyt: dziennik decyzji, powtarzalność progów/wersji/danych.
Sprawiedliwość: kontrola uprzedzeń według segmentów (zwłaszcza w przypadku zwalczania nadużyć finansowych/punktacji).
Mini Glosariusz
Punkt zmiany: moment zmiany rozkładu/trybu serii.
PR-AUC: obszar pod krzywą precyzyjnego wycofywania, stabilny przy rzadkich dodatnich wynikach.
PSI: wskaźnik stabilności populacji, metryka dryfu dystrybucyjnego.
Profil matrycy/Dyskord: Sposób na znalezienie „najbardziej odmiennego” następstwa.
Razem
Skuteczna pętla wykrywania anomalii nie jest jednym „inteligentnym” algorytmem, lecz kombinacją: właściwy kontekst (sezonowość/kalendarz), solidne cechy, dobrze przemyślana polityka progowa interpretowana przez RCA, sztywny system operacyjny (polityka SLO/alert) oraz cykl ulepszeń poprzez sprzężenie zwrotne. To podejście zmniejsza fałszywe alarmy i zwiększa rzeczywiste korzyści z anomalii - od wczesnego wykrywania niepowodzeń do zapobiegania utracie.