Wykrywanie anomalii

Wykrywanie anomalii to identyfikacja nietypowych obserwacji, wzorów lub zmian danych, które odbiegają od „normy” i mogą sygnalizować awarie, oszustwa, incydenty bezpieczeństwa, błędy w danych lub rzadkie zdarzenia biznesowe. Poniżej widok systematyczny: od formułowania zadań do działania i zarządzania wpisami.

1) Rodzaje anomalii i stwierdzeń

Anomalie punktowe: pojedyncze obserwacje poza normą (wzrost depozytów dla jednego użytkownika).
Kontekst: wrażliwe na kontekst odchylenia (duże obciążenie w nocy - ok, w ciągu dnia - anomalia).
Zbiorowe: grupa zwykłych punktów w nietypowej kolejności (seria małych transakcji).
Struktura: punkt zmiany; nowa sezonowość).
Anomalie jakości danych: pominięcia, duplikaty, kleje, niedokonanie znaczników czasu, czujniki „płaskie”.

Tryby szkolenia:

Nadzór: występują wyraźne anomalie (rzadkie, drogie).
Pół-nadzorczy (jednoklasowy): uczymy „normy”, wszystko inne jest nienormalne.
Brak nadzoru: szukamy „rzadkich/odległych” bez tagów.

2) Dane i przygotowanie

Normalne limity: horyzonty i sezonowość (godzina/dzień/tydzień), wydarzenia kalendarzowe, weekendy, promocje.
Cechy: opóźnienia, statystyki przesuwne (średnia/mediana/EMA), cechy ilościowe, kodowanie kategorii, liczniki rzadkości, agregaty okienne 7/30/90.
Czyszczenie: deduplikacja, korekcja strefy czasowej, wyrównanie częstotliwości, pominięcie obsługi (modele interpolacji/napełniania/odzyskiwania).
Standaryzacja/solidność: RobustScaler/Ranks/vinzorization dla odporności na emisję.
Poprawność punktu w czasie: brak przyszłych wycieków podczas generowania funkcji.

3) Metody wykrywania

3. 1. Statystyki i zasady

z-score/solidne z (mediana, MAD), IQR/box plot, wykładnicze wygładzanie z korytarzami ufności.
Karty kontrolne (Shewhart, CUSUM, EWMA): do procesów produkcyjnych i mierników przepływu.
Progi ilościowe (dynamiczne według okien), progi ilościowe sezonowo.

3. 2. Odległości, gęstości, skupiska

odległość kNN, lokalny czynnik zewnętrzny (LOF) jest rzadkością lokalną.
DBSCAN/HDBSCAN - punkty hałasu poza klastrami.
PCA/Solidne PCA - anomalie → wysoki błąd resztkowy/statystyki SPE; Hotelarstwo T ².

3. 3. Komplety i drzewa

Izolacja Las - izoluje rzadkie punkty w krótki sposób.
Randomizowany Progering/Bagging na podstawowych zasadach - szybkie linie podstawowe dla żywności.

3. 4. Rekonstrukcja i probabilistyka

Autoencoder/VAE (w tym LSTM/Transformer dla sekwencji): anomalia = wysoki błąd rekonstrukcji.
Prognozowanie probabilistyczne: wykraczające poza przewidywane przedziały - sygnał.
Bajesowskie modele/strumienie normalizacji transformacji - wyraźna niepewność.

3. 5. Seria czasu i zmiany trybu

ARIMA/ETS/Prophet/TBATS - prognoza + odchylenie.
Wykrywanie punktu zmiany: BOCPD, kryteria RuLSIF/rozbieżności, dokładny czas liniowy przycinany (PELT).
Matrix Profile/Discord discovery - wyszukiwanie „najbardziej odmiennych następstw”.

3. 6. Wielowymiarowy i wykres

Multivariate TS: VAR, TCN/TFT, LSTM-VAE; wzajemnych korelacji i wspólnych przedziałów zaufania.
Kolumny: nieprawidłowe podtorzy/węzły (na przykład w ruchu sieciowym lub łańcuchach płatniczych).

4) Wybór metody: praktyczna matryca

Scenariusz	Dane	Zalecenie
Wskaźniki sprzedaży, telemetria	Przepływ, sezonowość	korytarze kwantowe EWMA/CUSUM +; następnie las izolacyjny jako druga warstwa
Oszustwa/transakcje	Płyta nierównowagi	LOF/las izolacyjny jako podstawowy → Autoencoder/VAE; dodać reguły domeny
Sprzedaż/Rynek	Wiersze dzienne	Prorok/TBATS + odstępy kwantowe; punkt zmiany w przypadku kloszów
Jakość danych	Dzienniki surowe	zasady jakości + statystyki; wpisy do schematów/NULL/duplikaty
Przepływy zdarzeń	Czas rzeczywisty	Wersje online CUSUM/EWMA + lekkie modele jednoklasowe; limit opóźnień

5) Ocena jakości w przypadku rzadkich anomalii

Nierównowaga: ROC-AUC może wprowadzać w błąd; skupić się na PR-AUC, precision @ k, recall @ FPR ≤ x%, F1, Matthews CC.
Metryka czasu: średni czas do wykrycia (ATTD), odsetek „wczesnych wykryć”.
Stabilność: procent klapowania (częste włączanie/wyłączanie), średnia długość „cichych” okresów.
Koszt: macierz kosztów (fałszywie dodatni/fałszywy ujemny), wartość zdarzeń odwróconych.
Walidacja: podziały czasu, okna poza czasem, podziały grupowe (według użytkownika/urządzenia), testy pleców.

6) Strategie progowe i kalibracja

Progi statyczne: Proste, ale przerwać, gdy sezonowo.
Dynamiczny: kwantylny na segment/na godzinę, dostosowany do obciążeń i cichych godzin.
Percentyl według prędkości: 99. 5/99. 9 dla wysokiej precyzji; można wykonać na wiadro według kategorii.
Kalibracja punktacji: izotoniczna/temperatura dla prawdopodobieństwa; wygładzenie alarmu (debounce, "N of M').
Histereza: różne progi wejścia/wyjścia z stanu anomalii.

7) Interpretacja i RCA (analiza przyczyny głównej)

Globalny: przyrost/permutacja, obciążenia PCA, profile segmentów, wkład w błąd odbudowy.
Lokalnie: SHAP/LIME na rampach lub na modelach pomocniczych.
Przypisanie serii: wkład trendu/sezonowości/regresorów (wakacje, kampanie).
Szczegóły: „anormalny segment → nieprawidłowa funkcja → nieprawidłowe obiekty”.
Przyczynowość: różnica w różnicach/контра акта dla urzędu wprowadzania do obrotu „prawdziwej” anomalii.

8) Produkcja i MLOp

Podawanie: synchroniczne (niskie opóźnienia, gRPC/REST) i asynchroniczne (partia/mikrobatch).
Fichestor: spójność online/offline, punkt w czasie, SLA dla generowania funkcji.
Wersioning: modele, progi, schematy, konfiguracje; przechowywać artefakty i dane "casts'.
Ostrzeganie: priorytetyzacja (P1-P3), deduplikacja, tłumienie okien (noc/wakacje), automatyczne zamykanie podczas normalizacji.
Awaryjny: automatyczna degradacja do reguł/proste detektory, timeouts, ograniczenie QPS.
Cień/Kanaryjski: porównanie nowego detektora z obecnym, offline- → cień - → kanaryjski - → pełny.
Pętla zwrotna: interfejs znakowania alarmowego, półautomatyczne przenoszenie i szkolenie.

9) Zmniejszenie zmęczenia alarmowego

Pakiet: Wpisy grupowe zamykają się w czasie/segmencie na jeden incydent.
SLO na wpisy: cel dla precyzji/liczby wpisów na zmianę.
Polityka eskalacji: wzrost priorytetu na czas trwania/skalę.
Ograniczenie stawki: nie więcej niż N wpisów na okno; „cichy okres” po uruchomieniu.
Schemat dwupoziomowy: tani detektor gruby (high recall) + drogi weryfikator precyzyjny.

10) Lista kontrolna wdrażania

Zidentyfikowane rodzaje anomalii i wartość biznesowa ich wykrywania
Uwzględniono sezonowość/kalendarz; Budowane cechy kontekstowe
Szybki punkt odniesienia + potencjalnie bardziej złożona metoda wybrana
Strategia progowa (dynamiczna/na segment) i histereza
Wskaźniki: PR-AUC, ATTD, mierniki kosztów, raporty segmentów
Plan tłumaczeń ustnych i RCA; Deski rozdzielcze Wiertarka
Polityka ostrzegania, tłumienie, deduplikowanie
Rejestrowanie punktów, wersja, funkcje wejściowe; powtórne testy powrotne
Procedury przekwalifikowania i sterowanie dryfem (PSI/JS-α)
Dokumentacja: Umowy o dane, SLO, Runibooks

11) Typowe wzory

„Prognoza + odchylenie”: trenujemy prognozę probabilistyczną (kwantyle 5-95%), sygnał podczas przekraczania przedziału.
„Rekonstruktor”: Autoencoder/Solidny PCA → alert dla wysokiego błędu rekonstrukcji.
„Izolator”: Las Izolacyjny dla tabelarycznych/wielogatunkowych; szybko, kilka ustawień.
„Lokalna rzadkość”: odległość LOF/kNN - dobra dla segmentów o różnej gęstości.
„Zmiana reżimu”: BOCPD/PELT + powoduje walidację (zwolnienie, promocja, incydent).
„Dwuetapowy”: filtr oparty na zasadach → weryfikator ML (fałszywa redukcja).

12) Monitorowanie detektora

Jakość: PR-AUC/precision @ k/ATTD w oknie przesuwnym, udział potwierdzonych wpisów.
Dane: zaniechania, opóźnienia, niezwykła kardynalność, wybuchy wydarzeń.
Drift: PSI/KL/JS według kluczowych funkcji i prędkości, dryfu docelowego (jeśli zaznaczone).
System operacyjny: opóźnienie w wnioskowaniu, QPS, tolerancja błędów, udział w degradacji.

13) Znakowanie i aktywne szkolenia

Strategie znakowania: najwyższa prędkość, różnorodność w klastrach, przypadki „graniczne”.
Syntetyka: wstrzyknięcia anomalii (kontrolowane) do testów warunków skrajnych.
Aktywne uczenie się: prosimy analityków o etykiety do kontrowersyjnych incydentów.
Słaby nadzór: zasady/heurystyka jako słabe etykiety + agregatory etykiet.

14) Bezpieczeństwo, etyka, zgodność

Prywatność: minimalizacja pól, pseudonimizacja, dostęp do ról.
Przejrzystość: wyjaśnienie przyczyn alarmu i działania automatyki.
Audyt: dziennik decyzji, powtarzalność progów/wersji/danych.
Sprawiedliwość: kontrola uprzedzeń według segmentów (zwłaszcza w przypadku zwalczania nadużyć finansowych/punktacji).

Mini Glosariusz

Punkt zmiany: moment zmiany rozkładu/trybu serii.
PR-AUC: obszar pod krzywą precyzyjnego wycofywania, stabilny przy rzadkich dodatnich wynikach.
PSI: wskaźnik stabilności populacji, metryka dryfu dystrybucyjnego.
Profil matrycy/Dyskord: Sposób na znalezienie „najbardziej odmiennego” następstwa.

Razem

Skuteczna pętla wykrywania anomalii nie jest jednym „inteligentnym” algorytmem, lecz kombinacją: właściwy kontekst (sezonowość/kalendarz), solidne cechy, dobrze przemyślana polityka progowa interpretowana przez RCA, sztywny system operacyjny (polityka SLO/alert) oraz cykl ulepszeń poprzez sprzężenie zwrotne. To podejście zmniejsza fałszywe alarmy i zwiększa rzeczywiste korzyści z anomalii - od wczesnego wykrywania niepowodzeń do zapobiegania utracie.

Wykrywanie anomalii