Wykrywanie anomalii w operacjach
1) Dlaczego
Anomalie są wczesnymi markerami incydentów i strat finansowych. W iGaming są to spadki w udanych autoryzacji, wybuchy czasowe, wzrost kolejek, awarie w konwersji KYC, skoki w odchyleniach stawek, błędy dostawców gier. Celem jest wykrycie przed użytkownikiem, zlokalizowanie przyczyny i uruchomienie reakcji automatycznych/operatorów.
2) Sygnały i dziedziny obserwacji
Płatności/finansowanie: autoryzacje PSP/banków/GEO, miękkie/twarde spadki, czas rozliczenia, wskaźniki wczesnego obciążenia zwrotnego.
Rdzeń gry: zakłady i zestawy p95/p99, wskaźnik błędów, rozbieżność równowagi, odchylenia w kursach/liniach.
Infrastruktura: latency/5xx API, nasycenie (CPU/RAM/IO), opóźnienie replikacji DB, kolejki consumer-lag, cache-hit/eksmisja.
KYC/AML: kolejki weryfikacyjne, TAT (czas obrotowy), ręczny udział kontrolny.
Front/RUM: TTFB/LCP, błędy JS, degradacja geosiatka.
Bezpieczeństwo/oszustwo: wybuchy wejść/rejestracji/wyjść, anomalie prędkości, nietypowe wzory.
3) Rodzaje anomalii
Punkt: jednorazowy skok/zanurzenie (np. 20% spadek auth-sukcesu w UE).
Kontekst: „nienormalny dla tej godziny/dnia/wydarzenia” (szczyt nocny - ok, czas dzienny - nie).
Zbiorowisko: sekwencja małych odchyleń, która tworzy incydent (pełzający wzrost p99).
Punkt zmiany: nowy poziom serii (po wydaniu/konfiguracji/dostawcy).
4) Metody wykrywania (proste do złożonych)
1. Reguły progowe są statyczne lub dynamiczne (przesuwny percentyl okna, mediana ± k· MAD).
2. Rozkład sezonowy (STL): tendencja/sezonowość → analiza resztkowa (resztkowa) i IQR/MAD.
3. Wykresy kontrolne (CUSUM/EWMA): wrażliwe na małe przesunięcia średnie/dyspersyjne.
4. Wykrywanie punktu zmiany: BOCPD, pęknięcia/PELT; naprawić momenty zmiany trybu.
5. Wielowymiarowe anomalie: mahalanobis, izolacja lasu/LOF według zestawów funkcji (opóźnienie, wskaźnik błędu, opóźnienie, współczynnik trafienia).
6. Metody strumieniowe (strumień): ADWIN, SSD, statystyki szkiców; niskie opóźnienia i z ograniczoną pamięcią.
7. Prognoza + delta: ARIMA/ETS/Prophet/GBM → porównanie faktu z przedziałem ufności (szczególnie dla serii biznesowych).
8. Półkontrolowany ML: trening na „normie” (One-Class SVM/AutoEncoder), przydatny w słabym markupie.
Praktyka: połączyć 2-3 metody i zagregować przez głosowanie lub według priorytetu (rule-of-thumb: sezonowy STL + CUSUM + taśma prognostyczna).
5) Anomalie rurociągu: od danych do działania
1. Kolekcja → normalizacja: ujednolicona seria (OTel/metryki), pojedyncza ziarnistość (10-60 sekund).
2. Cechy i kontekst: GEO/PSP/bank/kanał, „godzina pracy? „, „mecz/turniej? „, wydania/ficheflagi, zaplanowane prace.
3. Sezonowość i kalendarz: świadome modele o weekendach/prime time/matches/holidays.
4. Detektor: wybrane metody (próg/statystyka/ML/strumień) z parametrami na segment.
5. Tłumienie szumów: histereza i potwierdzenie za pomocą kilku okien (N-of-M), impas wypadkowy.
6. Informacja i priorytety: ocena wpływu (SLO, pieniądze/min, udział publiczności), przydział P1-P4.
7. Reakcja: automatyczne działania (PSP feilover, funkcja degradacji, autoskalowanie przez lag), tworzenie incydentu i var-room, aktualizacja strony stanu.
8. Rejestrowanie i audyt: co działało/dlaczego, progi/wersje modelu, komunikacja.
6) Kalibracja progów i jakości
Precision/Recall/F1 za „anomalię”.
Time-to-Detect (TTD): cel jest przed MTTA użytkowników/wsparcie.
Fałszywy alarm: cel ≤ 5-10% dla P1/P2.
Czas realizacji: okno między wykrywaniem a naruszeniem SLO - daje szansę na automatyczne działania.
Monitorowanie dryfu: przekwalifikowanie/ponowna kalibracja w harmonogramie i przy zmianie sezonu/architektury.
7) Katalog anomalii (przykłady iGaming)
7. 1 Płatności
Automatyczna awaria PSP-X w TR/EU: kontekst - konkretny bank BIN, okno 5-10 min.
Miękki spadek wzrostu z normalnym ruchem: możliwy problem 3DS/issuer.
Opóźnienia rozliczeniowe: ryzyko luk pieniężnych.
Reakcje: trasa do alternatywnego PSP (zdrowie × opłata × konwersja), przekwalifikowanie z jitter, włączenie uproszczonego 3DS, pakiet komunikacyjny do partnerów.
7. 2 Zakłady/gry
Tabela zakładów p99 skok replika/cache/kolejka.
Różnica między oczekiwanym GGR a normą: anomalie kontekstowe dla turniejów/imprez sportowych.
Reakcje: nagrzewanie w pamięci podręcznej, redystrybucja obciążenia, trzymanie części funkcji niekrytycznej.
7. 3 Infra/Dane
Opóźnienie replikacji i zablokowanie: przeciążenie bazy danych.
Consumer-lag skoki: nieporozumienie partii lub gorący klucz.
Reakcje: autoskalowanie, parsowanie, limity producenta.
7. 4 KYC/AML
verifikatsii „czas”: dostawca jest poniżający.
Reakcje: dostawca awaryjny/kolejka ręczna, Powiadomienie o zgodności.
7. 5 Front/RUM
Błędy LCP/JS w określonej przeglądarce/wersji: regresja wydania.
Reakcje: kanarki rollback, funkcja-flag off, komunikat na stronie stanu.
8) Alarm świadomy SLO
Sygnał anomalii staje się wpisem, jeśli wpływa na budżet błędu lub przewiduje jego szybkość spalania.
Dwa okna: szybkie (1 h) i powolne (6-24 h); „pager natychmiastowy” tylko dla P1 o wysokim uderzeniu.
Każdy ostrzeżenie jest związane z runbook i rola właściciela.
9) Architektura rozwiązań
Wtrysk: OTel/metryki → Kafka/strumień → ramy przetwarzania (Flink/iskra/Kafka strumienie).
Inżynieria fizyczna: agregaty, wskaźniki sezonowe, one-hot by PSP/banks/GEO.
Detektory: biblioteki statystyk + modele (on-line/mini-batch) z wersją.
Repozytorium wyników: „anoma-line” (zdarzenia) z kontekstem, połączenie z zarządzaniem incydentami.
Usługa decyzyjna: ustalanie priorytetów, automatyczne reakcje, publikowanie na stronie/kanałach statusu.
Obserwowalność: wykresy jakości modelu, alarmy dryfujące, koszt wtrysku.
10) Koszt i prywatność
Świadomość kosztów: pobieranie próbek serii wejściowych, zmniejszanie historii, agregacja; oddzielne klasy QoS.
PII: nie zalogowaćId w metrykach; do analizy - tokenizacja/maski i dostęp SoD; eksport - poprzez przepływ pracy z TTL/szyfrowaniem.
11) Procesy i role
Odpowiedzialny: SRE/Obserwability/Payment Risk w ich domenach.
Odpowiedzialny: szef OPS/SRE.
Konsultacja: Data Science, Produkt, Zgodność, Bezpieczeństwo.
Poinformowany: Wsparcie, Zarządzanie partnerami, Finanse.
Rytuały: tygodniowa kalibracja progów/reguł, miesięczny retro na fałszywych/pominiętych sygnałach.
12) Deski rozdzielcze
Exec: mapa anomalii według domeny, trendy fałszywe/prawdziwe alarmy, TTD i czas realizacji, dochód/wpływ SLO.
Ops/SRE: wykrywanie taśm z kontekstem (wydania/flagi/planowane prace), dystrybucje pozostałości STL, karty punktów zmiany.
Płatności/Ryzyko: karty ciepła PSP × GEO × bank, lejki awaryjne, auto-routing i efekt środków.
Front/RUM: przeglądarka × wersja × GEO, regresje wydania, doświadczenie VIP.
13) Funkcje KPI/KRI
TTD (min) i Lead Time (min) przed naruszeniem SLO.
Incydent powiązania Precision/Recall/F1.
Fałszywy alarm i pager (dyżurny zmęczenie).
Odsetek reakcji automatycznych, które zamknęły problem bez ręcznej interwencji.
Zmniejszenie MTTR po wdrożeniu.
Koszt/wartość: $/alert i oszczędności z unikanych strat.
14) Plan realizacji (8-12 tygodni)
Ned. 1-2: inwentaryzacja SLI/KPI, wybór szeregów priorytetowych (płatności/stawki/kolejki/DB), progi podstawowe i STL.
Ned. 3-4: streaming (Kafka + Flink/Streams), kontekst (GEO/PSP/wydania), histereza i dedup.
Ned. 5-6: change-point + CUSUM, taśmy predykcyjne do serii biznesowych, komunikacja na platformie incydentów, książki startowe.
Ned. 7-8: auto-reakcje (PSP-feilover, funkcja degradacji, autoskalowanie przez opóźnienie), deski rozdzielcze i wskaźniki jakości.
Ned. 9-10: wielowymiarowe modele (las izolacyjny/IForest/AE) w domenach pilotażowych, monitorowanie dryfów.
Ned. 11-12: optymalizacja kosztów, kalibracja progów A/B, miesięczna regulacja przeglądu i szkolenie zespołu.
15) Wzory artefaktów
Anomalia Spec: sygnał, segmentacja (GEO/PSP/bank), metoda, progi, okna, histereza, właściciel, runbook, auto-reakcje.
Raport Change-Point: czas, komponent, poziomy przed/po, korelacje (wydania/flagi/utwory).
Jakość Deska rozdzielcza Definicja: wskaźniki jakości, granice docelowe, okres przeglądu.
Auto-Action Policy: warunki i limity auto-działania, kryteria zwrotu, audyt.
16) Antypattery
Uniwersalne progi statyczne bez sezonowości i segmentacji.
Brak histerezy → klapsa i „pager zmęczenie”.
Wpisy poza kontekstem SLO/pieniądze → dużo hałasu, niewielkie wykorzystanie.
ML „czarne pudełko” bez możliwości wyjaśnienia i rejestrowania.
Brak związku z zwolnieniami/ficheflagami/zaplanowanymi robotami.
Zignorować koszty wtrysku/przechowywania w wierszach pomocniczych.
Razem
Wykrywanie anomalii jest procesem i platformą, a nie tylko modelem: właściwe sygnały i kontekst → zrównoważone metody (STL/CUSUM/CPD/prognoza) → redukcja i priorytetyzacja szumów przez SLO/przychód → automatyczna reakcja i zrozumiałe runbooki → zamknięty cykl jakości i kosztów. Taki układ łapie problemy przed użytkownikami, zmniejsza MTTR i chroni przepływy biznesowe platform iGaming.