Analiza anomalii i korelacji
1) Dlaczego iGaming
iGaming mieszka w czasie rzeczywistym: depozyty zostały opóźnione, konkretny dostawca gier „zatonął”, oszustwa pojawiły się, mieszanka ruchu zmieniła się. Potrzebujemy dyscypliny, która:- Wcześnie wykrywa różnice (zanim KPI i dochody spadną w sprawozdaniach).
- Odróżnia porażki od sezonowości/awansów/turniejów.
- Znajduje przyczyny korzenia (RCA) zamiast „leczenia objawów”.
- Szanuje prywatność i etykę (RG/AML) bez oddawania PII.
2) Typologia anomalii
Punkt: pojedynczy szczyt/zanurzenie (np. spike błędy PSP).
kolekcja: sekwencja nietypowych wartości (długa degradacja).
kontekst: normalny w nocy, nienormalny w ciągu dnia (w zależności od kontekstu: godzina/kraj/kanał).
Zmiana trybu/trendu (zmiana punktu): poziom, wariancja, sezonowość uległy radykalnym zmianom.
Struktura: skok w pominięciach/duplikatach, dryfowanie schematu.
Przyczyna i efekt: zmiana sąsiedniego węzła (PSP/dostawca) „obrócił” nasz rząd.
3) Przygotowanie danych i kontekst
Kalendarz i sezonowość: weekendy/wakacje/turnieje/promocje → poszczególne linie podstawowe.
Warstwy agregacyjne: 1-min/5-min/godz., według kraju/marki/dostawcy/urządzenia.
Normalizacja: per-capita (na gracza/sesję), według pory dnia, według FX.
Cechy czasu: średnia walcowania/std, EWMA, opóźnienia, dzień tygodnia, „minuty do odcięcia”.
Jakość: filtr późne zdarzenia/duplikaty, wyeliminować błędy timezone.
4) Metody wykrywania (proste do hybrydowych)
Statystyki i szeregi czasowe
Solidny wynik z (mediana/IQR), EWMA, rozkład STL (tendencja/sezonowa/pozostała).
CUSUM/ADWIN - wrażliwe na średnie/dyspersyjne przesunięcie.
Punkty zmiany (na przykład PELT/BOCPD): naprawić punkty zmiany trybu.
Prorok/ETS - prognoza + korytarz zaufania → emisje poza odstępem.
Wielowymiarowa/gęstość
Izolacja lasu, LOF, One-Class SVM - gdy istnieje wiele znaków (PSP, geo, kanał, urządzenie).
Autoencoder (rekonstrukcja/błąd) dla złożonych wzorów.
Strumienie online
Okna przesuwne, szkice ilościowe, histereza EWMA +; rozliczanie znaków wodnych i późnych danych.
„Podwójne progi”, by stłumić odbicie.
Hybryda
Zasady domeny (świadomość SLO) + statystyki/ML → wyższa dokładność i wyjaśnienie.
5) Jakość wykrywania: jak zmierzyć
Precision/Recall/F1 za zaznaczone incydenty.
ATTD (średni czas do wykrycia) i TTR (czas do normalizacji).
Uprzedzenie dotyczące czasu trwania: kara za „mruganie” (częste wejścia/wyjścia z anomalii).
Wskaźniki biznesowe ex post: „ile zaoszczędzonych rund/depozytów”, „ile P1s uniemożliwiło”.
Stabilność: odsetek stłumionych fałszywych alarmów; p95 „ciche noce”.
6) Korelacja, przyczynowość i pułapki
Korelacja i przyczynowość: wspólny kierowca (zapasowy/zewnętrzny) może „napędzać” oba mierniki.
Korelacja częściowa (warunkowa), wzajemna informacja (MI) - gdy linki są nieliniowe.
Przyczynowość Grangera - jeden rząd pomaga przewidzieć drugi.
DAG/odkrycie przyczynowe - hipotezy dotyczące kierunku wpływu.
Paradoks Simpsona: agregaty „leżą” bez stratyfikacji (kraj/kanał/urządzenie).
Wyciek: znaki zawierające przyszłe informacje podają fałszywe powody.
7) Analiza głównej przyczyny (RCA)
Wykres zależności: dostawcy gier → lobby → zakłady → płatności/PSP → KPI.
Skan pomiaru: Kto „złamał”? (kraj, marka, dostawca, metoda płatności, aktywa trwałe).
Grupy kontrastowe: gdzie występuje anomalia/brak → względny stosunek ryzyka do szans.
Przypisanie Shapley/Feature do modeli multiwiarowych anomalii.
Co-jeśli scenariusze: Wyłączyć segment podejrzanego - czy KPI jest przywrócony?
8) Redukcja hałasu i ustalanie priorytetów
Histereza: „3 z 5 zepsutych okien” do potwierdzenia.
Progi dynamiczne: wartość bazowa ± k ±, kwantyl 5/95, profile sezonowe.
Zgrupowanie: jeden incydent na „dostawcę A” zamiast 300 wpisów na grę.
Świadomość SLO: alertim tylko w przypadku naruszenia progu SLO/business.
Tłumienie: N alerty w maksymalnie T minut na zestaw etykiet.
9) Przenośnik: online i offline
Online: Flink/Spark Streaming/CEP - minutowe okna, znaki wodne, deduplication, idempotencja.
Offline: backtests za rok historii, zastrzyk „syntetycznych” incydentów, porównanie kandydatów.
ModelOps: rule/model versioning (MAJOR/MINOR/PATCH), shadow/canary, and rollback for rules.
10) Prywatność, etyka, zgodność
Zero-PII w kartach i wpisach; żetony zamiast identyfikatorów.
RG/AML: poszczególne kanały i dostęp; tekst redakcji.
Uprzedzenie: Sprawdź, czy nie występują różnice w pomiarach wrażliwych (kraj/metoda/urządzenie) - nie przekształcaj anomalii w dyskryminację.
Legal Hold/DSAR: przechowywanie historii wykrywalności/decyzji - dziennik WORM.
11) iGaming cases (gotowe szablony)
Płatności/PSP
Wykrywanie: 'success _ rate _ deposits _ 5m' poniżej baseline_28d przez 3, potwierdzenie 3/5 okien → P1.
RCA: sekcja „psp, kraj, metoda”; sprawdzanie kolejek/powtórzeń.
Dostawcy gier
Wykrywanie: 'rundy _ na _ min' dostawcy A <60% rolling_quantile (0. 1) dla 28d → P1.
Akcja: ukryj płytki gry, powiadomić dostawcę, przełączyć lobby.
RG
Detekcja: 'high _ risk _ share' w marce B → P2 o> 3 pp w 10 min.
RCA: kampanie/bonusy, przepięcia w nowych urządzeniach, geo-shift.
Lek Antifraud
Wykrywanie: 'obciążenie zwrotne _ szybkość _ 60m> α + 3 „I' nowe _ urządzenie _ udostępnianie” → P1.
Działanie: zaostrzenie limitów punktacji/wypłaty.
12) Artefakty i wzory
12. 1 Zasady YAML (online)
yaml rule_id: psp_success_drop severity: P1 source: stream:payments. metrics_1m baseline: {type: seasonal_quantile, period: P28D, quantile: 0. 1, by: [hour, dow, country, psp]}
detect:
type: ratio_below value: 0. 6 confirm: {breaches_required: 3, within: PT5M}
labels: {psp: "$psp", country: "$country"}
actions:
- route: pagerduty:payments
- soars: [{name: switch_psp, params: {backup: "PSP_B"}}]
privacy: {pii_in_payload: false}
version: 1. 4. 0
12. 2 Config offline backtest
yaml dataset: payments_gold period: {from: "2025-07-01", to: "2025-10-31"}
inject_scenarios:
- type: level_shift target: success_rate where: {psp: "PSP_A", country: "EE"}
from: "2025-09-15T12:00Z"
delta: -0. 02 metrics: [precision, recall, f1, attd_sec]
12. 3 paszport incydentu RCA
Incydent: drop rounds @ provider A
Okres: 2025-11-01 18: 10-18: 35 (Europa/Kijów)
Węzeł główny: 'gry. silnik. provider_A' (zmiana punktu @ 18:12)
Абкека: "lobby _ clicks," "runda _ na _ min," 45%, "" GGR/min, "" 28% "
Kontrargumenty: płatności OK, PSP OK, FX/statystyki normalne
Akcje: ukryj płytki, kontakt dostawcy, baner statusu
Wynik: recovery @ 18:34; straty zapobiegły X
13) Metryka sukcesu procesu
Precision/Recall/F1 o incydentach P1/P2 (znakowanie przez właścicieli domen).
ATTD/MTTR w minutach (mediana/p90).
Hałas: − X% alarmów „fałszywej nocy”, ≤ Y wpisów/zmiany.
Czas RCA: mediana czasu do przyczyny korzenia.
Oszczędność działalności: ocena zatrzymanych depozytów/rund.
Zasięg: ≥ 95% obserwowanych szlaków krytycznych.
14) Procesy i RACI
Właściciele domeny (R) - zasady/linie podstawowe/oznakowanie incydentów.
Platforma danych/obserwowalność (R) - silnik detekcyjny, pamięć masowa, SLO.
ML Lead (R) - modele anomalii, kalibracja, uczciwość.
SRE/SecOps (R) - integracja SOAR/PagerDuty, incydenty.
CDO/DPO (A) - polityka prywatności/etyki, Zero-PII.
Produkt/Finanse (C) - progi SLO i priorytety biznesowe.
15) Plan działania w zakresie wdrażania
0-30 dni (MVP)
1. Ścieżki krytyczne: płatności, game_rounds, spożycie świeżości.
2. Linie podstawowe według godziny/dzień i kluczowych wymiarów (kraj/marka/psp/dostawca).
3. Proste detektory: EWMA/solidny z-score + histereza.
4. Kanały alarmowe i 3 runbook'a (płatności/gry/DQ).
5. Backtests przez 3-6 miesięcy historii; oznakowanie incydentów.
30-90 dni
1. Punkty zmiany, kwantyle sezonowe, serie multimodalne.
2. izolacja lasów/LOF w przypadkach wielowymiarowych; tryb cienia.
3. Wykres zależności RCA i półautomatyczne przypisywanie.
4. progi świadomości SLO; tłumienie/grupowanie; bilety autokompletne.
3-6 miesięcy
1. Zasady/modele Champion-Challenger; progi automatycznego dostrajania.
2. Integracje zewnętrzne (dostawcy/dostawcy) z podpisanymi hakami.
3. sprawozdania „wkład alarmowy do MTTR/dochody”; kwartalne sesje higieniczne.
4. Eksperymenty przyczynowe dotyczące kontrowersyjnych korelacji (A/B, Granger, zmienne instrumentalne).
16) Anty-wzory
Próg według oczu wspólny dla wszystkich krajów/godzin/kanałów.
Ignorowanie sezonowości/zapasów → burza fałszywych wpisów.
Nie ma backtests i markup incydentów - nie ma nic do optymalizacji.
Ściganie korelacji bez stratyfikacji/częściowego corr → fałszywe przyczyny.
Dzienniki/wpisy z PII, zrzuty ekranu we wspólnych kanałach.
„Wieczne” zasady bez rewizji i właściciela.
17) Sekcje powiązane
Alerty o przepływie danych, Praktyki w zakresie obsługi danych, Analityka i mierniki API, Audyt i Wersioning, MLOP: Eksploatacja modeli, Kontrola dostępu, Bezpieczeństwo i szyfrowanie, Polityka zatrzymywania danych, Zmniejszenie stronniczości.
Razem
Anomalia i analiza korelacji to nie „magia ML”, ale system inżynieryjny: właściwy kontekst i sezonowość, hybryda zasad i modeli, ścisłe wskaźniki jakości i zarządzane RCA. W iGaming, taki system zmniejsza MTTR, chroni przychody i zachowuje zaufanie graczy i regulatorów - bez naruszania prywatności.