Məlumat axınlarından alertlər
1) Nə üçün və harada tətbiq etmək
iGaming-də kritik hadisələr real vaxtda baş verir: depozitlər gecikdi, oyun provayderi düşdü, kohortada RG riski artdı, chargeback reyt atladı. Axın alertləri pul, UX və uyğunluq zərər görməzdən əvvəl anomaliyaları qeyd edir.
Məqsədlər:- Məlumat/ödəniş/oyun hadisələrinin erkən aşkarlanması.
- Avtomatik reaksiyalar (marşrutun dəyişdirilməsi, deqradasiya, fich bayraqları).
- Ağıllı eşik və konsolidasiya vasitəsilə MTTR və «həyəcan yorğunluğunu» azaltmaq.
2) Memarlıq (istinad)
Event Bus/Log: Kafka/Pulsar/Kinesis - ilkin axınlar (ödənişlər, oyun raundları, ETL logistikası, RG siqnalları).
Stream Processing: Flink/Spark/Faust - pəncərələr, aqreqatlar, korrelyasiya, CEP (Complex Event Processing).
Rules & Models: qaydaların mühərriki (DSL/YAML), statik xətlər və anomaliyaların onlayn modelləri.
Alert Router: normallaşdırma və marşrutlaşdırma (PagerDuty/Slack/Email/Webhook), dublikatların boğulması.
Incident Mgmt: biletlər, eskalasiyalar, runbooks, SOAR playbook.
Observability & Storage: alert metrikası, tarix, «etiketlər» (labels), audit WORM log.
3) Axın pəncərələri və aqreqatları
Tumbling (sabit intervallar: 1, 5, 15 dəqiqə) - sabit biznes metriklər.
Sliding (üst-üstə düşən pəncərələr) - trendlərin erkən aşkarlanması.
Session windows - oyunçunun davranış halları.
Watermarks - gec hadisələr; pəncərənin tamamlanmasından əvvəl gecikməyə icazə verilir (məsələn, 120s).
İdempotentlik - unikal event-id, deduplikasiya, exactly-once semantika, gec məlumatlarda «yenidən yoxlama».
4) Alert növləri
1. Eşik (threshold): p95 latency PSP> 2000 ms, uğur dərəcəsi <99. 5%.
2. Trend dəyişikliyi (CUSUM/ADWIN): GGR/dəq kəskin dəyişməsi, depozit çevrilməsindəki anomaliyalar.
3. Korrelyasiya/SER: «KYC fail → depozit → çarjbek» hadisələrinin ardıcıllığı.
4. Kompozit: «aşağı təzəlik + artan transformasiya səhvləri».
5. Etik/RG: seqmentdə yüksək risk payının artımı> X pp 10 dəq.
6. Data/keyfiyyət: schema drift, dolğunluğun kəskin azalması, null/duplicates sıçrayışı.
7. Gizlilik/Təhlükəsizlik: Log-da PII, icazəsiz detokinasiya.
5) Səs-küy azaldılması (SNR)
Histeresis və davamlı pozğunluq (Y pəncərələrdən X) zirvələri sıçramamaq üçün.
Dinamik eşiklər: baza xətti + σ və ya sürüşmə pəncərəsi ilə kvantil.
Alertlərin toplanması: bir 'labels' -nabor üçün T dəqiqədə N-dən çox olmamalıdır.
Hadisənin qruplaşdırılması: oyunlar üzrə yüzlərlə alert əvəzinə «oyun provayderi uğursuzluğu» üçün bir bilet.
Mövsümlük: gecə/prime və promosyonlar/turnirlər üçün ayrı-ayrı hədlər.
SLO-şüurlu qaydalar: pozuntu xüsusi SLO təsir yalnız tetikleyici.
6) Prioritetləşdirmə və eskalasiya
P1: pul/tənzimləyici bloklama (ödənişlər, RG pozuntuları, böyük miqyaslı aşağı).
P2: nəzərə çarpan deqradasiya (latency/səhvlər/təravət), KPI reqressiya riski.
P3: diqqəti tələb edən keyfiyyətin pisləşməsi (DQ, modellərin sürüklənməsi).
Eskalasiya: domen sahibi → növbətçi SRE/DS → məhsul meneceri → böhran qərargahı.
7) Gizlilik və uyğunluq
Payload alerts Zero-PII: yalnız tokenlər/aqreqatlar/cases linklər.
RG/AML rejimləri: ayrı kanallar və giriş siyahıları, mətn redaction.
Tənzimləyicilər və post-mortemlər üçün audit dəyişməz (WORM).
Geo/tenant-izolyasiya: marka/ölkə marşrutu; müxtəlif açarlar/topiklər.
8) SLO və alerting keyfiyyət metrik
MTTD (time to detect) и MTTA/MTTR (ack/recover).
Precision/Geri alert (hadisə-həqiqət).
False Alarm Rate və Suppression Rate (neçə səs-küy kəsildi).
Coverage:% kritik yollar (payments, game_rounds, KYC, RG) altındadır.
Drift Detection Latency: sürüklənmə faktından alertə qədər.
On-call Load: alert/növbə və «gecə saatları».
9) iGaming Cases (qaydaların nümunələri)
Ödənişlər/PSP: 'success _ rate _ deposits _ 5m <99. 5% 'I' psp = XYZ 'I' country in [EE, LT, LV] '→ P1, SOAR: marşrutu dəyişdirin, retraları qaldırın.
Oyun provayderləri: 'game _ rounds _ per _ min drop> 40% vs baseline_28d' oyun klasterində' provider = A '→ P1, provayderi xəbərdar edin, lobbi linklərini gizlətin.
RG: 'high _ risk _ share _ 10m ↑> 3 p.p.' v 'brand = B' → P2, yumşaq limitləri daxil edin, RG komandasını xəbərdar edin.
Frod: 'chargeback _ rate _ 60m> μ + 3 σ' I 'new _ device _ share ↑' → P1, antifrodun sərtləşdirilməsini işə salın.
Данные/DQ: `freshness_payments_gold > 15m` И `ingest_errors > 0. 5% '→ P2, hesabatları dondurun, status banner daxil edin.
10) Qaydalar şablonları (DSL/YAML)
10. 1 Eşik + Histerezis
yaml rule_id: psp_success_drop severity: P1 source: stream:payments. metrics_1m when:
metric: success_rate filter: {psp: ["XYZ"], country: ["EE","LT","LV"]}
window: {type: sliding, size: PT5M, slide: PT1M}
threshold:
op: lt value: 0. 995 sustain: {breaches_required: 3, within: PT5M}
actions:
- route: pagerduty:payments
- runbook: url://runbooks/payments_psp_drop
- soars: [{name: "switch_route", params: {psp_backup: "XYZ2"}}]
privacy: {pii_in_payload: false}
10. 2 Baza xəttinə qarşı anomaliya
yaml rule_id: provider_volume_anomaly severity: P1 source: stream:games. rounds_1m baseline: {type: rolling_quantile, period: P28D, quantile: 0. 1}
anomaly:
op: lt_ratio value: 0. 6 # drop below 60% of baseline labels: {provider: "$ provider"}
suppress: {per: provider, max: 1, within: PT10M}
actions:
- route: slack:#games-ops
- feature_flag: {hide_provider_tiles: true}
10. 3 Kompozit ilə CEP
yaml rule_id: kyc_deposit_chargeback severity: P2 pattern:
- event: kyc_result where: {status: "fail"}
- within: PT24H
- event: payment where: {type: "deposit"}
- within: PT14D
- event: chargeback actions:
- route: antifraud_queue
- create_case: {type: "investigation", ttl: P30D}
11) Inteqrasiya və avtomatik reaksiyalar
SOAR: PSP/end point keçid, retras artımı, fich bayraqlarının aktivləşdirilməsi, müvəqqəti API deqradasiyası.
Feature Flags: problemli oyunlar/widget off, RG üçün «düşüncə məhəccərləri».
Status Page: Daxili/tərəfdaş panellər üçün avtomatik bannerlər.
Ticketing: sahələrin doldurulması "sahibi, domen, runbook, trace_id".
12) Əməliyyatlar və proseslər
RACI: qaydaların sahibləri - domen komandaları; platforma - mühərrik, SLO, miqyaslı.
Versioning: Git qaydaları, 'MAJOR/MINOR/PATCH', canary-rejimi.
Testlər: axın simulyasiyaları, replays, tanınmış hadisələr üzrə retrospektiv yoxlamalar.
Post-mortemlər: hər P1/P2 - dərslər, hədləri/histerezisləri yeniləmək, CEP məhdudiyyətləri əlavə etmək.
13) Tətbiqi yol xəritəsi
0-30 gün (MVP)
1. Kritik yolları əhatə edin: payments, game_rounds, ingest freshness.
2. DSL/YAML qaydaları, Git-saxlama və sahibləri kataloqu.
3. Histerezis və dublların yatırılmasını daxil edin; Slack/PagerDuty kanalları.
4. 3 runbook 'a başlayın: «ödənişlər», «oyunlar», «DQ/freshness».
5. Metriklər: MTTD/MTTR, əl işarələri ilə Precision/Recall.
30-90 gün
1. Əsas anormal detektorlar (baseline/kvantili), CEP şablonları.
2. SOAR avtomatlaşdırılması (PSP keçid, fich bayraqları, status səhifələri).
3. SLO-şüurlu qaydalar və hadisələrin qruplaşması.
4. «Regression» test qaydaları üçün hekayələr replies.
5. Redaktə və giriş məhdudiyyətləri olan RG/AML kanalları.
3-6 ay
1. Anomaliyalar qaydaları və modelləri üçün Champion-Challenger.
2. Effektlər kataloqu (hansı alertlər həqiqətən MTTR/itkiləri azaldır).
3. AIOps-astar ipuçları və histerezis avtomatik sazlama.
4. Xarici inteqrasiyalar (oyun provayderləri/PSP) imzalanmış vebhuklarla.
5. Rüblük gigiyena sessiyaları: «ölü» qaydaların çıxarılması, təkrarlanan qaydaların birləşməsi.
14) Uğur metrikası (nümunə)
MTTD/MTTR: hadisələrin növlərinə görə mediana və p90.
Alert Precision/Recall: Hədəf eşikləri ≥.
Noise ↓: − X% 4xx/« saxta »P3; «Gecə saatları» ≤ U/həftə.
Coverage: ≥ 95% aktiv qaydaları ilə kritik yollar.
SOAR effekti: əl müdaxiləsinə qədər vaxta qənaət edin.
Biznes təsiri: saxlanılan depozitlər/ödənişlər, itirilmiş turların azaldılması.
15) Anti-nümunələr
Baza xətti və histerezis olmadan «gözlə» eşik.
SLO/biznes riskinə bağlı olmayan alertlər.
Alert bədənlərində PII, ümumi kanallarda məlumatları olan ekran görüntüləri.
suppression/grouping → «fırtına» bildirişlər yoxdur.
Heç bir replika yoxdur - qaydalar hər zirvədə pozulur.
«Əbədi» qaydalar rev və sahibi olmadan.
16) Əlaqəli bölmələr
DataOps-praktikalar, API analitikası və metrikası, Audit və versiya, Access Control, Təhlükəsizlik və şifrələmə, Saxlama siyasəti, MLOps: modellərin istismarı, Responsible Gaming, Antifrod/Ödənişlər.
Yekun
Axın alertləri əməliyyat sinir məlumat sistemidir: onlar problemlərin kaskadını vaxtında dayandırmaq üçün hadisələri, konteksti və avtomatik hərəkətləri birləşdirir. Düzgün memarlıq, hədd gigiyenası və gizliliyə hörmətlə, alertlər MTTR-ni azaldır, gəlirləri qoruyur və oyunçuların və tənzimləyicilərin etibarını qoruyur.