GH GambleHub

Əməliyyatlar və İdarəetmə → Hadisələrin proqnozlaşdırılması

Hadisələrin proqnozlaşdırılması

1) Niyə lazımdır

Hadisələr nadir hallarda «heç bir yerdən partlayır». Platforma uğursuzluqdan əvvəl siqnallar verir: p99-un sürətləndirilmiş böyüməsi, error büdcəsinin yavaş tükənməsi, növbələr, müəyyən bir downstream üzərində retrajların artması, provayder kvotalarının yaxınlaşması. Hadisələrin sistemli proqnozlaşdırılması MTTR, Change Failure Rate və gəlir itkisini azaldaraq "yanğın söndürmə" reaksiyasını "erkən müdaxilə 'yə çevirir.

Məqsədlər:
  • Qabaqcıl nümunələri müəyyən edin və avtomatik olaraq profilaktik tədbirlərə başlayın.
  • Sola sürüşməklə P1/P2 payını azaltın (pre-incident detect rate).
  • Buraxılış proseslərində proqnozları inteqrasiya edin, feylover və capacity-prevents.

2) Siqnallar xəritəsi (lead indicators)

Platforma/infra:
  • Sürətlənmə p95/p99 (qradiyent), gecikmələrin «quyruqları», variasiya artımı.
  • Növbələr/axınlar: boy 'lag' və müsbət törəmə lag; HPA maksimum.
  • BD/cache: 'active _ conns/max _ conns', 'replication _ lag', 'evictions', 'cache _ hit' düşməsi.
  • Şəbəkə: mTLS/handshake səhvləri, 5xx/timeout artımı.
Asılılıq/provayderlər:
  • 'outbound _ error _ rate '/' retry _ rate' konkret provayderə, 'circuit _ open', 'quota _ usage> 0. 9`.
  • SLA provayder: planlı pəncərələr, deqradasiyalar.
Məhsul/Biznes:
  • Anormal yük (kampaniyalar/matçlar), RPS/TPS atlamaları, qeyri-adi bölgə/kanal qarışıqları.
  • Depozitlərin/dərəcələrin konvertasiyası p99 → kvazi-proxy hadisəsinin artması ilə düşür.
SLO təbəqəsi:
  • Burn-rate error-büdcə> eşik (məsələn,> 4 × 10-15 dəqiqə ərzində).
  • Yaxınlaşan uğursuzluğun işarəsi kimi tez-tez kiçik SLO pozuntuları (mikro deqradasiya).

3) Məlumat mənbələri və vitrinləri

Onlayn teleemetriya: Prometheus/OTel (metriklər, loglar, treyslər).
Hadisə hadisələri: biletlər/statuslar/postmortemlər (hədəf üçün həqiqət).
Plan/dəyişiklik faktları: relizlər, fitness, miqrasiya, provayderlərin pəncərələri.
Məlumat kitabçaları: asılılıq xəritəsi, kvotalar, sahiblər.
DWH şəkilləri: təlim/validasiya üçün aqreqatlar (sinxron pəncərə!).

Keyfiyyət tələbləri: tam ≥ 99%, saat/dəqiqə TZ hizalaması, vahid p95/p99 tərifləri.

4) Proqnoz yanaşmaları

4. 1 Qeyri-parametrik/qaydalar (sürətli başlanğıc)

Qısa pəncərələr üçün 'deriv (p99)', 'z-score'.
Kompozit şərtlər: 'lag ↑ + HPA = max + circuit_open (to = «PSP-X»)'.
SLO-burn-geytlar: burn-rate> X. zamanı reliz/kanaryanın dayandırılması.

4. 2 Anomaliyaların deteksiyası

Seasonal baselines (STL/Prophet oxşar fikirlər), rolling media + MAD.
Multivariate: ortaq anomaliya 'p99 + retry + open_circuit + quota'.
Change-point detection: CUSUM/BOCPD trendlərin dəyişməsi üçün.

4. 3 ML modelləri (supervised)

Təsnifat «T + K insident?» əlamətlər pəncərəsinə görə (məsələn, 10-30 dəqiqə əvvəl).
Əlamətlər: statistika, törəmə, mövsümi qalıqlar, one-hot provayder/regionlar, buraxılış bayraqları.
Etiketlər: 'incident {severity ∈ [P1, P2]}' intervalında [t, t + K].
Explainability: SHAP/Permutation importance etimad və əməliyyat üçün.

4. 4 SRE-first hibrid

Model → risk (0-1) → fəaliyyət siyasəti (ficheflags/feylover/pre-skeyl), tənqid üçün HITL ilə.

5) Dizayn xüsusiyyətləri (feature engineering)

Sürüşmə pəncərələri (1/5/15 dəq): mean, p95/p99, std, max, slope.
Nisbi göstəricilər: 'p99/baseline _ 1d', 'error _ rate _ delta'.
Kohort fişləri: provayder, region, oyun/matç növü, cihaz kanalı.
«Yükləmə» fişləri: RPS, payload size, açıq WS sayı.
Sistem: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
Hadisə bayraqları: «buraxılış gedir», «kanareya 10%», «provayder pəncərəsi».

6) Proqnoz mexanikası və hərəkətlər

Qərar zənciri:

1. Hər N saniyədə bir domen (Payments/Bets/Games/KYC) üçün risk skoru.

2. Alert siyasəti:
  • risk ≥ 0. 8 + domen sahibi → page təsdiq siqnalları;
  • 0. 6–0. 8 → xəbərdarlıq + tədbirlər hazırlanması.
3. Avtomatik yardım (safeguards):
  • ön-skeyl (HPA minReplicas ↑), cache daxil, ağır funksiyaların məhdudlaşdırılması;
  • ehtiyat provayder keçid/marşrut;
  • fasilə/rollbek kanaryalar;
  • retrai limiti «dar» downstream.
  • 4. HITL: İnsan «iş davranışının dəyişməsi» səviyyəsində tədbirləri təsdiqləyir.

7) Gündəlik proseslərə inteqrasiya

Relizlər: kanaryalarda proqnozlaşdırılan geytlər («əvvəl/sonra» müqayisə və risk-skor).
Feylover: Provayder riski ilə ehtiyat marşrutun avtomatik hazırlanması/istiləşməsi.
Capacity: headroom düşməsi və lag böyüməsi ilə «early uplift».
Xəbərdarlıqlar: ayrı-ayrı «pre-incident» lent + dashboard şərhlər.

8) Müşahidə və daşbordlar

Risk Overview: domenlər və provayderlər üzrə risk, tendensiyalar, xüsusiyyətlərin töhfəsi.
Lead Signals: Top-N xəbərçiləri (p99 qradiyenti, lag, açıq breykerlər).
Actions & Outcomes: p95/error təsiri, ləğv edilmiş hadisələr.
Model Health: precision/recall/latency, drift xüsusiyyətləri, avto tezliyi.

9) Proqnoz keyfiyyətinin metrikası

Recall @P1/P2 (kritik hadisələrə həssaslıq).
Precision (daha az «saxta peyc»).
Lead Time (media «fakt neçə dəqiqə»).
Intervention Win-rate (hərəkət risk/xərcləri azaltdı hallarda payı).
Alert Fatigue Index (alert/növbə/nəfər).
Drift Score (stat. əlamət paylanması fərqləri vs tədris dövrü).

Default Məqsədlər: Recall (P1) ≥ 0. 7, Precision ≥ 0. 6, Lead Time media ≥ 8-10 dəqiqə.

10) Risk Management Model (ML Ops/Governance)

Verilənlərin/kodların/artefaktların versiyası, təkrarlanabilirlik.
Champion/Challenger: yeni model oflayn/online müqayisə paralel gedir.
Drift: PSI/KL-divergensiya, astanaların avtomatik yenidən hesablanması, «model köhnəlmişdir».
Explainability: Hər bir qərar üçün əlamətlərin əhəmiyyətini saxlamaq və məlumatlara istinad etmək.
Təhlükəsizlik/etika: giriş, PII-maskalanma, siyasətçilərin avto hərəkətlərinə nəzarət.

11) Qaydaların və siyasətlərin nümunələri

SLO-burn və kanarya (konsepsiya):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
Kompozit provayder riski:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
Axında Lag-fırtına:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) Giriş çek siyahısı (30-60 gün)

  • Hadisələr üçün siqnallar və «həqiqətlər» kataloqu (severity, time layns).
  • Əsas metriklər üçün əsas xətlər və mövsümilik (buraxılışdan əvvəl/sonra).
  • Erkən siqnalların qaydaları (p99 qradiyentləri, lag, burn-rate).
  • Risk/Lead Signals/Actions Dashboard.
  • Ficheflags/kanareyks, HPA ön skeyl ilə inteqrasiya.
  • Bir domendə ML təsnifatçısının pilotu (məsələn, Payments).
  • HITL siyasətçiləri və avto-yardım jurnalı.
  • Keyfiyyət metrikası və sürüklənmə/sağlamlıq modeli üçün risklər.

13) Anti-nümunələr

«Kristal toplar»: əsas xətləri və sadə qaydaları olmayan mürəkkəb ML modeli.
Actionability yoxdur: «pis» proqnozlaşdırırıq, lakin avtomatik olaraq heç nə etmirik.
İqnor mövsümlük/hadisə təqvimi (matçlar/turnirlər) → saxta həyəcanlar.
Vaxt zonalarının qarışması → metrik/hadisələrin səhv pəncərələri.
Qeyri-explainability → etibarsızlıq, komandalar tərəfindən qabaqcadan bağlanması.
Bütün domenlər/regionlar üçün vahid qlobal eşik → aşağı dəqiqlik.

14) Domen xüsusiyyətləri (iGaming)

Payments: provayderlər/kvotalar, artım 'retry _ rate' və 'circuit _ open' → erkən feylover.
Bets: gecikmiş yeniləmə əmsalları, böyümə WS fan-out → yayım limiti.
Games/Live: qoşulma partlayışları, studiya limitləri → UI/cache deqradasiyası.
KYC/AML: webhook gecikmələri, yoxlama xətləri → HITL və gecikmiş emal.

15) Metrik və alert nümunələri (fikirlər)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) KPI proqnozlaşdırma proqramları

Pre-Incident Detect Rate (qarşısı alınan/yüngülləşdirilmiş insidentlərin payı).
Hadisədən əvvəl Avg Lead Time.
Reduction in P1/P2 kv/kv.
MTTR (gözlənilən ↓ erkən kontekstə görə).
False Alarm Rate/Alert Fatigue (sabit ↓).
Cost Avoidance (qarşısı alınmış itkilərin/cərimələrin/overskeylin qiymətləndirilməsi).

17) Sürətli başlanğıc (resept)

1. p99/lag və SLO-burn üçün qradiyent qaydalarını daxil edin;

2. Provayderlər üçün kompozit şərtlər əlavə edin;

3. Predicti fitz və ön skeyllə bağlayın;

4. Hesabat «proqnoz → hərəkət → effekt»;

5. Pilot ML bir domen; Precision/Recall böyüməsindən sonra miqyas.

18) FAQ

Q: ML olmadan başlamaq üçün?
A: Mövsümi baza xətləri + qradiyentlər + kompozit qaydalar. Bu heç bir çətinlik olmadan geri nəzərəçarpacaq artım verir.

Q: Fols pozitivlərində boğulmamaq üçün necə?
A: Siqnalları birləşdirin, histerezis və təsdiq vaxtını daxil edin, per-domen/region astanalarını konfiqurasiya edin, Precision və Alert Fatigue qiymətləndirin.

S: İlk olaraq hansı hərəkətləri avtomatlaşdırmaq lazımdır?
A: Təhlükəsiz və geri qaytarıla bilən: ön-skeyl, cache/deqradasiya, kanarya pauza/rollback, təsdiq siqnalları ilə provayder keçid.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.