GH GambleHub

Bildiriş və xəbərdarlıq sistemi

(Bölmə: Əməliyyatlar və İdarəetmə)

1) Təyinat və prinsiplər

Məqsəd az, lakin dəqiq çatdırmaqdır: yalnız müvafiq siqnallar, vaxtında və məsuliyyətli bir insana/robota başa düşülən next-step.

Prinsiplər:
  • Actionable by default: Hər bir alertin sahibi, prioriteti, reaksiya müddəti və fəaliyyət düyməsi var.
  • SLO-first: Alertlər ixtiyari metriklər ətrafında deyil, SLI/SLO ətrafında qurulur.
  • Noise-control: dedup, korrelyasiya, fırtına yatırılması.
  • Context-rich: metadata (region, tenant, versiya, trace_id) və runbook link.
  • Audit-ready: Bütün risklər və reaksiyalar hesablanır və dəyişməz jurnalda saxlanılır.

2) Siqnal mənbələri

Tech. telemetriya: əlçatanlıq, p95/p99, error-rate, növbələr, resurs limitləri.
Biznes tədbirləri: PriceMismatch, WebhookLag, RTP Drift, frod siqnalları.
Təhlükəsizlik/uyğunluq: SoD pozuntuları, PII giriş, açar/sertifikatların ekspirasiyası.
Planlayıcı: vaxtı keçmiş SLA tapşırıqları, DLQ uçqunları, retry-storms.

3) Təsnifat və prioritetlər

PrioritetReaksiyaNümunələr
P1 (SEV-0)dərhal, 24 × 7Checkout mövcud deyil, PII sızması, əsas bölgədə PSP uğursuzluğu
P2 (SEV-1)≤ 30-60 dəqiqəböyümə p95, vebhook lag, provayder qismən deqradasiya
P3 (SEV-2)İş vaxtıegress xərcləri trendi, retrajların böyüməsi, kvota qapaqlarına yaxınlıq
Infopeycinq olmadanburaxılış tamamlandı, kvota 80%, sert. N gün sonra başa çatır

Guardrails: böhtanlar SLO/büdcə səhvləri (burn rate) ilə bağlı formalaşdırılır.

4) Marşrut və eskalasiya 24 × 7

Kontekstə görə routing: 'region/tenant/product/provider/severity'.
Eskalasiya pilləkəni: on-call mühəndis → komanda lideri → Duty Manager → Exec/Legal (PII/maliyyə üçün).
Növbətçilik: rollar üzrə rotasiyalar (SRE, App, Data, Security, Payments), ehtiyat kontaktlar (chat/səs/SMS).
Sükut pəncərələri: gecə, reliz, marketinq; P1 üçün istisnalar.

5) Səs-küy azaldılması və korrelyasiya

Deduplikasiya: '(fingerprint, region, tenant, route)' və 'trace _ id'.
"Fırtına 'nın təzyiqi: aktiv P1-də dublikatların müvəqqəti yatırılması.
Korrelyasiya: kök səbəb ətrafında siqnalların qruplaşdırılması (release/fich/provayder).
Histeresis: giriş/çıxış «mişar» qarşısını almaq üçün fərqlidir.

6) Alert məzmunu (şablon)

Başlıq: qısa və ətraflı - «EU/Checkout: p95> 250ms (SLO breach)».
Əsas sahələr: prioritet, vaxt, region, tenant, versiya, trace_id, affected%, sahə. səbəb.
İndi nə etmək lazımdır: ilk 1-3 addım + runbook/düymələrə keçid (Re-route, Rollback, Pause Promo).
Növbəti rabitə: N dəqiqə sonra, sahibi (IC/on-call).

7) Çatdırılma kanalları

Chat/messencer: triajın əsas kanalı (düyməli bot kartları).
Пейджер/səs/SMS: P1 üçün.
Poçt: hesabatlar və qeyri-urgent (P3/Info).
Vebhuki: tiketinq/orkestratorlarla inteqrasiya.
Status-səhifə: müştərilərə və tərəfdaşlara xarici bildiriş.

8) İnteqrasiya və «hərəkət düymələri»

Hadisə-bot: kart yaradır, IC təyin edir, videomost açır, zamanlayıcılar başlayır.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Hüquqlar: runs rolları ilə məhdudlaşır; Bütün hərəkətlər imzalanır və loglaşdırılır.

9) Multiregion və multi-tenant

Bölgələr üzrə müstəqil SLO/eşiklər; yerli hadisələr bütün dünyanı «rəngləmir».
Görünürlük filtrləri: tərəfdaşlar/tenantlar yalnız özlərini görürlər.
Yurisdiksiya tələbləri: bildiriş mətnləri, dillər, saat kəmərləri.

10) Siyasətlər, cədvəllər, sükut pəncərələri

Alert siyasəti: sahibləri, eşiklər, kanallar, eskalasiyalar, şablonlar.
Təqvimlər: iş/qeyri-iş vaxtı, buraxılış/marketinq pəncərələri.
Change freeze: Böyük promosyonlar zamanı «P1 olmayan» məhdudiyyətlərin yumşaldılması və ya yatırılması.

11) Audit və hüquqi fiksasiya

Qəbzlər: kritik alertlər üçün - 'receipt _ hash' və DSSE-imza.
WORM jurnalları: hadisələrin və reaksiyaların dəyişməz saxlanması (kim nə etdiyini təsdiqlədi).
Chain-of-custody: eskalasiya və həllərin izi.

12) Metrik və SLO bildiriş sistemi

MTTA (acknowledge): P1 ≤ 5-10 dəq; P2 ≤ 30 dəq.
Page rate/On-call load: növbə siqnalları - hədəf diapazonda.
Yanlış Pozitiv%: Hədəf həddi ≤ (adətən <10-15%).
Correlation efficiency: qruplaşdırılmış siqnalların payı ≥ 80%.
Delivery SLO: chat ≥ 99. 9%, SMS/səs ≥ 99. 5%.
Time-to-Action: p95 alert rune başlamaq üçün.

13) Daşbordlar və Reportsiyalar

Əməliyyat: aktiv insidentlər, burn-rate, regionların/tenantların xəritəsi, alertlərin növbəsi.
Alertlərin keyfiyyəti: səs-küy, FP, eşik retestləri, «səssiz zonalar».
On-call yükü: page tezliyi, reaksiya vaxtı, «out of hours».
Post-insident: runes səmərəliliyi, təkrarlanabilirlik səbəbləri.

14) iGaming/Fintech xüsusiyyətləri

Payments/PSP: P1 - provayderin uğursuzluğu, icazələrin uğursuzluğunun artması; ehtiyat PSP avto-rout.
RTP & Limits: Müşahidə olunan RTP sürüklənməsi, həddi aşma, şübhəli qalibiyyət nümunələri.
Affiliates/webhucks: çatdırılma gecikməsi, dubl artımı, təsdiqlənmiş qəbzlərin düşməsi.
Price/FX/Tax: vitrin uyğunsuzluğu, artefaktların versiyası.
Məsuliyyətli oyun: RG tetikləyiciləri və/Compliance-a dəstək olaraq onların vaxtında eskalasiyası.

15) RACI

RegionRACI
Memarlıq və eşiklərSRE/PlatformHead of EngProduct, DataBütün
Eskalasiya/növbətçilikIR TeamCOOHR, SecurityManagement
Mesajlar və şablonlarComms/SupportCOOLegal/ComplianceTərəfdaşlar
Audit/qəbzlərComplianceCCOSecurity, DataAudit
Playbook/RunesSRE & OwnersCTOProduct, IntegrationsBütün

16) Giriş çek siyahısı

  • North-Star və SLI/SLO müəyyən; burn-rate ilə alert bağlamaq.
  • Siyasət kataloqunu daxil edin: eşiklər, kanallar, eskalasiyalar, sükut pəncərələri.
  • Deadup, korrelyasiya, histerezis, fırtına yatırılması həyata.
  • Multi-regional və multi-tenant görünürlük qaydaları konfiqurasiya.
  • «hərəkət düymələri» və runbook bağlamaq; start hüquqlarını məhdudlaşdırmaq.
  • WORM/qəbzləri, izləmə trace_id və run auditini daxil edin.
  • Keyfiyyət daşbordları (noise, FP, MTTA, page rate).
  • Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
  • Eşikləri mütəmadi olaraq nəzərdən keçirmək; A/B eşikləri «səssiz» metriklərdə.
  • On-call yükü və təkmilləşdirilməsi haqqında hesabat aylıq.

17) Playbook (referans)

PSP Outage (P1): ehtiyat avto-rout, müştərilərin vaxtının azaldılması, «boz» əməliyyatların karantini, 15 dəqiqə sonra status-update.
WebhookLag (P2): workers/batch artırmaq, növbə prioritet, isteğe bağlı end-point müvəqqəti fasilə.
PriceMismatch (P1/P2): fors-əlil cache, müqayisə 'fx _ version/tax _ rule _ version', artefaktın geri qaytarılması, kompensasiya.
RTP Drift (P2): bonus/promo fasiləsi, profil auditi, müşahidə pəncərəsinin genişləndirilməsi.
Security: SoD/MFA fail (P1/P2): əməliyyat bloklanması, JIT-yoxlama, forensika və lazım olduqda Legal.

18) FAQ

Saxta pozuntuları necə azaltmaq olar?
SLO yönümlü qaydalar, korrelyasiya, histerezis, təlim pəncərələri və eşiklərin müntəzəm yenidən baxılması.

Daha vacib olan - əhatə və ya dəqiqlik?
P1 üçün - dəqiqlik və sürət (daha yaxşı, lakin kritik). P3 üçün - trendlərin əhatə dairəsi və dəyəri.

Telefon çağrı lazımdır?
Bəli, P1 üçün; chat əlçatmaz və ya «qapalı» ola bilər.

Necə on-call komanda «yandırmaq» deyil?
page rate limitləri, yüklərin yenidən bölüşdürülməsi, «follow-the-sun», aylıq səs-küy.

Xülasə: Bildiriş və alertlər sistemi siqnaldan işə idarə olunan konveyerdir. SLO-da qurun, səs-küyü söndürün, kontekstə istiqamətləndirin, hərəkət düymələrini verin və hər şeyi qanuni olaraq düzəldin. Belə ki, siz MTTA-nı azaltırsınız, on-call yükünü aradan qaldırırsınız və provayderlərin kəskin sıçrayışları və uğursuzluqları ilə belə biznesin sabitliyini artırırsınız.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.