GH GambleHub

Hadisə və qəzalara reaksiya

(Bölmə: Əməliyyatlar və İdarəetmə)

1) Təriflər və məqsədlər

Hadisə - SLO/təhlükəsizlik/uyğunluq pozan və ya müştərilər, pul, məlumat, nüfuz üçün risk yaradan hadisədir.
Reaksiyanın məqsədləri: xidməti tez bərpa etmək, zərəri minimuma endirmək, sübutları düzəltmək, şəffaf ünsiyyət qurmaq və təkrarlanmamalıdır.

Əsas prinsiplər

Safety first: insanların/məlumatların/pulun qorunması funksiyalardan daha vacibdir.
One throat to choke: vahid Incident Commander (IC) qərar qəbul edir.
Actionable now: Hər fərziyyə yoxlama/hərəkət ilə müşayiət olunur.
Evidence matters: Hər şey logo, artefaktlar imzalanır, time line - ətraflı.

2) Təsnifat (severity & prioritet)

SEVƏlamətlərMTTR məqsədiNümunələr
P1 / SEV-0Kütləvi əlçatmazlıq/pul itkisi/PII sızması≤ 60 dəqiqəCheckout keçmir; PD sızması; Səhv hesablar
P2 / SEV-1Güclü deqradasiya/qismən region≤ 4 saatLag webhook, rasinxron qiymətləri; yüksək provayder səhvləri
P3 / SEV-2Yerli deqradasiya/artan səhvlər≤ 24 saatPartnyor növbəsinin həddindən artıq yüklənməsi; frod siqnallarının artması
P4 / SEV-3Minor bug/trend riskiPlanlıMetrik sapmalar, köhnəlmiş sertifikatlar

Trigger: SLO pozuntusu, alert qaydası, əl reportajı, hüquqi hadisə (DPO/CCO).

3) Rollar və məsuliyyət (RACI)

Incident Commander (A) - hadisənin lideri, tapşırıqların qoyulması, qərarların qəbulu, uzun hadisələrdə IC dəyişikliyi.
Tech Lead (R) - texniki diaqnostika/fiks, SRE/mühəndislik koordinasiyası.
Comms Lead (R) - status yeniləmələri yazır (daxili/xarici), status səhifə sahibi.
Scribe (R) - protokol, taymline, artefaktların toplanması.
Security/Legal (security-hallar üçün C/A) - risklərin qiymətləndirilməsi, məcburi bildirişlər.
Customer Support (C) - cavab şablonları, biletlərin marşrutlaşdırılması.
Partner Liaison (C) - provayderlərlə/tenantlarla ünsiyyət.
Management (I) - məlumatlandırma, biznes həlləri (kreditlər/kompensasiyalar).

4) İlk 15 dəqiqə (şablon)

1. Bir IC təyin edin və hadisə kartını açın (chat kanalı, videomost, Jira/Tracker).
2. SEV təyin və SLO simptomu (tam olaraq pozulmuş).

3. Sabitləşdirin:
  • runbooks/runs daxil: circuit-breakers, trottling, marşrut keçid, promo fasilə;
  • kompromasiya zamanı - həssas funksiyaların kill-switch.
  • 4. Komandalar: Tech Lead - diaqnostika; Comms - «texniki hold» (10-15 dəqiqə sonra - ilk yeniləmə).
  • 5. Hipotezləri təyin edin (maksimum üç), sahiblərini təyin edin, zamanlayıcıları yoxlamağa qoyun (5-10 dəq).
  • 6. Artefaktları toplayın: metrik snapshotlar, konfiqlər, buraxılış heşləri, 'trace _ id' loqləri, qəbzlər.

5) Birinci saat (şablon)

Rabitə v1 (15-20 dəq): fakt, əhatə, simptomlar, növbəti yeniləmə. Heç bir spekulyasiya.
Hadisənin sərhədləri: hansı bölgələr/tenantlar/kanallar/versiyalar təsir edir.
Zərərə nəzarət: müvəqqəti qapılar/məhdudiyyətlər, «səs-küylü» inteqrasiyaların bağlanması, deqradasiya rejiminin işə salınması.
Forensika: log rotasiyasını dondurun, artefaktları qoruyun (WORM/imzalar).
Bərpa Yol Xəritəsi: T + 30/T + 60 yoxlama nöqtələri ilə.

6) Rabitə və status-səhifə

Daxili intervallar: P1 - hər 15 dəqiqə, P2 - 30-60 dəqiqə.
Xarici: status-səhifə/tenant/SLA tərəfdaşları.

Mesaj şablonu:
  • Nə görünür: «X: YY UTC ilə EU regionunda checkout uğursuzluqların artımı (p95> 250 ms)»
  • Kimə təsir edir: «A/B/C operatorları, ~ 40% trafik»
  • Nə edirik: "alternativ marşrut, trottling promo daxil; PSP-1 provayderi ilə işləyirik"
  • Verilənlər/müddətlər: «15 dəqiqə sonra növbəti yeniləmə»
  • Kompensasiya: «Hadisə bağlandıqdan sonra SLA-ya uyğun olaraq kredit notları tətbiq edirik»

7) Playbook (iGaming/fintech üçün referanslar)

PriceMismatch (vitrin ≠ checkout): fors-əlil cache, müqayisə 'fx _ version/tax _ rule _ version', dinamik promo dondurma, siyasət uyğunsuzluqları kompensasiya.
WebhookLag (Partners/Affiliates): workers ölçmək, batch artırmaq, retrains prioritet, yeni abunə üçün müvəqqəti cap.
Payments Outage/PSP deqradasiyası: ehtiyat PSP-yə keçid, müştərilərin vaxtını azaltmaq, növbəni manual təmizləmək, «boz» karantin əməliyyatları.
RTP Drift: fasilə bonusları, ödəniş/versiya cədvəllərinin yoxlanılması, müşahidə pəncərəsinin genişləndirilməsi, RTP profilinin geri qaytarılması.
Fraud Spike: velocity/limitləri sərtləşdirin, əlavə KYC yoxlamasını, şübhəli cohortların izolyasiyasını, yüksək qazancların əl ilə səsləndirilməsini daxil edin.
Data/PII Exposure: sistemlərin izolyasiyası, DPO/Legal bildirişi, təsirlənmiş qeydlərin inventarlaşdırılması, vaxtına görə tənzimləyici bildirişlər.

8) Alətlər və rünlər (auto-actions)

Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Guard Rail: «Sedlanium» qorunması - geri çəkilmə məhduddur, jurnallar imzalanır, hər bir IC/Scribe hərəkəti.
Sübut oluna bilər: DSSE imzalar, snapshot hash, Merkle-log dilimləri.

9) Hadisənin başa çatması

Meyarlar: SLO bərpa edilib, növbə ödənilib, məlumat/pul yoxlanılıb, risklər bağlanıb, kommunikasiyalar göndərilib.
Bağlanma ritualı: statusun son yenilənməsi, time line, təsirlər siyahısı, səbəblərin ilkin fərziyyələri, post-mortem tarixi təyin edilmişdir.

10) Post-mortem (ittihamsız)

Müddət: P1 - 3 iş günü ərzində; P2 - 5 iş günü.
Məzmun: faktlar/zamanlama, ilkin səbəblər (5 Whys/FRAM), təsir (SLO, maliyyə, müştərilər), nə işləmiş/yox, action items (owner, müddət, ölçülə bilən effekt).
Effektivliyin yoxlanılması: 30-60 gündən sonra - icra və metrik (təkrarlanabilirlik, MTTR, həyəcan səs-küy).

11) Metrika və SLO insident-menecment

MTTD/MTTA/MTTR, Change Failure Rate, Time to Comms v1,% avto icazə (runes).
Alert Noise: əhəmiyyətsiz siqnalların payı, pages per on-call shift.
Repeat Incidents: 90 gün ərzində təkrarların payı.
Post-mortem SLA: vaxtında keçirilmiş/bağlanmış pay.
SLO reaksiyalar: P1 - ilk rabitə ≤ 15 dəq; MTTR ≤ 60 min; artefaktların tamlığı = 100%.

12) Hüquq/uyğunluq/məxfilik

Hüquqi bildirişlər: sızma/insidentlər üzrə yerli tənzimləyicilərin vaxtları.
PII-minimallaşdırma: birinciliyə yalnız təsdiq edilmiş joblar vasitəsilə giriş; tokenizasiya/maskalama.
Artefaktların saxlanması: WORM-jurnallar, yurisdiksiyalar üzrə saxlama müddəti; giriş nəzarəti (RBAC/ABAC, JIT).
Kontragentlər: müqavilə SLA, eskalasiya prosesi, iş qəbzləri.

13) Növbətçiliyin və eskalasiyanın təşkili

24 × 7 on-call: rollar üzrə rotasiyalar (SRE, App, Data, Security, Payments).
Eskalasiya matrisi: regionlar/məhsullar/provayderlər üçün kim; əlaqə dublyaj (chat/səs/SMS).
Təlimlər (GameDays): simulyasiyalar - PSP-nin düşməsi, retrai uçqunu, rasinkron qiymətləri, açarın pozulması, bölgənin uğursuzluğu.

14) Hadisələrin daşbordları

İstilik (indi): SLO statusu, p95/p99, regionların/tenantların xəritəsi, tapşırıqların növbəsi, artefaktlar toplanıb/yığılmayıb.
Tarix: hadisələrin növləri, runların effektivliyi, səbəblərin təkrarlanması.
Keyfiyyətə nəzarət: tam zamanlı, post-mortemlərin «coverage», SLA kommunikasiyaları.

15) Giriş çek siyahısı

  • SEV şkalasını və SLO tetikleyicilərini təsdiq edin.
  • Rolları təyin edin (IC/Tech/Comms/Scribe/Sec/Legal) və rotasiya 24 × 7.
  • Vahid hadisə kartı şablonunu və status səhifəsini işə salın.
  • Playbook təsvir (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
  • Run audit və «qırmızı düymə» ilə həyata.
  • Forensic siyasətini daxil edin: WORM/imzalar/artefaktların toplanması.
  • Rabitə qaydaları (daxili/xarici) , SLA yeniləmələri.
  • Post-mortem prosesi və şablonları; KPI icra action items.
  • GameDays aylıq; hadisə trendləri rüblük baxış.
  • Dashboard IR Metrics (MTTA/MTTR/Noise/Repeat/Comms SLA).

16) FAQ

Niyə «IC One»?
Qərar vermə nöqtəsi xaosu aradan qaldırır və reaksiyanı sürətləndirir.

Nə zaman açıq elan etmək lazımdır?
Təsdiqlənmiş fakt və sabitləşmə planı olan kimi. Tənzimləmə müddətlərini qiymətləndirin.

Daha vacib olan nədir - fiks və ya hesabat?
Əvvəlcə bərpa və təhlükəsizlik. Paralel olaraq - artefaktların toplanması. Hesabat - sabitləşmədən sonra.

Hər şeyi avtomatlaşdırmaq olarmı?
Yox, amma runlar «tez-tez və sadə» addımları bağlayır. Qalanları - aydın playbook və məşq vasitəsilə.

Xülasə: Güclü Incident Response yalnız PagerDuty və chat kanalı deyil. Bu intizam rolları, sürətli ilk 15 dəqiqə, run idarə, şəffaf rabitə, sübut və məcburi post-mortem ilə forensics. Bu konturla siz MTTR-ni azaldır, pul və məlumatları qoruyur və müştərilərin və tənzimləyicilərin etibarını artırırsınız.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.