GH GambleHub

Hadisələrin simulyasiyaları

1) Niyə simulyasiya etmək lazımdır

Hadisələrin simulyasiyaları komandanın real playbukların aşkarlanması, diaqnostikası, eskalasiyası və bərpası ilə məşğul olduğu təhlükəsiz məşqlərdir. Onlar:
  • MTTD/MTTA/MTTR-ni azaldır, geri çəkilmələrə və fayllara inamı artırır;
  • proseslərdəki boşluqları (eskalasiya, kommunikasiyalar) və memarlıq zəifliklərini aşkar edir;
  • RCA → CAPA-ya giriş kimi xidmət edir və sənədləri təkmilləşdirir (runbook/SOP);
  • SLA/tənzimləyicilərin/auditin tələblərinə hazır olduqlarını təsdiq edirlər.

2) Simulyasiya formatları

Tabletop (masa üstü) - lövhədə/söhbətdə danışıq ssenarisi: ucuz, sürətli, rolları və kommunikasiyaları inkişaf etdirmək üçün əladır.
Game Day (məhdudiyyətlərlə steyj/prod təlimləri) - playbuklarda praktiki addımlar; prodda - yalnız aydın girtlərlə təhlükəsiz, geri qaytarıla bilən hərəkətlər.
Chaos Engineering - dayanıqlığı və SLO geytlərini yoxlamaq üçün idarə olunan nasazlıqlar (asılılıqların/şəbəkələrin/qovşaqların kəsilməsi).
DR-təlimləri (Disaster Recovery) - AZ/region imtinası, backaplardan bərpa, provayderlərin dəyişdirilməsi.
Comms-drill - sırf rabitə: status-səhifə, mesaj şablonları, PR/Legal.

3) Rollar və məsuliyyət

Incident Commander (IC) - qərarlar qəbul edir, plan aparır, deeskalasiya.
Tech Lead (TL) - diaqnostika, texniki «injektlər» və hipotezlər.
Comms Lead (CL) - daxili/xarici yeniləmə, status-səhifə.
Scribe - protokol (taymline, hərəkətlər, həllər, artefaktlar).
Observers/Assessors - Metrikləri və prosedurlara uyğunluğu qeyd edin.
Red Team (isteğe bağlı) - gözlənilməz «injektlər» təqdim edir.

💡 Rollar döyüş hadisələri ilə üst-üstə düşür - bacarıqların ötürülməsi maksimumdur.

4) Simulyasiyaların müvəffəqiyyət metrikası

sintetik hadisə MTTD/MTTA/MTTR.
Comm SLA: yeniləmələrin vaxtında və keyfiyyəti.
SLO-guardrails: burn-rate doğru reaksiya, xarici nümunələr kvorum.
Runbook fidelity:% addımlar sənədlə yerinə yetirilir, improvizasiya olmadan.
Escalation latency: istədiyiniz rol/provayder qoşulma sürəti.
Checklists pass-rate: «hazır/qəbul/bağlandı».
Noise & Fatigue: əlavə həyəcan, on-call həddindən artıq yükləmə.
CAPA completion: Simulyasiyadan sonra yerinə yetirilən hərəkətlərin payı.

5) Hazırlıq: başlamazdan əvvəl nə lazımdır

Məqsəd və fərziyyələr: nəyi yoxlayırıq (proseslər, memarlıq, insanlar).
Ssenari və «enjektlər»: simptomların/hadisələrin tayminlərlə ardıcıllığı.
Təhlükəsizlik məhdudiyyətləri: geri dönməz dəyişikliklərə qadağa; ləğv nöqtələri.
Data və stendlər: sintetik trafik, pozulma fich bayraqları, təhlükəsiz açarlar.
Sənədlər: runbook/SOP linkləri, eskalasiya, provayderlərin əlaqə siyahısı.
Müşahidə: əvvəlcədən qeyd edilmiş daşbordlar/alertlər, test-kanaryalar.
Logistika: vaxt/müddət, iştirakçılar, war-room kanalı, qeyd.

6) Simulyasiyanın aparılması: mərhələlər

1. Brief (5-10 dəq): IC məqsədləri, rolları, təhlükəsizlik qaydaları, tamamlama meyarları xatırladır.
2. T0 - Simptomların injekti: alert (lar), biznes SLI-nin düşməsi, provayderin xarici statusu.
3. Triaj və eskalasiya: SEV-in mənimsənilməsi, sərbəst buraxılışlar, lazımi rolların qoşulması.
4. Diaqnostika: hipotezlər, DNS/TLS/CDN/DB/önbellək/şinlər yoxlanılması, buraxılış izahatları.
5. Mitiqasiya hərəkətləri: geri çəkilmə/kanareyka ↓, pozulma fiqa bayraqları, provayder failover, limitlər/retrajlar.
6. Rabitə: müntəzəm yeniləmə (format: Impact → Diaqnostika → Fəaliyyət → Track. yeniləmə).
7. Bərpa və yoxlama: N intervalının yaşıl zonasında xarici sintetika + SLI.
8. Debrief (AAR): 15-30 min - faktlar, nəticələr, CAPA.

7) Ssenari nümunələri (kataloq)

Ödənişlərin uğurunun azalması: A provayderi bir ölkədə deqradasiya edir; gözlənilən tədbirlər - trafikin yenidən bölüşdürülməsi, sadələşdirilmiş UX-in daxil edilməsi, kommunikasiya.
DNS-uğursuzluq :/TTL səhv qeyd, bəzi istifadəçilər domain qeyd deyil; gözlənilən addımlar - fiks/folbek, CDN təmizlənməsi, status-update.
Vaxtı keçmiş TLS sertifikatı: köhnə müştərilər üçün əl sıxma pozulur; təcili yeniləmə və zəncir yoxlama gözlənilir.
Kafka lag: KYC/AML hadisələrində gecikmənin artması; gözləntilər - konsumerləri genişləndirmək, prodüserləri məhdudlaşdırmaq.
BD p99 ↑ və böyümə 5xx: dar indekslər, bağlar limiti; gözləntilər - fiça bayraqları, limitlər, hotfix/geri dönüş.
Regional uğursuzluq: AZ/PoP-nin bağlanması; gözləntilər - GSLB/Anycast keçid, data yoxlama və SLO.
Rabitə Drill: hər şey «yaşıl», lakin Legal/PR ilə şablonları, intervalları və koordinasiyasını yoxlayın.

8) «İncekt» şablonu (kart)


ID: INJ-2025-11-01-01
Purpose: Verification of failover payments and comms SLA
Trigger T0: 30% reduction in transaction success in the TR region (alert SLI + burn rate)
Signals: 5xx growth in payment API, external status PSP-A = partial outage
Expected actions: reduction of the share on PSP-A to 30%, inclusion of degrade-payments-UX, status update 15 min
Success criteria: success of payments ≥ 98% in 30 minutes, two green SLI intervals
NOTAM (security): prohibition of direct database edits; flags/routing only

9) Təhlükəsizlik və uyğunluq

Prod simulyasiyaları - yalnız geri qaytarıla bilər: fich bayraqları, trafikin kiçik hissələrlə dəyişdirilməsi, oxu üçün replikalar, «shadow traffic».
Access Control/Audit: ChatOps/Paypline vasitəsilə bütün hərəkətlər; dəyişməz saxlama jurnalları.
PII/sirləri - tədris artefaktlarında istifadə olunmur; verilənlər depersonallaşdırılmışdır.
Tənzimləyici: əgər simulyasiya müştəri kommunikasiyalarına təsir edirsə - özəl kanallarda «təlim» işarəsi; ictimai yazılar təqlid edilmir.

10) Qiymətləndirmə və AAR → RCA → CAPA

AAR (After Action Review) - təlimlərdən dərhal sonra: nə gözlədiyiniz/gördüyünüz, nə işlədiyini/işləmədiyini.
RCA - RCA şablonuna uyğun olaraq əhəmiyyətli uğursuzluqlar üçün (məsələn, eskalasiya işləmədi).
CAPA - effektin sahibləri/şərtləri/metrikləri ilə hərəkətlərin siyahısı (pleybuklarda, alertlərdə, memarlıqda dəyişikliklər).
Nəzarət nöqtələri - D + 14/D + 30: yerinə yetirilməsi yoxlanılır, həssas yerlərdə təkrar mini drill.

11) Sənədləşmə və artefaktlar

Simulyasiya planı: məqsədlər, ssenari, injektlər, iştirakçılar, pəncərələr, uğur meyarları.
Time Line (UTC): T0...Tn, IC həlləri, texniki addımlar, yeniləmə.
Daşbordların/loqların şəkilləri, alertlərin və statusların saxlanması.
Yekun hesabat: metriklər, playbuklarla uyğunsuzluqlar, CAPA.
Sənədləşmə yeniləmələri: runbook/SOP/əlaqə düzəlişləri, yeni dashboard linkləri.

12) Tezlik və əhatə

Tabletop: Ayda 2-4 dəfə (əsas axınlar və rollar üzrə).
Game Days steyj: ayda 1-2 dəfə.
Chaos-cases (prod-light): rüblük, ciddi geytlər.
DR-təlimlər: real keçid ilə ildə 1-2 dəfə.
Comms-drill: şablon və SLA yeniləmə təlim üçün aylıq.

13) Çek vərəqləri

Simulyasiyadan əvvəl

  • Ssenari, «enjektlər», uğur meyarları, təhlükəsizlik pəncərələri.
  • Rollar, kanallar, şablon statusu razılaşdırılmışdır.
  • Stendlərin/bayraqların/daşbordların mövcudluğu yoxlanılıb.
  • Ləğv və geri dönüş planı sənədləşdirilmişdir.
  • Risklər və SLO/müştərilərə təsiri qiymətləndirilir.

Zaman

  • SEV təyin, sərbəst buraxılışlar (lazım olduqda).
  • Cədvələ uyğun rabitə, format saxlanılır.
  • Audit alətləri vasitəsilə bütün hərəkətlər.
  • Scribe protokol aparır, artefaktları toplayır.
  • Təhlükəsizlik: qadağalar/məhdudiyyətlər müşahidə olunur.

Sonra

  • AAR aparılıb, hesabat saxlanılıb.
  • RCA (uğursuzluqla) başladı.
  • CAPA sahibləri/şərtləri ilə rəsmiləşdirilmişdir.
  • Yenilənmiş runbook/SOP/əlaqə.
  • Həssas nöqtələri retest planlaşdırılır.

14) Anti-nümunələr

«Plan əvəzinə improvizasiya» - heç bir ssenari və uğur meyarı yoxdur.
Gates və ləğv planı olmadan risklər - təlimlər hadisəyə çevrilir.
Kommunikasiya və eskalasiya olmadan yalnız texnikanın işlənməsi.
AAR/RCA olmaması - komanda öyrənmir.
Müşahidə və SLO-gardrails olmadan Prod-xaos.
Qeyri-şəffaf hüquqlar: prodda gizli əl düzəlişləri.

15) Mini şablonlar

Game Day gündəliyi (60-90 dəq)

1. Brief (5 dəq) → Məqsədlər, rollar, təhlükəsizlik.
2. Script T0 (5 dəq) → Simptomların təqdim edilməsi.
3. Triaj/eskalasiya (10 dəq).
4. Diaqnostika + fəaliyyət (30-45 dəqiqə) - 1-2 «injekt».
5. Bərpa və yoxlama (10 dəq).
6. AAR (15 dəq) - nəticələr, CAPA.

AAR şablon (qısa)


What was expected:
What happened:
What worked:
What didn't work:
Solutions and why:
Actions (CAPA) with deadlines:
Responsible persons:
Retest Date:

16) Yekun

Hadisələrin simulyasiyası insanlar, proseslər və memarlıq üçün «simulyatordur». Müntəzəm, təhlükəsiz və ölçülə bilən təlimlər böhranları rutinə çevirir: komanda daha sürətli reaksiya verir, playbuklar həqiqətən işləyir, memarlıq daha sabitdir və tənzimləyici və müştərilər əməliyyat funksiyasının yetkinliyini görürlər. Əsas odur ki, aydın hədəflər, təhlükəsiz geytlər, yaxşı metriklər və məcburi AAR → RCA → CAPA.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.