GH GambleHub

Təcili bərpa ssenariləri

1) Nə üçün DR lazımdır və hansı məqsəd

Disaster Recovery (DR) - fəlakətlərdən sonra xidmətlərin bərpası üçün bir sıra memarlıq, proseslər və təlimlərdir (datacenter/region uğursuzluğu, məlumat itkisi, kütləvi konfiqurasiya səhvləri). DR-nin məqsədi müştərilərin etimadını və tənzimləyiciyə uyğunluğunu qoruyaraq, hədəf RTO/RPO-nu nəzarət olunan dəyər və risklə yerinə yetirməkdir.

RTO (Recovery Time Objective): icazə verilən fasilə müddəti.
RPO (Recovery Point Objective): Icazə verilən məlumat itkisi (son sabit nöqtədən vaxt).
RLO (Recovery Level Objective): funksionallıq səviyyəsi (minimum həyat qabiliyyətli xidmət) ilk qayıtmalıdır.

2) Kritik sistemlərin təsnifatı

Tier 0 (həyati): ödənişlər, giriş, KYC, əməliyyatların nüvəsi - RTO ≤ 15 dəq, RPO ≤ 1-5 dəq.
Tier 1 (yüksək): əməliyyat panelləri, D-1 hesabatları - RTO ≤ 1 saat, RPO ≤ 15-60 dəq.

Tier 2 (orta): arxa ofis, yaxın real vaxt analitikası - RTO ≤ 4-8 saat, RPO ≤ 4-8 saat

Tier 3 (aşağı): kritik köməkçi deyil - RTO ≤ 24-72 saat, RPO ≤ 24 saat.

Hər bir xidmətə xidmət kataloqunda Tier + hədəf RTO/RPO təyin etmək; qərarları və büdcələri onlarla müqayisə edin.

3) Təhdidlər və ssenarilər modeli

Texnogen: AZ/region/provayder uğursuzluğu, şəbəkə/DNS deqradasiyası, DB/saxlama uğursuzluğu, kütləvi buraxılış qutusu.
İnsan faktoru: səhv konfiqlər/IaC, məlumatların silinməsi, açarların pozulması.
Təbii/xarici: yanğın/daşqın, enerji kəsilməsi, hüquqi bloklama.
Hər kəs üçün - ehtimal/impakt qiymətləndirmək, DR ssenarisi və playbook ilə əlaqələndirmək.

4) DR memarlıq nümunələri

1. Active-Active (Multi-Region): hər iki bölgə trafikə xidmət edir.

Üstünlüklər: minimum RTO/RPO, yüksək sabitlik.
Mənfi cəhətləri: verilənlərin mürəkkəbliyi/tutarlılığı, yüksək qiymət.
Harada: oxu-ağır, cached yük, stateless xidmətləri, multi-master DB (ciddi münaqişə qaydaları).

2. Active-Passive (Hot Standby): «isti» passiv tam qızdırılmış surəti saxlayır.

RTO: dəqiqə; RPO: dəqiqə. Avtomatlaşdırılmış failover və replikasiya tələb edir.

3. Warm Standby: qaynaqların bir hissəsi istilik, qəza zamanı miqyaslı.

RTO: on dəqiqə; RPO: 15-60 dəq. Daha qənaətcil, lakin daha uzun.

4. Pilot Light: minimum «qığılcım» (metadata/şəkil/skript) + sürətli dönüş.

RTO: saat; RPO: saat. Ucuz, Tier 2-3 üçün uyğun.

5. Backup & Restore: oflayn backup + əl isitmə.

RTO/RPO: saat-gün. Yalnız aşağı kritik və arxiv üçün.

5) Məlumatlar və uyğunluq

DB replikasiyası:
  • Sinxron - demək olar ki, sıfır RPO, lakin ↑ gecikmə/dəyər.
  • Asenxron - daha yaxşı performans, RPO> 0 (jurnalların quyruğu).
  • Uyğunluq: model seçin (strong/eventual/causal). Ödənişlər üçün - ciddi, analitiklər üçün - eventual.
  • Dilimlər (snapshots): müntəzəm olaraq sabit nöqtələr yaradın + jurnalları saxlayın (WAL/redo).
  • Cross-regional əməliyyatlar: 2PC çəkinin; idempotent əməliyyatlar istifadə edin, deli-və-təkrarlayın (retry duplication), event sourcing.
  • Növbələr/şinlər: replikasiya/güzgü, DLQ, sifariş və konsumerlərin idempotantlığı.

6) Şəbəkə, trafik və DNS

GSLB/Anycast/DNS: failover/failback siyasətləri, aşağı TTL (lakin çox deyil), bir neçə bölgədən sağlamlıq yoxlamaları.
L7-marşrutlaşdırma: regional xəritələr, pozulma fiça bayraqları (funksiyaların məhdudlaşdırılması).
Private-links/VPN: Provayderlərə ehtiyat kanallar (PSP/KYC/CDN).
Rate limiting: bərpa zamanı fırtına qorunması.

7) Stateful vs Stateless

Stateless script/avtoskeyl ilə köçürülür; stateful razılaşdırılmış məlumat strategiyası tələb edir (replikasiya, snapshotlar, promosyon replikaları, kvorum).
Cache/Seanslar: xarici (Redis/Memcached) cross-regional replikasiya və ya jurnallarda re-seed ilə; seanslar tokenlər (JWT) və ya ümumi saxlama saxlamaq.

8) DR triggers və avtomatlaşdırma

SLO-gardrails və kvorum sondaları → avtomatik region-failover runbook.
Qəza zamanı Change freeze: aktual olmayan relizləri/miqrasiyaları bloklayın.
Infrastructure as Code: manifestlər üzrə stand-by yerləşdirilməsi, sürüklənmənin yoxlanılması.
Rolun təşviqi: avtomatik promote replikaları BD + cildləri/sirləri sarğı.

9) Rabitə və komplayens

War-room: IC/TL/Comms/Scribe; SEV yeniləmə intervalları.
Status-səhifə: təsir coğrafiyası, ETA, bypass.
Tənzimləyici: bildiriş müddəti, məlumatların təhlükəsizliyi, dəyişməz saxlama evidence.
Tərəfdaşlar/provayderlər: təsdiqlənmiş əlaqə, xüsusi kanal.

10) DR testləri və təlimləri

Tabletop: ssenari və həll yolları müzakirə.
Game Day (steyj/prod-light): AZ/regionların uğursuzluğunu təqlid etmək, provayderi bağlamaq, DNS-i sıfırlamaq.
Bərpa testləri: vaxtaşırı izolyasiyada backapları bərpa edirik və bütövlüyü təsdiqləyirik.
Chaos/Failure injection: nəzarət şəbəkə/düyün/asılılıq uğursuzluqları.
KPI təlimləri: əldə RTO/RPO, playbook qüsurları, CAPA.

11) Maliyyə və strategiya seçimi (FinOps)

Azaldılmış RPO/RTO üçün $ hesablayın: məqsəd nə qədər aşağıdırsa, kanallar, lisenziyalar, ehtiyatlar bir o qədər bahadır.
Hibrid: Tier 0 - active-active/hot; Tier 1 — warm; Tier 2–3 — pilot/backup.
Məlumatlar bahadır: soyuq təbəqələr (arxiv/S3/GLACIER), artımlı snapshotlar, deduplikasiya istifadə edin.
Xərclərin və sertifikatların/DR-infra lisenziyalarının vaxtaşırı artması.

12) DR yetkinlik metrikası

RTO (fakt) və RPO (fakt) hər Tier.
DR Coverage:% rəsmiləşdirilmiş ssenari/playbook/test ilə xidmətlər.
Backup Success & Restore Success: backaps və sübut edilmiş bərpa gündəlik uğur.
Time-to-Declare Disaster: failover haqqında qərar sürəti.
Failback Time: normal topologiyaya qayıdış.
Defect Rate Təlimlər: tapılan boşluqlar/təlim.
Compliance Evidence Completeness: artefaktların tamlığı.

13) Çek vərəqləri

DR tətbiq etməzdən əvvəl

  • Xidmət kataloqu Tier, RTO/RPO, asılılıq və sahibləri ehtiva edir.
  • Tier və büdcə ilə model (AA/AP/WS/PL/BR) seçildi.
  • Konsistentlik və replikasiya müqavilələri sənədləşdirilmişdir.
  • GSLB/DNS/routing və health-checks özelleştirilmiş və test edilmişdir.
  • backup, snapshot, dəyişiklik jurnalları - daxil, restore yoxlanılır.
  • Cari formada DR Playbook və provayder əlaqə.

Qəza zamanı (qısa)

  • SEV elan və war-room toplamaq; buraxılışları dondurun.
  • Sondaların kvorumunu yoxlayın; impakt/coğrafiya qeyd.
  • Failover Runbook yerinə yetirin: trafik, DB promosyon, növbələr, cache.
  • Degrade-UX/limitləri daxil edin; SLA ilə yeniləmələr dərc etmək.
  • evidence (time line, qrafik, log, komanda) toplayın.

Qəzadan sonra

  • SLO N intervalları müşahidə; plana uyğun olaraq failback etmək.
  • AAR/RCA keçirmək; CAPA rəsmiləşdirin.
  • Pleybukları, katalizatorları, DR test hallarını yeniləyin.
  • Steykholders/tənzimləyicilərə (lazım gələrsə) hesabat verin.

14) Şablonlar

14. 1 DR ssenari kartı (nümunə)


ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support

14. 2 Runbook «Promote Replica BD» (fraqment)


1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m

14. 3 DR təlim planı (qısa)


Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output

15) Anti-nümunələr

müntəzəm bərpa testləri olmadan «backup var».
Sirlər/end-pointlər avtomatik olaraq dəyişdirilmir.
İdempotentlik yoxdur → təkrarlanan/təkrar çatdırılma zamanı itirilmiş əməliyyatlar.
Dağılma bayraqları olmayan bölgələr üçün eyni konfiqlər.
«Saxta həyəcan» qorxusuna görə uzun vaxt-to-Declare.
Alternativsiz monoregional provayderlər (PSP/KYC).
Heç bir failback planı yoxdur - «əbədi» təcili topologiyada yaşayırıq.

16) Yol xəritəsi (6-10 həftə)

1. Ned. 1-2: Tier xidmətlərinin təsnifatı, hədəf RTO/RPO quraşdırılması, DR nümunələrinin seçimi.
2. Ned. 3-4: replikasiya/backup, GSLB/DNS, promosyon prosedurlarının konfiqurasiyası; playbook və runbook '.
3. Ned. 5-6: ilk DR təlimləri (tabletop → stage), metrik fiksasiya və CAPA.
4. Ned. 7-8: məhdud trafik ilə prod-light təlim; avtomatlaşdırma failover.
5. Ned. 9-10: xərclərin optimallaşdırılması (FinOps), Tier 0-ın hot/AA-ya keçirilməsi, rüblük təlimlər və hesabat qaydaları.

17) Yekun

Effektiv DR yalnız backup deyil. Bunlar razılaşdırılmış memarlıq, avtomatlaşdırma failover/failback, məlumat intizamı (idempotentlik/replikasiya), təlim və şəffaf kommunikasiyalardır. RTO/RPO real olduqda, playbooklar işlənmiş və təlimlər müntəzəm olduqda, fəlakət idarə olunan hadisəyə çevrilir, bundan sonra xidmətlər tez və proqnozlaşdırıla bilən şəkildə normala qayıdır.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.