Təcili bərpa ssenariləri
1) Nə üçün DR lazımdır və hansı məqsəd
Disaster Recovery (DR) - fəlakətlərdən sonra xidmətlərin bərpası üçün bir sıra memarlıq, proseslər və təlimlərdir (datacenter/region uğursuzluğu, məlumat itkisi, kütləvi konfiqurasiya səhvləri). DR-nin məqsədi müştərilərin etimadını və tənzimləyiciyə uyğunluğunu qoruyaraq, hədəf RTO/RPO-nu nəzarət olunan dəyər və risklə yerinə yetirməkdir.
RTO (Recovery Time Objective): icazə verilən fasilə müddəti.
RPO (Recovery Point Objective): Icazə verilən məlumat itkisi (son sabit nöqtədən vaxt).
RLO (Recovery Level Objective): funksionallıq səviyyəsi (minimum həyat qabiliyyətli xidmət) ilk qayıtmalıdır.
2) Kritik sistemlərin təsnifatı
Tier 0 (həyati): ödənişlər, giriş, KYC, əməliyyatların nüvəsi - RTO ≤ 15 dəq, RPO ≤ 1-5 dəq.
Tier 1 (yüksək): əməliyyat panelləri, D-1 hesabatları - RTO ≤ 1 saat, RPO ≤ 15-60 dəq.
Tier 2 (orta): arxa ofis, yaxın real vaxt analitikası - RTO ≤ 4-8 saat, RPO ≤ 4-8 saat
Tier 3 (aşağı): kritik köməkçi deyil - RTO ≤ 24-72 saat, RPO ≤ 24 saat.
Hər bir xidmətə xidmət kataloqunda Tier + hədəf RTO/RPO təyin etmək; qərarları və büdcələri onlarla müqayisə edin.
3) Təhdidlər və ssenarilər modeli
Texnogen: AZ/region/provayder uğursuzluğu, şəbəkə/DNS deqradasiyası, DB/saxlama uğursuzluğu, kütləvi buraxılış qutusu.
İnsan faktoru: səhv konfiqlər/IaC, məlumatların silinməsi, açarların pozulması.
Təbii/xarici: yanğın/daşqın, enerji kəsilməsi, hüquqi bloklama.
Hər kəs üçün - ehtimal/impakt qiymətləndirmək, DR ssenarisi və playbook ilə əlaqələndirmək.
4) DR memarlıq nümunələri
1. Active-Active (Multi-Region): hər iki bölgə trafikə xidmət edir.
Üstünlüklər: minimum RTO/RPO, yüksək sabitlik.
Mənfi cəhətləri: verilənlərin mürəkkəbliyi/tutarlılığı, yüksək qiymət.
Harada: oxu-ağır, cached yük, stateless xidmətləri, multi-master DB (ciddi münaqişə qaydaları).
2. Active-Passive (Hot Standby): «isti» passiv tam qızdırılmış surəti saxlayır.
RTO: dəqiqə; RPO: dəqiqə. Avtomatlaşdırılmış failover və replikasiya tələb edir.
3. Warm Standby: qaynaqların bir hissəsi istilik, qəza zamanı miqyaslı.
RTO: on dəqiqə; RPO: 15-60 dəq. Daha qənaətcil, lakin daha uzun.
4. Pilot Light: minimum «qığılcım» (metadata/şəkil/skript) + sürətli dönüş.
RTO: saat; RPO: saat. Ucuz, Tier 2-3 üçün uyğun.
5. Backup & Restore: oflayn backup + əl isitmə.
RTO/RPO: saat-gün. Yalnız aşağı kritik və arxiv üçün.
5) Məlumatlar və uyğunluq
DB replikasiyası:- Sinxron - demək olar ki, sıfır RPO, lakin ↑ gecikmə/dəyər.
- Asenxron - daha yaxşı performans, RPO> 0 (jurnalların quyruğu).
- Uyğunluq: model seçin (strong/eventual/causal). Ödənişlər üçün - ciddi, analitiklər üçün - eventual.
- Dilimlər (snapshots): müntəzəm olaraq sabit nöqtələr yaradın + jurnalları saxlayın (WAL/redo).
- Cross-regional əməliyyatlar: 2PC çəkinin; idempotent əməliyyatlar istifadə edin, deli-və-təkrarlayın (retry duplication), event sourcing.
- Növbələr/şinlər: replikasiya/güzgü, DLQ, sifariş və konsumerlərin idempotantlığı.
6) Şəbəkə, trafik və DNS
GSLB/Anycast/DNS: failover/failback siyasətləri, aşağı TTL (lakin çox deyil), bir neçə bölgədən sağlamlıq yoxlamaları.
L7-marşrutlaşdırma: regional xəritələr, pozulma fiça bayraqları (funksiyaların məhdudlaşdırılması).
Private-links/VPN: Provayderlərə ehtiyat kanallar (PSP/KYC/CDN).
Rate limiting: bərpa zamanı fırtına qorunması.
7) Stateful vs Stateless
Stateless script/avtoskeyl ilə köçürülür; stateful razılaşdırılmış məlumat strategiyası tələb edir (replikasiya, snapshotlar, promosyon replikaları, kvorum).
Cache/Seanslar: xarici (Redis/Memcached) cross-regional replikasiya və ya jurnallarda re-seed ilə; seanslar tokenlər (JWT) və ya ümumi saxlama saxlamaq.
8) DR triggers və avtomatlaşdırma
SLO-gardrails və kvorum sondaları → avtomatik region-failover runbook.
Qəza zamanı Change freeze: aktual olmayan relizləri/miqrasiyaları bloklayın.
Infrastructure as Code: manifestlər üzrə stand-by yerləşdirilməsi, sürüklənmənin yoxlanılması.
Rolun təşviqi: avtomatik promote replikaları BD + cildləri/sirləri sarğı.
9) Rabitə və komplayens
War-room: IC/TL/Comms/Scribe; SEV yeniləmə intervalları.
Status-səhifə: təsir coğrafiyası, ETA, bypass.
Tənzimləyici: bildiriş müddəti, məlumatların təhlükəsizliyi, dəyişməz saxlama evidence.
Tərəfdaşlar/provayderlər: təsdiqlənmiş əlaqə, xüsusi kanal.
10) DR testləri və təlimləri
Tabletop: ssenari və həll yolları müzakirə.
Game Day (steyj/prod-light): AZ/regionların uğursuzluğunu təqlid etmək, provayderi bağlamaq, DNS-i sıfırlamaq.
Bərpa testləri: vaxtaşırı izolyasiyada backapları bərpa edirik və bütövlüyü təsdiqləyirik.
Chaos/Failure injection: nəzarət şəbəkə/düyün/asılılıq uğursuzluqları.
KPI təlimləri: əldə RTO/RPO, playbook qüsurları, CAPA.
11) Maliyyə və strategiya seçimi (FinOps)
Azaldılmış RPO/RTO üçün $ hesablayın: məqsəd nə qədər aşağıdırsa, kanallar, lisenziyalar, ehtiyatlar bir o qədər bahadır.
Hibrid: Tier 0 - active-active/hot; Tier 1 — warm; Tier 2–3 — pilot/backup.
Məlumatlar bahadır: soyuq təbəqələr (arxiv/S3/GLACIER), artımlı snapshotlar, deduplikasiya istifadə edin.
Xərclərin və sertifikatların/DR-infra lisenziyalarının vaxtaşırı artması.
12) DR yetkinlik metrikası
RTO (fakt) və RPO (fakt) hər Tier.
DR Coverage:% rəsmiləşdirilmiş ssenari/playbook/test ilə xidmətlər.
Backup Success & Restore Success: backaps və sübut edilmiş bərpa gündəlik uğur.
Time-to-Declare Disaster: failover haqqında qərar sürəti.
Failback Time: normal topologiyaya qayıdış.
Defect Rate Təlimlər: tapılan boşluqlar/təlim.
Compliance Evidence Completeness: artefaktların tamlığı.
13) Çek vərəqləri
DR tətbiq etməzdən əvvəl
- Xidmət kataloqu Tier, RTO/RPO, asılılıq və sahibləri ehtiva edir.
- Tier və büdcə ilə model (AA/AP/WS/PL/BR) seçildi.
- Konsistentlik və replikasiya müqavilələri sənədləşdirilmişdir.
- GSLB/DNS/routing və health-checks özelleştirilmiş və test edilmişdir.
- backup, snapshot, dəyişiklik jurnalları - daxil, restore yoxlanılır.
- Cari formada DR Playbook və provayder əlaqə.
Qəza zamanı (qısa)
- SEV elan və war-room toplamaq; buraxılışları dondurun.
- Sondaların kvorumunu yoxlayın; impakt/coğrafiya qeyd.
- Failover Runbook yerinə yetirin: trafik, DB promosyon, növbələr, cache.
- Degrade-UX/limitləri daxil edin; SLA ilə yeniləmələr dərc etmək.
- evidence (time line, qrafik, log, komanda) toplayın.
Qəzadan sonra
- SLO N intervalları müşahidə; plana uyğun olaraq failback etmək.
- AAR/RCA keçirmək; CAPA rəsmiləşdirin.
- Pleybukları, katalizatorları, DR test hallarını yeniləyin.
- Steykholders/tənzimləyicilərə (lazım gələrsə) hesabat verin.
14) Şablonlar
14. 1 DR ssenari kartı (nümunə)
ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support
14. 2 Runbook «Promote Replica BD» (fraqment)
1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m
14. 3 DR təlim planı (qısa)
Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output
15) Anti-nümunələr
müntəzəm bərpa testləri olmadan «backup var».
Sirlər/end-pointlər avtomatik olaraq dəyişdirilmir.
İdempotentlik yoxdur → təkrarlanan/təkrar çatdırılma zamanı itirilmiş əməliyyatlar.
Dağılma bayraqları olmayan bölgələr üçün eyni konfiqlər.
«Saxta həyəcan» qorxusuna görə uzun vaxt-to-Declare.
Alternativsiz monoregional provayderlər (PSP/KYC).
Heç bir failback planı yoxdur - «əbədi» təcili topologiyada yaşayırıq.
16) Yol xəritəsi (6-10 həftə)
1. Ned. 1-2: Tier xidmətlərinin təsnifatı, hədəf RTO/RPO quraşdırılması, DR nümunələrinin seçimi.
2. Ned. 3-4: replikasiya/backup, GSLB/DNS, promosyon prosedurlarının konfiqurasiyası; playbook və runbook '.
3. Ned. 5-6: ilk DR təlimləri (tabletop → stage), metrik fiksasiya və CAPA.
4. Ned. 7-8: məhdud trafik ilə prod-light təlim; avtomatlaşdırma failover.
5. Ned. 9-10: xərclərin optimallaşdırılması (FinOps), Tier 0-ın hot/AA-ya keçirilməsi, rüblük təlimlər və hesabat qaydaları.
17) Yekun
Effektiv DR yalnız backup deyil. Bunlar razılaşdırılmış memarlıq, avtomatlaşdırma failover/failback, məlumat intizamı (idempotentlik/replikasiya), təlim və şəffaf kommunikasiyalardır. RTO/RPO real olduqda, playbooklar işlənmiş və təlimlər müntəzəm olduqda, fəlakət idarə olunan hadisəyə çevrilir, bundan sonra xidmətlər tez və proqnozlaşdırıla bilən şəkildə normala qayıdır.