Gyssagly dikeldiş ssenarileri
1) Näme üçin DR gerek we haýsy maksat
"Disaster Recovery" (DR) - betbagtçylyklardan soň hyzmatlary dikeltmek üçin arhitektura, prosesler we türgenleşikler toplumy (data-merkeziň/sebitiň şowsuzlygy, maglumatlaryň ýitmegi, köpçülikleýin konfigurasiýa ýalňyşlyklary). DR maksady - müşderileriň ynamyny we düzgünleşdirijä laýyklygyny saklamak bilen, gözegçilik edilýän gymmaty we töwekgelçiligi bolan maksatly RTO/RPO-lary ýerine ýetirmek.
RTO (Recovery Time Objective): Rugsat edilýän iş wagty.
RPO (Recovery Point Objective): Maglumatlaryň ýol berilýän ýitgisi (iň soňky nokatdan wagt).
RLO (Recovery Level Objective): ilkinji bolup gaýdyp gelmeli funksiýanyň derejesi (iň az durmuşa ukyply hyzmat).
2) Ulgamlaryň kritiklik boýunça klassifikasiýasy
Tier 0 (möhüm): tölegler, giriş, KYC, geleşikleriň özeni - RTO ≤ 15 minut, RPO ≤ 1-5 minut.
Tier 1 (ýokary): operasiýa panelleri, D-1 hasabatlary - RTO ≤ 1 sagat, RPO ≤ 15-60 minut.
Tier 2 (orta): arka ofis, near-real-time analitigi - RTO ≤ 4-8 sagat, RPO ≤ 4-8 sagat.
Tier 3 (pes): möhüm däl kömekçi - RTO ≤ 24-72 sagat, RPO ≤ 24 sagat.
Her bir hyzmata hyzmatlar katalogynda Tier + maksatly RTO/RPO bellemek; çözgütleri we býudjetleri olar bilen deňeşdirmek.
3) Howplaryň we ssenariýalaryň nusgasy
Tehnogen: AZ/sebit/üpjün edijiniň şowsuzlygy, toruň/DNS-iň zaýalanmagy, DB/ammarlaryň şowsuzlygy, köpçülikleýin goýberiş şowsuzlygy.
Adam faktory: nädogry gapma-garşylyklar/IaC, maglumatlary aýyrmak, açarlary bozmak.
Tebigy/daşarky: ýangyn/suw joşmasy, energiýanyň kesilmegi, kanuny blokirlemeler.
Her kim üçin - ähtimallyga/impakta baha bermek, DR ssenarisine we pleýbuka baglamak.
4) DR arhitektura patternleri
1. Active-Active (Multi-Region): iki sebit hem traffige hyzmat edýär.
Artykmaçlyklary: iň az RTO/RPO, ýokary durnuklylyk.
Minuslar: maglumatlaryň çylşyrymlylygy/yzygiderliligi, ýokary bahasy.
Nirede: okamak-agyr, kesilen ýükler, stateless-hyzmatlar, multi-master DB (gapma-garşylyklaryň berk düzgünleri).
2. Active-Passive (Hot Standby): "gyzgyn" passiw doly gyzdyrylan nusgasyny saklaýar.
RTO: minut; RPO: minut. Awtomatlaşdyrylan failover we replikasiýa talap edýär.
3. Warm Standby: Ýylylyk çeşmeleriniň bir bölegi, heläkçilik wagtynda ulalmak.
RTO: onlarça minut; RPO: 15-60 minut. Has tygşytly, ýöne has uzyn.
4. Pilot Light: iň az "uçgun" (meta-maglumatlar/şekiller/skriptlar) + çalt öwrüm.
RTO: sagat; RPO: sagat. Arzan, Tier 2-3 üçin amatly.
5. Backup & Restore: oflayn yzlar + el bilen gyzdyrmak.
RTO/RPO: sagat-gije-gündiz. Diňe pes kritiklik we arhiwler üçin.
5) Maglumatlar we ylalaşyklylyk
DB göçürmesi:- Sinhron - nola golaý RPO, ýöne ↑ gizlinlik/bahasy.
- Asinhron - has gowy öndürijilik, RPO> 0 (magazinesurnallaryň guýrugy).
- Sazlaşyk: Modeli saýlaň (strong/eventual/causal). Tölegler üçin - berk, analitikler üçin - eventual.
- Dilimler (snapshots): Yzygiderli nokatlar dörediň + magazinesurnallary saklaň (WAL/redo).
- Sebitleýin amallar: 2PC gaça duruň; dempotent amallaryny ulanyň, deli-e-tekrarlaň (duplikasiýa bilen retry), event sourcing.
- Nobatlar/tekerler: köpeltmek/aýna, DLQ, konsumerleriň sargyt we idempotentligi.
6) Tor, traffik we DNS
GSLB/Anycast/DNS: failover/failback syýasaty, pes TTL (ýöne kän däl), birnäçe sebitden saglyk barlaglary.
L7-marşrut: sebitleýin kartalar, bozulma baýdaklary (funksiýalaryň çäklendirilmegi).
Private-links/VPN: üpjün edijilere ätiýaçlyk kanallary (PSP/KYC/CDN).
Rate limiting: dikeldilende tupandan goramak.
7) Stateful vs Stateless
Stateless script/awtoskeyl arkaly geçirilýär; stateful ylalaşylan maglumatlar strategiýasyny (replikasiýa, snapshotlar, mahabatlandyrma replikalary, kworum) talap edýär.
Kesiş/sessiýalar: daşarky (Redis/Memcached) kross-sebit köpeltmesi ýa-da magazinesurnallar boýunça re-seed; sessiýalary tokenlerde (JWT) ýa-da umumy ammarda saklamak.
8) Triggerler we awtomatlaşdyryş DR
SLO-gardrailler we zond kworumu → awtomatiki region-failover runbook.
Heläkçilikde Change freeze: degişli däl relizleri/migrasiýalary petikleýäris.
Infrastructure as Code: manifestler boýunça stend-baýlary ýerleşdirmek, süýşmegi barlamak.
Roly mahabatlandyrmak: BD replikalarynyň awtomatiki promote + writers/syrlary geýmek.
9) Aragatnaşyk we gabat gelmek
War-room: IC/TL/Comms/Scribe; SEV boýunça täzelenme aralyklary.
Status-sahypa: täsir geografiýasy, ETA, aýlaw ýollary.
Düzgünleşdiriji: habarnamalaryň möhletleri, maglumatlaryň howpsuzlygy, üýtgewsiz saklanylmagy evidence.
Hyzmatdaşlar/üpjün edijiler: tassyklanan aragatnaşyklar, bölünip berlen kanal.
10) DR synaglary we maşklary
Tabletop: Ssenariýany we çözgütleri ara alyp maslahatlaşýarys.
Game Day (stage/prod-light): AZ/sebitleriň şowsuzlygyna öýkünmek, üpjün edijini öçürmek, DNS-i täzeden açmak.
Dikeldiş synaglary: yzlary wagtal-wagtal izolýasiýa edýäris we bitewiligi tassyklaýarys.
Chaos/Failure injection: toruň/düwünleriň/garaşlylyklaryň gözegçilik edilýän şowsuzlyklary.
KPI maşklary: gazanylan RTO/RPO, pleýbuklaryň kemçilikleri, CAPA.
11) Maliýe we strategiýany saýlamak (FinOps)
Azaldylan RPO/RTO üçin $ hasaplaň: maksat näçe pes bolsa, kanallar, ygtyýarnamalar, ätiýaçlyklar şonça gymmat.
Gibrid: Tier 0 - active-active/hot; Tier 1 — warm; Tier 2–3 — pilot/backup.
Maglumatlar gymmat: sowuk gatlaklary (arhiw/S3/GLACIER), inkremental snapshotlary, de-duplikasiýany ulanyň.
DR-infra çykdajylarynyň we şahadatnamalarynyň/ygtyýarnamalarynyň wagtal-wagtal gözden geçirilmegi.
12) Kämillik ölçegleri DR
Her Tier üçin RTO (hakykat) we RPO (hakykat).
DR Coverage: dizaýn/pleýbuk/synag bilen% hyzmatlar.
Backup Success & Restore Success: backaps we subut edilen dikeldişleriň gündelik üstünligi.
Time-to-Declare Disaster: failover barada karar bermegiň tizligi.
Failback Time: adaty topologiýa gaýdyp gelmek.
Defect Rate Maşklar: tapylan boşluklar/maşk.
Compliance Evidence Completeness: artefaktlaryň dolulygy.
13) Çek-listler
DR girizilmezden öň
- Hyzmat katalogynda Tier, RTO/RPO, garaşlylyk we eýeler bar.
- Tier we býudjet boýunça (AA/AP/WS/PL/BR) patterni saýlandy.
- Yzygiderlilik we köpeltmek baradaky ylalaşyklar resminamalaşdyrylýar.
- GSLB/DNS/marşrut we saglyk-barlaglary sazlandy we synagdan geçirildi.
- Bellikler, snapshotlar, üýtgeşmeler magazinesurnallary - girizildi, restore-de barlandy.
- DR oýun kitaplary we häzirki wagtda üpjün edijileriň aragatnaşyklary.
Awariýa wagtynda (gysgaça)
- SEV yglan etmek we war-room ýygnamak; relizleri doňduryň.
- Zondlaryň kworumyny barlamak; impakt/geografiýany düzetmek.
- "Failover Runbook" -y ýerine ýetiriň: traffik, BD mahabaty, nobatlar, nagt pul.
- Degrade-UX/çäkleri goşmak; SLA boýunça täzelenmeleri çap etmek.
- evidence (timline, grafikler, bloglar, buýruklar) ýygnamak.
Heläkçilikden soň
- SLO N aralygyny synlamak; failbacky meýilnama boýunça ýerine ýetirmek.
- AAR/RCA geçiriň; CAPA-ny resmileşdirmek.
- Oýun kitaplaryny, alert katalizatorlaryny, DR synag haltalaryny täzeläň.
- Steýkholderlere/düzgünleşdirijilere hasabat bermek (zerur bolsa).
14) Şablonlar
14. 1 DR ssenarisiniň kartoçkasy (mysal)
ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support
14. 2 Runbook "Promote replika BD" (bölek)
1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m
14. 3 DR türgenleşik meýilnamasy (gysgaça)
Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output
15) Anti-patternler
Yzygiderli dikeldiş synaglary bolmazdan "yzlar bar".
Syrlar/endpointler awtomatiki usulda geçirilmeýär.
Biperwaýlygyň ýoklugy → dublikatlar/gaýtadan eltilende ýitirilen amallar.
Zaýalanma baýdaklary bolmadyk sebitler üçin birmeňzeş konfigikler.
"Ýalan duýduryş" gorkusy sebäpli uzyn Wagt-to-Declare.
Monoregional üpjün edijiler (PSP/KYC) alternatiwasyz.
Failback meýilnamasy ýok - "baky" gyssagly topologiýada ýaşaýarys.
16) Durmuşa geçirmegiň ýol kartasy (6-10 hepde)
1. Ned. 1-2: Tier boýunça hyzmatlaryň klassifikasiýasy, maksatly RTO/RPO gurmak, DR patternlerini saýlamak.
2. Ned. 3-4: göçürmeleri/bellikleri, GSLB/DNS, mahabat amallaryny sazlamak; playbook we runbook.
3. Ned. 5-6: ilkinji DR-maşklar (tabletop → stage), metrikleri düzetmek we CAPA.
4. Ned. 7-8: çäkli traffikli prod-light maşk; awtomatlaşdyryş failover.
5. Ned. 9-10: Çykdajylary optimizirlemek (FinOps), Tier 0-yň hot/AA-a geçirilmegi, çärýekleýin maşklaryň we hasabatlylygyň düzgünleri.
17) Jemleýji
Täsirli DR diňe yzlar däl. Bular ylalaşylan arhitektura, failover/failback awtomatlaşdyrylmagy, maglumatlaryň tertibi (idempotentlik/replikasiýa), türgenleşikler we aç-açan aragatnaşyklar. RTO/RPO hakyky bolanda, pleýbuklar işlenip düzülse we maşklar yzygiderli bolsa, betbagtçylyk dolandyrylýan hadysa öwrülýär, şondan soň hyzmatlar çalt we öňünden aýdyp bolýar.