Disaster Recovery и cold-backups
Qısa xülasə
DR böyük bir qəzadan sonra biznes funksiyalarını bərpa etmək qabiliyyətidir. Cold-backups - «son müdafiə xətti»: sahənin tam enerjisizləşdirilməsi və ya güzəşt zamanı bərpa üçün uyğun dəyişməz/təcrid olunmuş surətlər. Strategiya RTO/RPO, sistemlərin prioritetləşdirilməsi, illik DR təlimləri və ciddi əməliyyat intizamı (kataloqlar, açarlar, yoxlamalar) ətrafında qurulur.
Şərtlər və məqsədlər
RPO (Recovery Point Objective) - maksimum icazə verilən məlumat itkisi (məsələn, ≤ 15 dəq).
RTO (Recovery Time Objective) - maksimum icazə verilən bərpa müddəti (məsələn, ≤ 2 saat).
Black-start - «sıfırdan» bərpa: dəmir/klaster/sirləri/data/DNS.
Air-gap - nüsxələrin fiziki/məntiqi izolyasiyası (lent/bağlı hesab/oflayn media).
Immutability (WORM) - dəyişməz saxlama (Lock/Retention ilə lent/obyekt).
DR hazırlıq səviyyələri
Cold Site - infrastruktur yoxdur/dondurulur; RTO: saat-gün; ən ucuz CAPEX/OPEX.
Warm Site - şablonlar/şəkillər/qismən hazır xidmətlər; RTO: on dəqiqə-saat.
Hot Site - aktiv replikalar; RTO: dəqiqə; daha bahalı və daha çətin.
Hibrid: nüvə → hot/warm, qalan hər şey → cold (başlanğıc prioriteti ilə).
Harada cold-backups əvəzolunmazdır
Kütləvi kriptovalyuta/domen güzəşti.
Bütün replikalara yol verən məlumat korrupsiyası.
Bölgə itkisi/məlumat mərkəzi, fors-major (yanğın, daşqın).
Xüsusi hesablardan qəsdən silinmə/sabotaj.
cold-backups topologiyası
1. Media/saxlama sinifləri
Lentlər (LTO-8/9): ucuz, hava-gap default, yüksək tutum, ardıcıl giriş.
Offline-disklər/NAS: «seyf-cases», yalnız backup/restore pəncərəsinə qoşulur.
Arxiv obyekt sinifləri (Glacier kimi): aşağı saxlama qiyməti, daha yüksək çıxarma vaxtı.
2. Yerləşdirmə
Digər platforma/region; digər provayder/hesab; fərdi açarlar/administratorlar.
3. İmmutabillik
Retenşn və Legal Hold ilə WORM/Object Lock (Compliance/Governance) lentləri.
Siyasət 3-2-1-1-0 (cold diqqət ilə)
3 məlumat nüsxəsi (prod + yerli ehtiyat + offsayt).
2 fərqli daşıyıcı (disk/lent/obyekt).
1 offsayt (digər platforma/bulud).
1 dəyişməz (WORM/air-gap).
0 yoxlama səhvləri (checksum/periodik test bərpa).
Kataloqlar, metadata və bütövlük nəzarəti
backup kataloqu: nə, harada, zaman, versiyası, açarları, çek-məbləğlər, son tarix retenshdir.
Aktivlər kataloqu: xidmət → asılılıq → cildlər/baketlər → prioritet.
Checksums və manifest faylları: record və recovery.
Canary faylları: media problemlərinin erkən aşkarlanması üçün müntəzəm bərpa.
Şifrələmə və açarlar
Yalnız şifrələmə (lent/obyekt) və uçuşda (kopyalama).
KMS/Vault dual-control, əsas açarlar üçün oflayn seyflər, rotasiya.
Prod/backup/arxiv üçün ayrı açarlar (blast radiusunu minimuma endirmək).
DR açarlarına daxil olmaq üçün sənədləşdirilmiş proses (tələblər, rollar, jurnal).
DR planı: prioritet və ardıcıllıq
Prioritetlər xəritəsi (nümunə):1. Identifikasiya və giriş: IdP (minimum zona), Vault/KMS, şəbəkə nüvəsi.
2. Məlumat və idarəetmə təyyarələri: etcd K8s, konfiqlər, secrets, görüntü reyestrləri, deploys artefaktları.
3. Əməliyyat BD/cüzdan: jurnallar + son full/incremental.
4. Ödəniş/inteqrasiya şlüzləri: açarlar, sertifikatlar, IP/DNS.
5. Web/api cəbhələri: Kanarya başlatma, obyektdən statik məzmun.
6. Analitika/hesabat: nüvə tamamlandıqdan sonra.
Bərpa ardıcıllığı (black-start):1. Infrastruktur: şəbəkə, DNS/Anycast, IAM nüvələri, əsas şəkillər/klaster.
2. Secrets/Sertifikatlar: cold-backup 'dan Vault/KMS bərpa edin, bootstrap sirlərini paylayın.
3. Nəzarət müstəvisi: etcd/Control Plane/registrlər/anbarlar.
4. Məlumat: jurnallardan cold-backup + PITR-dən DB-ləri yerləşdirin (RPO).
5. Proqramlar: ağac asılılığı başlatmaq, cache/CDN qızdırmaq.
6. Testlər və validasiya: sağlamlıq testləri, tutarlılıq, nəzarət məbləğləri.
7. Trafik keçid: DNS/marşrut/balanslayıcılar (mərhələli/kanarya).
8. Post-yoxlama: heç bir sızma/borc, log və DR aktı.
cold-restore prosedurları (tipik)
Lentlər: inventar, yükləmə, paralel axınlar, faylların xəritəsi → kataloqlar → bərpa üçün daşlar; axtarış və geri sarma vaxtının uçotu.
Arxiv sinifləri: çıxarılması üçün sorğu (minutes → hours), isti saxlama staging, manifest bərpa.
Offline disklər: read-only qoşulma, checksum → kopyalama yoxlama.
Təcrübə: bərpa üçün təcrid olunmuş «qum qutusu», sonra proto-mühitə köçürülür.
Rabitə və org. DR strukturu
Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Kanallar: ehtiyat (korporativ domen xaricində), səs/chat, SecureDocs.
Mesaj şablonları: müştərilərə/tərəfdaşlara/tənzimləyicilərə; yeniləmələrin tezliyi; vahid «həqiqət mənbəyi».
Vahid hadisə jurnalı: time line, həllər, sahibləri.
DNS, şəbəkə və trafik
Split-brain-müdafiə: konfiqurasiya «DR-rejimi» bayraqları; məhdud funksionallıq üçün feature-flags.
DNS strategiyası: aşağı TTL əvvəlcədən, müstəqil DNS provayderi; A/AAAA/CNAME mərhələli dəyişdirilməsi, CDN istiləşməsi.
Marşrutlaşdırma: Anycast/Geo, DR saytından BGP elanı; ACL/firewall IaC-dən yenidən yığılır.
DR üçün SLO
RPO zamanın 99% -ə ≥ (hədəf daxilində jurnal/artımların gecikməsi).
RTO black-start (tam ssenari) hər rübdə bir dəfə testlərdə hədəf (məsələn, 4 saat) ≤.
DR təlimlərinin uğuru - kritik tapşırıqların 100% -i pəncərədə yerinə yetirilmişdir.
Immutability - Retention/Lock = 100% ilə backup payı.
Bütövlük yoxlamaları - qrafik üzrə 100%; daşıyıcının uğursuzluğu → miqrasiya bileti.
Testlər və təlimlər
Table-top: ssenarilər, rollar, yoxlama vərəqləri, əlaqə siyahısı.
Texniki: DB/faylları/sirləri «qum qutusuna» nəzarət məbləğlərini və uyğunluğunu yoxlamaqla seçici şəkildə bərpa edin.
Black-start-drill: bir dəfə/rüb (və ya bir dəfə/altı ay) - DR saytında nüvənin tam işə salınması.
Post-mortem: faktlar, dar yerlər, təkmilləşdirmə planı (SLO/proseslər/avtomatlaşdırma).
Avtomatlaşdırma və artefaktlar
IaC: klasterlər, şəbəkələr, yığınlar - kodda; DR filialları/parametrləri.
Runbooks: komponent (Vault/KMS, etcd, DB, şlüzlər, cəbhələr).
DR-paketi: əsas dokların oflayn surəti (kontaktlar, sxemlər, şifrələr), fiziki giriş təlimatları.
Canary-restore: gündəlik kiçik restore və checksum yoxlama.
Tags/etiketlər: «DR-critical», «Warm-only», «Cold-only» xidmətlər/cildlər üçün.
Giriş çek siyahısı
- Məlumat sinifləri və onların RPO/RTO-ları bizneslə razılaşdırılır; bərpa prioritetləri müəyyən edilmişdir.
- Həyata cold-backups: daşıyıcılar, immutability (WORM/Object Lock), offsite/air-gap.
- Kataloqlar: aktivlər, arxalar, açarlar; çek-məbləğləri və nəzarət versiyaları.
- Black-start prosedurları: şəbəkələr/DNS, IdP/Vault/KMS, nəzarət müstəvisi, məlumatlar, AP təbəqəsi.
- Təlimlər: rüblük table-top; kanar restore gündəlik; black-start dəfə/rüblük-altı ay.
- Rabitə və tənzimləyici şablonlar; ayrı-ayrı rabitə kanalları.
- DR üçün SLO/metrika/alert; rəhbərliyə hesabatlar.
- Provayderlərlə razılaşmalar (lent/arxiv/DNS/CDN), SLA təsdiqlənmişdir.
- Maliyyə: daşıyıcıların/arxivin büdcəsi, logistika, daşıyıcıların vaxtına görə dəyişdirilməsi.
Tipik səhvlər
«Bir replika var - backup lazım deyil» → məntiqi səhv/şifrələyici hər yerə gedəcək.
Heç bir immutability/air-gap → bütün nüsxələrin vahid güzəşt vektoru.
Kataloqların/çek məbləğlərinin olmaması → «bir şey» bərpa edildi, lakin bu deyil.
TTL DNS çox böyükdür → çox günlük trafik miqrasiyası.
Eyni domen/hesabda/KMS açarları → hadisə zamanı giriş kilidi.
Təlimlər yalnız «kağız üzərində» → RTO/RPO təsdiqlənməmişdir.
iGaming/Fintech üçün xüsusiyyətlər
Cüzdan/ödəniş nüvəsi: ciddi RPO (≤ 1-5 dəq) və RTO (≤ 15-60 dəq); WORM ilə obyektdə jurnallar; DR-funksiyası şəffaf rabitə üçün «read-only balans».
PSP/məzmun provayderləri: əvvəlcədən razılaşdırılmış DR-IP/domen, whitelists, sertifikatlar, HMAC/mTLS açarları - DR paketindəki surətlər.
Hesabat/tənzimləyicilər: bildiriş şablonları, dəyişməz arxivlər, sübut edilə bilən bütövlük, fəaliyyət jurnalı.
Zirvələr və tədbirlər: DR hazırlıq böyük turnirlər/promosyonlar əvvəl yoxlanılır; kanar bərpa və CDN isitmə.
Mini runbook şablonları
1) Vault/KMS black-start (konsepsiya):1. DR-klasterinin başlanğıcı, unseal (dual-control) açarlarının yüklənməsi.
2. storage-backup (cold-copy) bərpa.
3. Siyasətlərin yoxlanılması, CI/CD/K8s üçün bootstrap sirlərinin verilməsi.
2) PostgreSQL DR (PITR из cold-backup):1. Boş instansiyanı genişləndirin, cold-dan full-i bərpa edin.
2. WAL-jurnalları (inkrementlər) hədəf anına qoyun.
3. tutarlılığı yoxlamaq, replikasiya daxil, read-only açmaq, sonra read-write.
3) DNS/trafik:1. Planlaşdırılan risklərə 24-72 saat ərzində TTL-ni azaltın (və ya daim aşağı saxlayın).
2. Çek siyahısında A/AAAA/CNAME keçid, səhv/gecikmə monitorinqi.
3. Tədricən trafik artımı (kanarya 5% → 25% → 100%).
Yekun
cold-backups-a əsaslanan etibarlı DR: immutable təcrid olunmuş nüsxələr, rəsmiləşdirilmiş black-start prosedurları, aydın RPO/RTO, müntəzəm təlimlər, düşünülmüş DNS/şəbəkə strategiyası və açar intizamı. IaC və runbook-larda hər şeyi düzəldin, bütövlük yoxlamalarını və kanarya restoranlarını avtomatlaşdırın - və ən pis ssenaridən sonra da həmişə nəzarət olunan bərpa yolu olacaq.