GH GambleHub

Disaster Recovery и cold-backups

Qısa xülasə

DR böyük bir qəzadan sonra biznes funksiyalarını bərpa etmək qabiliyyətidir. Cold-backups - «son müdafiə xətti»: sahənin tam enerjisizləşdirilməsi və ya güzəşt zamanı bərpa üçün uyğun dəyişməz/təcrid olunmuş surətlər. Strategiya RTO/RPO, sistemlərin prioritetləşdirilməsi, illik DR təlimləri və ciddi əməliyyat intizamı (kataloqlar, açarlar, yoxlamalar) ətrafında qurulur.

Şərtlər və məqsədlər

RPO (Recovery Point Objective) - maksimum icazə verilən məlumat itkisi (məsələn, ≤ 15 dəq).
RTO (Recovery Time Objective) - maksimum icazə verilən bərpa müddəti (məsələn, ≤ 2 saat).
Black-start - «sıfırdan» bərpa: dəmir/klaster/sirləri/data/DNS.
Air-gap - nüsxələrin fiziki/məntiqi izolyasiyası (lent/bağlı hesab/oflayn media).
Immutability (WORM) - dəyişməz saxlama (Lock/Retention ilə lent/obyekt).

DR hazırlıq səviyyələri

Cold Site - infrastruktur yoxdur/dondurulur; RTO: saat-gün; ən ucuz CAPEX/OPEX.
Warm Site - şablonlar/şəkillər/qismən hazır xidmətlər; RTO: on dəqiqə-saat.
Hot Site - aktiv replikalar; RTO: dəqiqə; daha bahalı və daha çətin.
Hibrid: nüvə → hot/warm, qalan hər şey → cold (başlanğıc prioriteti ilə).

Harada cold-backups əvəzolunmazdır

Kütləvi kriptovalyuta/domen güzəşti.
Bütün replikalara yol verən məlumat korrupsiyası.
Bölgə itkisi/məlumat mərkəzi, fors-major (yanğın, daşqın).
Xüsusi hesablardan qəsdən silinmə/sabotaj.

cold-backups topologiyası

1. Media/saxlama sinifləri

Lentlər (LTO-8/9): ucuz, hava-gap default, yüksək tutum, ardıcıl giriş.
Offline-disklər/NAS: «seyf-cases», yalnız backup/restore pəncərəsinə qoşulur.
Arxiv obyekt sinifləri (Glacier kimi): aşağı saxlama qiyməti, daha yüksək çıxarma vaxtı.

2. Yerləşdirmə

Digər platforma/region; digər provayder/hesab; fərdi açarlar/administratorlar.

3. İmmutabillik

Retenşn və Legal Hold ilə WORM/Object Lock (Compliance/Governance) lentləri.

Siyasət 3-2-1-1-0 (cold diqqət ilə)

3 məlumat nüsxəsi (prod + yerli ehtiyat + offsayt).
2 fərqli daşıyıcı (disk/lent/obyekt).
1 offsayt (digər platforma/bulud).
1 dəyişməz (WORM/air-gap).
0 yoxlama səhvləri (checksum/periodik test bərpa).

Kataloqlar, metadata və bütövlük nəzarəti

backup kataloqu: nə, harada, zaman, versiyası, açarları, çek-məbləğlər, son tarix retenshdir.
Aktivlər kataloqu: xidmət → asılılıq → cildlər/baketlər → prioritet.
Checksums və manifest faylları: record və recovery.
Canary faylları: media problemlərinin erkən aşkarlanması üçün müntəzəm bərpa.

Şifrələmə və açarlar

Yalnız şifrələmə (lent/obyekt) və uçuşda (kopyalama).
KMS/Vault dual-control, əsas açarlar üçün oflayn seyflər, rotasiya.
Prod/backup/arxiv üçün ayrı açarlar (blast radiusunu minimuma endirmək).
DR açarlarına daxil olmaq üçün sənədləşdirilmiş proses (tələblər, rollar, jurnal).

DR planı: prioritet və ardıcıllıq

Prioritetlər xəritəsi (nümunə):

1. Identifikasiya və giriş: IdP (minimum zona), Vault/KMS, şəbəkə nüvəsi.

2. Məlumat və idarəetmə təyyarələri: etcd K8s, konfiqlər, secrets, görüntü reyestrləri, deploys artefaktları.

3. Əməliyyat BD/cüzdan: jurnallar + son full/incremental.

4. Ödəniş/inteqrasiya şlüzləri: açarlar, sertifikatlar, IP/DNS.

5. Web/api cəbhələri: Kanarya başlatma, obyektdən statik məzmun.

6. Analitika/hesabat: nüvə tamamlandıqdan sonra.

Bərpa ardıcıllığı (black-start):

1. Infrastruktur: şəbəkə, DNS/Anycast, IAM nüvələri, əsas şəkillər/klaster.

2. Secrets/Sertifikatlar: cold-backup 'dan Vault/KMS bərpa edin, bootstrap sirlərini paylayın.

3. Nəzarət müstəvisi: etcd/Control Plane/registrlər/anbarlar.

4. Məlumat: jurnallardan cold-backup + PITR-dən DB-ləri yerləşdirin (RPO).

5. Proqramlar: ağac asılılığı başlatmaq, cache/CDN qızdırmaq.

6. Testlər və validasiya: sağlamlıq testləri, tutarlılıq, nəzarət məbləğləri.

7. Trafik keçid: DNS/marşrut/balanslayıcılar (mərhələli/kanarya).

8. Post-yoxlama: heç bir sızma/borc, log və DR aktı.

cold-restore prosedurları (tipik)

Lentlər: inventar, yükləmə, paralel axınlar, faylların xəritəsi → kataloqlar → bərpa üçün daşlar; axtarış və geri sarma vaxtının uçotu.
Arxiv sinifləri: çıxarılması üçün sorğu (minutes → hours), isti saxlama staging, manifest bərpa.
Offline disklər: read-only qoşulma, checksum → kopyalama yoxlama.
Təcrübə: bərpa üçün təcrid olunmuş «qum qutusu», sonra proto-mühitə köçürülür.

Rabitə və org. DR strukturu

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Kanallar: ehtiyat (korporativ domen xaricində), səs/chat, SecureDocs.
Mesaj şablonları: müştərilərə/tərəfdaşlara/tənzimləyicilərə; yeniləmələrin tezliyi; vahid «həqiqət mənbəyi».
Vahid hadisə jurnalı: time line, həllər, sahibləri.

DNS, şəbəkə və trafik

Split-brain-müdafiə: konfiqurasiya «DR-rejimi» bayraqları; məhdud funksionallıq üçün feature-flags.
DNS strategiyası: aşağı TTL əvvəlcədən, müstəqil DNS provayderi; A/AAAA/CNAME mərhələli dəyişdirilməsi, CDN istiləşməsi.
Marşrutlaşdırma: Anycast/Geo, DR saytından BGP elanı; ACL/firewall IaC-dən yenidən yığılır.

DR üçün SLO

RPO zamanın 99% -ə ≥ (hədəf daxilində jurnal/artımların gecikməsi).
RTO black-start (tam ssenari) hər rübdə bir dəfə testlərdə hədəf (məsələn, 4 saat) ≤.
DR təlimlərinin uğuru - kritik tapşırıqların 100% -i pəncərədə yerinə yetirilmişdir.
Immutability - Retention/Lock = 100% ilə backup payı.
Bütövlük yoxlamaları - qrafik üzrə 100%; daşıyıcının uğursuzluğu → miqrasiya bileti.

Testlər və təlimlər

Table-top: ssenarilər, rollar, yoxlama vərəqləri, əlaqə siyahısı.
Texniki: DB/faylları/sirləri «qum qutusuna» nəzarət məbləğlərini və uyğunluğunu yoxlamaqla seçici şəkildə bərpa edin.
Black-start-drill: bir dəfə/rüb (və ya bir dəfə/altı ay) - DR saytında nüvənin tam işə salınması.
Post-mortem: faktlar, dar yerlər, təkmilləşdirmə planı (SLO/proseslər/avtomatlaşdırma).

Avtomatlaşdırma və artefaktlar

IaC: klasterlər, şəbəkələr, yığınlar - kodda; DR filialları/parametrləri.
Runbooks: komponent (Vault/KMS, etcd, DB, şlüzlər, cəbhələr).
DR-paketi: əsas dokların oflayn surəti (kontaktlar, sxemlər, şifrələr), fiziki giriş təlimatları.
Canary-restore: gündəlik kiçik restore və checksum yoxlama.
Tags/etiketlər: «DR-critical», «Warm-only», «Cold-only» xidmətlər/cildlər üçün.

Giriş çek siyahısı

  • Məlumat sinifləri və onların RPO/RTO-ları bizneslə razılaşdırılır; bərpa prioritetləri müəyyən edilmişdir.
  • Həyata cold-backups: daşıyıcılar, immutability (WORM/Object Lock), offsite/air-gap.
  • Kataloqlar: aktivlər, arxalar, açarlar; çek-məbləğləri və nəzarət versiyaları.
  • Black-start prosedurları: şəbəkələr/DNS, IdP/Vault/KMS, nəzarət müstəvisi, məlumatlar, AP təbəqəsi.
  • Təlimlər: rüblük table-top; kanar restore gündəlik; black-start dəfə/rüblük-altı ay.
  • Rabitə və tənzimləyici şablonlar; ayrı-ayrı rabitə kanalları.
  • DR üçün SLO/metrika/alert; rəhbərliyə hesabatlar.
  • Provayderlərlə razılaşmalar (lent/arxiv/DNS/CDN), SLA təsdiqlənmişdir.
  • Maliyyə: daşıyıcıların/arxivin büdcəsi, logistika, daşıyıcıların vaxtına görə dəyişdirilməsi.

Tipik səhvlər

«Bir replika var - backup lazım deyil» → məntiqi səhv/şifrələyici hər yerə gedəcək.
Heç bir immutability/air-gap → bütün nüsxələrin vahid güzəşt vektoru.
Kataloqların/çek məbləğlərinin olmaması → «bir şey» bərpa edildi, lakin bu deyil.
TTL DNS çox böyükdür → çox günlük trafik miqrasiyası.
Eyni domen/hesabda/KMS açarları → hadisə zamanı giriş kilidi.
Təlimlər yalnız «kağız üzərində» → RTO/RPO təsdiqlənməmişdir.

iGaming/Fintech üçün xüsusiyyətlər

Cüzdan/ödəniş nüvəsi: ciddi RPO (≤ 1-5 dəq) və RTO (≤ 15-60 dəq); WORM ilə obyektdə jurnallar; DR-funksiyası şəffaf rabitə üçün «read-only balans».
PSP/məzmun provayderləri: əvvəlcədən razılaşdırılmış DR-IP/domen, whitelists, sertifikatlar, HMAC/mTLS açarları - DR paketindəki surətlər.
Hesabat/tənzimləyicilər: bildiriş şablonları, dəyişməz arxivlər, sübut edilə bilən bütövlük, fəaliyyət jurnalı.
Zirvələr və tədbirlər: DR hazırlıq böyük turnirlər/promosyonlar əvvəl yoxlanılır; kanar bərpa və CDN isitmə.

Mini runbook şablonları

1) Vault/KMS black-start (konsepsiya):

1. DR-klasterinin başlanğıcı, unseal (dual-control) açarlarının yüklənməsi.

2. storage-backup (cold-copy) bərpa.

3. Siyasətlərin yoxlanılması, CI/CD/K8s üçün bootstrap sirlərinin verilməsi.

2) PostgreSQL DR (PITR из cold-backup):

1. Boş instansiyanı genişləndirin, cold-dan full-i bərpa edin.

2. WAL-jurnalları (inkrementlər) hədəf anına qoyun.

3. tutarlılığı yoxlamaq, replikasiya daxil, read-only açmaq, sonra read-write.

3) DNS/trafik:

1. Planlaşdırılan risklərə 24-72 saat ərzində TTL-ni azaltın (və ya daim aşağı saxlayın).

2. Çek siyahısında A/AAAA/CNAME keçid, səhv/gecikmə monitorinqi.

3. Tədricən trafik artımı (kanarya 5% → 25% → 100%).

Yekun

cold-backups-a əsaslanan etibarlı DR: immutable təcrid olunmuş nüsxələr, rəsmiləşdirilmiş black-start prosedurları, aydın RPO/RTO, müntəzəm təlimlər, düşünülmüş DNS/şəbəkə strategiyası və açar intizamı. IaC və runbook-larda hər şeyi düzəldin, bütövlük yoxlamalarını və kanarya restoranlarını avtomatlaşdırın - və ən pis ssenaridən sonra da həmişə nəzarət olunan bərpa yolu olacaq.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.