Felaket Kurtarma и soğuk yedeklemeler
Kısa Özet
DR, büyük bir felaketten sonra iş fonksiyonlarını geri yükleme yeteneğidir. Soğuk yedeklemeler - "son savunma hattı": Sitenin tamamen enerjisizleştirilmesi veya ödün verilmesi durumunda kurtarma için uygun olan değiştirilemez/izole edilmiş kopyalar. Strateji, RTO/RPO, sistem önceliklendirmesi, yıllık DR egzersizleri ve sıkı operasyonel disiplin (kataloglar, anahtarlar, kontroller) etrafında inşa edilmiştir.
Şartlar ve hedefler
RPO (Recovery Point Objective - Kurtarma Noktası Hedefi) - izin verilen maksimum veri kaybı (örneğin ≤ 15 dakika).
RTO (Kurtarma Süresi Hedefi) - izin verilen maksimum kurtarma süresi (örneğin ≤ 2 saat).
Black-start - bare metal kurtarma: donanım/küme/sırlar/veri/DNS.
Hava boşluğu - kopyaların fiziksel/mantıksal izolasyonu (teyp/devre dışı hesap/çevrimdışı medya).
Değişmezlik (WORM) - değişmez depolama (Kilit/Tutma ile bant/nesne).
DR kullanılabilirlik seviyeleri
Soğuk Site - altyapı eksik/donmuş; RTO: saatler-günler; En ucuz CAPEX/OPEX.
Sıcak Site - şablonlar/resimler/kısmen bitmiş hizmetler; RTO: Onlarca dakika-saat.
Sıcak Site - aktif kopyaları; RTO: dakikalar; daha pahalı ve daha karmaşık.
Hibrit: Çekirdek - sıcak/sıcak, diğer her şey - soğuk (başlangıçta öncelikli olarak).
Soğuk yedeklemelerin vazgeçilmez olduğu yerler
Büyük kripto istilası/etki alanı uzlaşması.
Tüm kopyalara giden veri bozulması.
Bölge/veri merkezi kaybı, mücbir sebep (yangın, sel).
Ayrıcalıklı hesaplardan kasıtlı olarak kaldırma/sabotaj.
Soğuk yedekleme topolojisi
1. Medya/Depolama Sınıfları
Bantlar (LTO-8/9): düşük maliyet, varsayılan hava boşluğu, yüksek kapasite, sıralı erişim.
Çevrimdışı diskler/NAS: "güvenli durumlar", yalnızca yedekleme/geri yükleme penceresine bağlanın.
Arşivlenmiş nesne sınıfları (Glacier benzeri): düşük depolama fiyatı, daha yüksek çıkarma süresi.
2. Yerleştirme
Diğer site/bölge; Diğer sağlayıcı/hesap; bireysel anahtarlar/yöneticiler.
3. Değişmezlik
WORM/Nesne Kilidi (Uyumluluk/Yönetişim) saklama ve Yasal Bekletme ile bantlar.
Politika 3-2-1-1-0 (soğuğa odaklanarak)
3 kopya veri (prod + yerel yedekleme + site dışı).
2 farklı ortam (disk/bant/nesne).
1 site dışı (diğer site/bulut).
1 değişmez (WORM/hava boşluğu).
0 kontrol hataları (sağlama toplamı/periyodik test geri kazanımları).
Dizinler, Meta Veriler ve Bütünlük Denetimi
Yedekleme kataloğu: ne, nerede, ne zaman, sürüm, anahtarlar, kontrol miktarları, saklama süresi.
Varlık Kataloğu - Hizmet - bağımlılıklar - hacimler/kovalar - öncelik.
Sağlama toplamı ve tezahür dosyaları: yazma ve uzlaşma geri yükleme.
Kanarya dosyaları: medya sorunlarının erken tespiti için düzenli geri yükleme.
Şifreleme ve Anahtarlar
Dinlenme (bant/nesne) ve uçuşta (kopyalama) şifreleme.
Çift kontrollü KMS/Vault, ana tuşlar için çevrimdışı kasalar, döndürme.
Satış/yedekleme/arşiv için ayrı anahtarlar (patlama yarıçapını en aza indirme).
DR sırasında belgelenmiş anahtar erişim süreci (gereksinimler, roller, günlük).
DR Planı Önceliklendirme ve Tutarlılık
Öncelik haritası (örnek):1. Tanımlama ve erişim: IdP (minimum bölge), Vault/KMS, ağ çekirdeği.
2. Veri ve kontrol düzlemleri: etcd K8s, yapılandırmalar, sırlar, görüntü kayıtları, eserleri dağıtmak.
3. İşlem veritabanları/cüzdan: günlükler + en son tam/artımlı.
4. Ödeme/entegrasyon ağ geçitleri: anahtarlar, sertifikalar, IP/DNS.
5. Web/api cepheleri: kanarya başlatma, nesneden statik içerik.
6. Analytics/Raporlama: Temel Tamamlanma.
Geri yükleme sırası (siyah başlangıç):1. Altyapı: ağ, DNS/Anycast, çekirdek IAM, temel görüntüler/küme.
2. Sırlar/sertifikalar: Vault/KMS'yi soğuk yedeklemeden geri yükleyin, bootstrap sırlarını dağıtın.
3. Kontrol düzlemi: etcd/Kontrol Düzlemi/kayıtlar/depolar.
4. Veri: veritabanını soğuk yedekleme + PITR günlüklerinden (RPO tarafından) dağıtın.
5. Uygulamalar: ağaç bağımlılıklarını başlatmak, önbellekleri/CDN'yi ısıtmak.
6. Testler ve doğrulama: sağlık testleri, tutarlılık, sağlama toplamları.
7. Trafik anahtarlama: DNS/yönlendirme/dengeleyiciler (aşamalı/kanarya).
8. Post-checks: Hiçbir sızıntı/borç, kayıt ve DR hareket.
Soğuk geri yükleme prosedürleri (tipik)
Teypler: envanter, indirme, paralel akışlar, dosya haritası - dizinler - kurtarma görevleri; Arama ve geri sarma zamanlarının muhasebeleştirilmesi.
Arşiv sınıfları: çıkarma isteği (dakikalar - saatler), sıcak depoya evreleme, manifesto ile geri yükleme.
Çevrimdışı diskler: salt okunur bağlantı, sağlama toplamı denetimleri - kopyalama.
Uygulama: Restorasyon için izole edilmiş bir kum havuzu, daha sonra üretim ortamına aktarılır.
İletişim ve org. DR'de yapı
Роли: Olay Komutanı, Teknik Kurşun (Infra), DB Kurşun, Uygulama Kurşun, İletişim, Güvenlik.
Kanallar: yedekleme (kurumsal etki alanı dışında), ses/sohbet, SecureDocs.
Mesaj şablonları: müşterilere/ortaklara/düzenleyicilere; Güncelleme frekansı; Tek bir "hakikat kaynağı".
Birleştirilmiş olay günlüğü: zaman çizelgesi, çözümler, sahipler.
DNS, Ağlar ve Trafik
Bölünmüş beyin koruması: Yapılandırmada "DR modu" bayrakları; Sınırlı işlevsellik için özellik bayrakları.
DNS stratejisi: Önceden düşük TTL, bağımsız DNS sağlayıcısı; Adım değişikliği A/AAAA/CNAME, CDN'yi ısıtın.
Yönlendirme: Anycast/Geo, DR sitesinden BGP duyurusu; ACL'ler/güvenlik duvarları IaC'den yeniden birleştirilir.
DR için <> SLO
RPO, zamanın ≥ %99'unu karşıladı (hedef içinde günlük/artış gecikmesi).
RTO siyah başlangıç (tam senaryo) ≤ hedef (örneğin, 4 saat) testlerde bir kez çeyrek.
DR egzersizlerinin başarısı - Kritik görevlerin %100'ü pencerede tamamlanır.
Değişmezlik - yedeklerin Retention/Lock = %100 ile payı.
Bütünlük kontrolleri - programa göre %100; medya hatası - geçiş bileti.
Testler ve egzersizler
Masa üstü: komut dosyaları, roller, kontrol listeleri, kişi listesi.
Teknik: checksum ve tutarlılığın doğrulanmasıyla veritabanlarının/dosyaların/sırların sanal alana seçici olarak kurtarılması.
Black-start-drill: Bir kez/çeyrek (veya bir kez/altı ay) - DR sitesinde tam çekirdek lansmanı.
Ölüm sonrası: gerçekler, darboğazlar, iyileştirme planı (SLO/süreçler/otomasyon).
Otomasyon ve Eserler
IaC: kümeler, ağlar, yığınlar - kodda; DR dalları/parametreleri.
Runbooks: bileşen bileşen (Vault/KMS, etcd, DB, ağ geçitleri, cepheler).
DR paketi: Anahtar rıhtımlarının çevrimdışı kopyası (kişiler, şemalar, güvenli ifadelerin şifreleri), fiziksel erişim talimatları.
Kanarya geri yükleme: günlük küçük geri yükleme ve sağlama toplamı uzlaştırma.
Etiketler/etiketler: Hizmetler/birimler için "DR-kritik", "Yalnızca sıcak", "Yalnızca soğuk".
Uygulama kontrol listesi
- Veri sınıfları ve bunların RPO'ları/RTO'ları işletmeyle uyumludur; Kurtarma öncelikleri tanımlanmıştır.
- Uygulanan soğuk yedeklemeler: medya, değişmezlik (WORM/Nesne Kilidi), saha dışı/hava boşluğu.
- Kataloglar: varlıklar, yedeklemeler, anahtarlar; Miktarları ve sürüm kontrolünü kontrol edin.
- black-start prosedürleri: ağlar/DNS, IdP/Vault/KMS, kontrol düzlemi, veri, uygulayıcı.
- Egzersizler: masa üstü üç aylık; Kanarya günlük olarak geri yüklenir; Siyah başlangıç bir kez/çeyrek altı ay.
- İletişim ve düzenleyici şablonlar; Ayrı iletişim kanalları.
- DR için SLO/metrikler/uyarılar; Yönetime rapor verir.
- Sağlayıcılarla yapılan anlaşmalar (kasetler/arşiv sınıfları/DNS/CDN), SLA onaylandı.
- Finans: medya/arşiv bütçesi, lojistik, zamana göre medya değişimi.
Yaygın hatalar
"Bir replika var - yedekleme gerekmez" mantıksal bir hata/ransomware her yerde bırakacaktır.
Değişmezlik/hava boşluğu yoktur - tüm kopyaları tehlikeye atmak için tek bir vektör.
Katalog/çek miktarlarının eksikliği -'bir şey "restore, ama bu değil.
DNS TTL çok büyük - çok günlük trafik geçişi.
Aynı etki alanındaki/hesaptaki Anahtarlar/KMS - bir olayda erişimi engelleme.
Egzersizler sadece "kağıt üzerinde" RTO/RPO onaylanmamıştır.
iGaming/fintech'e özel
Cüzdan/ödeme çekirdeği: Sıkı RPO (≤ 1-5 dakika) ve RTO (≤ 15-60 dakika); WORM ile bir nesneye günlükler; Şeffaf iletişim için DR işlevi "salt okunur denge".
PSP/içerik sağlayıcıları: Önceden kararlaştırılmış DR-IP/etki alanı, beyaz listeler, sertifikalar, HMAC/mTLS tuşları - DR paketindeki kopyalar.
Raporlama/düzenleyiciler: bildirim şablonları, değişmeyen arşivler, kanıtlanabilir bütünlük, etkinlik günlüğü.
Zirveler ve etkinlikler: DR hazırlığı büyük turnuvalardan/promosyonlardan önce kontrol edilir; Kanarya restorasyonu ve CDN ısınması.
Mini Runbook Şablonları
1) Vault/KMS siyah başlangıç (konsept):1. DR kümesi başlatılıyor, unseal (çift denetimli) tuşlar yükleniyor.
2. Depolama yedeğini geri yükle (soğuk kopya).
3. Politikaları kontrol etmek, CI/CD/K8s için önyükleme sırları vermek.
2) PostgreSQL DR (PITR из soğuk yedekleme):1. Boş bir örneği genişletin, soğuktan tam olarak geri yükleyin.
2. WAL günlüklerini (artışları) hedef ana yükleyin.
3. Tutarlılık denetimi, çoğaltmayı etkinleştir, salt okunur aç, sonra oku-yaz.
3) DNS/trafik:1. 24-72 saat içinde TTL'yi planlanan risklere düşürün (veya sürekli düşük tutun).
2. Kontrol listesi, hata/gecikme izleme ile A/AAAA/CNAME anahtarlama.
3. Kademeli trafik artışı (kanarya %5 - %25 - %100).
Sonuç
Soğuk yedeklemelere dayanan güvenilir bir DR: değişmez izole kopyalar, resmi kara başlangıç prosedürleri, açık RPO/RTO'lar, düzenli egzersizler, iyi düşünülmüş bir DNS/ağ stratejisi ve anahtar disiplindir. Her şeyi IaC ve runbook'lara yükleyin, bütünlük kontrollerini ve kanarya geri yüklemelerini otomatikleştirin - ve en kötü senaryodan sonra bile her zaman kurtarma için kontrollü bir yolunuz olacaktır.