Klęska żywiołowa - zimne kopie zapasowe
Krótkie podsumowanie
DR jest zdolność do przywrócenia funkcji biznesowych po poważnej katastrofie. Kopie zapasowe na zimno - „ostatnia linia obrony”: niezmienne/odizolowane kopie nadające się do odzysku w przypadku całkowitego odenerwowania terenu lub kompromisu. Strategia jest zbudowana wokół RTO/RPO, priorytetyzacji systemu, corocznych ćwiczeń DR i ścisłej dyscypliny operacyjnej (katalogi, klucze, kontrole).
Warunki i cele
RPO (cel punktu odzysku) - maksymalna dopuszczalna utrata danych (np. ≤ 15 min).
RTO (Recovery Time Objective) - maksymalny dopuszczalny czas odzysku (np. ≤ 2 godziny).
Black-start - gołe odzyskiwanie metalu: sprzęt/klaster/sekrety/dane/DNS.
Luka powietrza - fizyczna/logiczna izolacja kopii (taśma/konto wyłączone/nośniki offline).
Immutability (WORM) - niezmienne przechowywanie (taśma/obiekt z blokadą/retencją).
Poziomy dostępności DR
Cold Site - brak infrastruktury/zamrożenie; RTO: godziny-dni; najtańszy CAPEX/OPEX.
Ciepłe witryny - szablony/obrazy/częściowo zakończone usługi; RTO: Dziesiątki minut-godzin.
Hot Site - aktywne repliki; RTO: minuty; droższe i bardziej skomplikowane.
Hybryda: jądro → gorące/ciepłe, wszystko inne → zimno (z priorytetem na starcie).
Gdzie niezbędne są kopie zapasowe na zimno
Masywna infestacja kryptograficzna/kompromis domeny.
Korupcja danych, która przeszła do wszystkich replik.
Utrata regionu/centrum danych, siła wyższa (ogień, powódź).
Umyślne usunięcie/sabotaż z uprzywilejowanych kont.
Topologia kopii zapasowych na zimno
1. Klasy mediów/pamięci masowej
Taśmy (LTO-8/9): niski koszt, domyślna szczelina powietrza, wysoka pojemność, sekwencyjny dostęp.
Dyski offline/NAS: „bezpieczne przypadki”, podłączyć tylko do okna kopii zapasowej/przywrócenia.
Archiwizowane klasy obiektów (Glacier-like): niska cena przechowywania, wyższy czas ekstrakcji.
2. Umieszczenie
Inne miejsce/region; inny dostawca/rachunek; poszczególnych kluczy/administratorów.
3. Niezmienność
WORM/Object Lock (Zgodność/Zarządzanie) taśmy z retencji i Hold prawnych.
Polityka 3-2-1-1-0 (z naciskiem na zimno)
3 kopie danych (prod + lokalna kopia zapasowa + offsite).
2 różne nośniki (płyta/taśma/obiekt).
1 offsite (inne miejsce/chmura).
1 niezmienny (WORM/szczelina powietrza).
0 błędów kontrolnych (kontrolne/okresowe odzyskiwanie testów).
Katalogi, Metadane i kontrola integralności
Katalog kopii zapasowej: co, gdzie, kiedy, wersja, klucze, sprawdź kwoty, okres retencji.
Katalog aktywów - Usługa → zależności → woluminy/wiadra → priorytet.
Listy kontrolne i pliki manifestów: pisać i przywracać pojednanie.
Pliki kanaryjskie: regularne przywracanie do wczesnego wykrywania problemów z mediami.
Szyfrowanie i klucze
Szyfrowanie w stanie spoczynku (taśma/obiekt) i w locie (kopiowanie).
KMS/Skarbiec z podwójną kontrolą, sejfy offline dla kluczy głównych, obrót.
Oddzielne klucze do sprzedaży/kopii zapasowych/archiwów (minimalizując promień wybuchu).
Udokumentowany proces dostępu klucza podczas DR (wymagania, role, dziennik).
Priorytety i spójność planu DR
Mapa priorytetowa (przykład):1. Identyfikacja i dostęp: IdP (strefa minimalna), Skarbiec/KMS, rdzeń sieci.
2. Płaszczyzny danych i kontroli: etcd K8s, konfiguracje, sekrety, rejestry obrazów, wdrożenie artefaktów.
3. Bazy danych transakcji/portfel: dzienniki + najnowsze pełne/przyrostowe.
4. Bramy płatności/integracji: klucze, certyfikaty, IP/DNS.
5. Fronty web/api: start kanaryjski, zawartość statyczna z obiektu.
6. Analityka/Raportowanie: Na zakończenie rdzenia.
Przywracanie sekwencji (black-start):1. Infrastruktura: sieć, DNS/Anycast, jądro IAM, obrazy bazowe/klaster.
2. Sekrety/certyfikaty: przywracanie skarbca/KMS z zimnej kopii zapasowej, dystrybucja tajemnic bootstrap.
3. Płaszczyzna sterowania: etcd/Control Plane/rejestry/repozytoria.
4. Dane: wdrożenie bazy danych z kopii zapasowej na zimno + PITR z dzienników (przez RPO).
5. Aplikacje: uruchomienie zależności drzewa, podgrzewanie buforów/CDN.
6. Testy i walidacja: badania zdrowotne, spójność, kontrole.
7. Przełączanie ruchu: DNS/routing/balancery (stopniowe/kanaryjskie).
8. Kontrole powrotne: brak wycieków/długów, rejestrowanie i ustawa DR.
Procedury przywracania na zimno (typowe)
Taśmy: inwentaryzacja, pobieranie, równoległe strumienie, mapa plików → katalogi → zadania odzyskiwania; rozliczanie czasów wyszukiwania i rewiru.
Zajęcia archiwalne: żądanie ekstrakcji (minuty → godziny), ustawianie na gorąco, przywracanie za pomocą manifestu.
Dyski offline: połączenie tylko do odczytu, kontrola kontrolna → kopiowanie.
Praktyka: izolowana piaskownica do przywrócenia, a następnie przeniesienie do środowiska produkcyjnego.
Komunikacja i org. struktura w DR
Рола: Incydent Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Kanały: kopia zapasowa (poza domeną korporacyjną), głos/czat,
szablony wiadomości: do klientów/partnerów/organów regulacyjnych; częstotliwość aktualizacji; jedno „źródło prawdy”.
Ujednolicony dziennik zdarzeń: linia czasu, rozwiązania, właściciele.
DNS, Sieci i ruch
Split-brain-protection: flagi „DR-mode” w konfiguracji; funkcje-flagi dla ograniczonej funkcjonalności.
Strategia DNS: niski poziom TTL z wyprzedzeniem, niezależny dostawca DNS; krok zmiany A/AAAA/CNAME, rozgrzać CDN.
Routing: Anycast/Geo, ogłoszenie BGP z witryny DR; ACL/zapory są ponownie składane z IaC.
SLO dla DR
RPO spełniało ≥ 99% czasu (log/increment lag within target).
RTO black-start (pełny scenariusz) ≤ cel (na przykład 4 godziny) podczas testów raz na kwartał.
Sukces ćwiczeń DR - 100% zadań krytycznych jest zakończonych w oknie.
Immutability - udział kopii zapasowych z Retention/Lock = 100%.
Kontrola integralności - 100% zgodnie z harmonogramem; awaria mediów → bilet migracyjny.
Testy i ćwiczenia
Tabela-top: skrypty, role, listy kontrolne, lista kontaktów.
Techniczne: selektywne odzyskiwanie baz danych/plików/tajemnic do piaskownicy z weryfikacją czeków i spójnością.
Black-start-wiertarka: raz/kwartał (lub raz/sześć miesięcy) - pełne uruchomienie jądra w miejscu DR.
pośmiertnie: fakty, wąskie gardła, plan poprawy (SLO/procesy/automatyzacja).
Automatyzacja i artefakty
IaC: klastry, sieci, stosy - w kodzie; Gałęzie/parametry DR.
Książki startowe: komponent według komponentu (Vault/KMS, etcd, DB, bramy, fronty).
Pakiet DR: offline kopia kluczowych doków (kontakty, schematy, hasła bezpiecznych zwrotów), instrukcje dostępu fizycznego.
Restauracja kanaryjska: codziennie małe przywracanie i uzgadnianie kontrolne.
Tagi: „DR-critical”, „Warm-only”, „Cold-only” dla usług/woluminów.
Lista kontrolna implementacji
- Klasy danych i ich RPO/RTO są dostosowane do działalności gospodarczej; określono priorytety naprawy gospodarczej.
- Zaimplementowane kopie zapasowe na zimno: media, immutability (WORM/Object Lock), offsite/air-gap.
- Katalogi: aktywa, kopie zapasowe, klucze; Sprawdź kwoty i kontrolę wersji.
- procedury black-start: sieci/DNS, IdP/Vault/KMS, samolot kontrolny, dane, applayer.
- Ćwiczenia: tabela-top kwartalnik; restauracje kanaryjskie dziennie; czarny start raz/ćwierć-sześć miesięcy.
- Komunikacja i szablony regulacyjne; oddzielne kanały komunikacyjne.
- SLO/mierniki/wpisy dla DR; sprawozdania dla kierownictwa.
- Umowy z dostawcami (taśmy/klasy archiwalne/DNS/CDN), SLA potwierdzone.
- Finansowanie: budżet mediów/archiwum, logistyka, wymiana mediów na czas.
Częste błędy
„Istnieje replika - nie jest potrzebna kopia zapasowa →” błąd logiczny/ransomware pozostawi wszędzie.
Nie ma immutability/air-gap → pojedynczy wektor do kompromisu wszystkich kopii.
Brak katalogów/kwot kontrolnych → przywrócone „coś”, ale nie to.
DNS TTL jest zbyt duży → wielodniowa migracja ruchu.
Klucze/KMS w tej samej domenie/koncie → blokowanie dostępu w incydencie.
Ćwiczenia tylko „na papierze” → RTO/RPO nie są potwierdzone.
iGaming/specyficzne dla fintechu
Portfel/rdzeń płatniczy: ścisły RPO (≤ 1-5 minut) i RTO (≤ 15-60 minut); logi do obiektu z WORM; Funkcja DR „równowaga tylko do odczytu” dla przejrzystej komunikacji.
Dostawcy PSP/treści: wstępnie uzgodnione DR-IP/domena, białe listy, certyfikaty, klucze HMAC/mTLS - kopie w pakiecie DR.
Raportowanie/regulatory: szablony powiadomień, niezmienione archiwa, wiarygodna integralność, dziennik aktywności.
Szczyty i wydarzenia: gotowość DR jest sprawdzana przed ważnymi turniejami/promocjami; restauracja kanaryjska i ocieplenie CDN.
Szablony Mini Runbook
1) Skarbiec/KMS black-start (koncepcja):1. Inicjalizacja klastra DR, ładowanie klawiszy unseal (podwójna kontrola).
2. Przywracanie kopii zapasowej (na zimno).
3. Sprawdzanie zasad, wydawanie tajemnic dla CI/CD/K8s.
2) PostgreSQL DR (kopia zapasowa PITR:1. Rozwiń pustą instancję, przywróć pełnię z zimna.
2. Prześlij dzienniki WAL (przyrosty) do momentu docelowego.
3. Kontrola spójności, włączanie replikacji, otwieranie tylko do odczytu, a następnie odczytywanie.
3) DNS/ruch:1. Zmniejszyć TTL w ciągu 24-72 godzin do planowanego ryzyka (lub utrzymywać niski stale).
2. Przełączanie A/AAAA/CNAME za pomocą listy kontrolnej, monitorowania błędów/opóźnień.
3. Stopniowy wzrost ruchu (kanaryjski 5% → 25% → 100%).
Wynik
Niezawodny DR oparty na zimnych kopiach zapasowych to: niezmienne odizolowane kopie, sformalizowane procedury black-start, przejrzyste RPO/RTO, regularne ćwiczenia, przemyślana strategia DNS/sieci i kluczowa dyscyplina. Zaangażuj wszystko w IaC i książki startowe, zautomatyzuj kontrole integralności i przywracanie kanarków - i zawsze będziesz miał kontrolowaną ścieżkę do odzyskiwania nawet po najgorszym scenariuszu.