Klęska żywiołowa - zimne kopie zapasowe

Krótkie podsumowanie

DR jest zdolność do przywrócenia funkcji biznesowych po poważnej katastrofie. Kopie zapasowe na zimno - „ostatnia linia obrony”: niezmienne/odizolowane kopie nadające się do odzysku w przypadku całkowitego odenerwowania terenu lub kompromisu. Strategia jest zbudowana wokół RTO/RPO, priorytetyzacji systemu, corocznych ćwiczeń DR i ścisłej dyscypliny operacyjnej (katalogi, klucze, kontrole).

Warunki i cele

RPO (cel punktu odzysku) - maksymalna dopuszczalna utrata danych (np. ≤ 15 min).
RTO (Recovery Time Objective) - maksymalny dopuszczalny czas odzysku (np. ≤ 2 godziny).
Black-start - gołe odzyskiwanie metalu: sprzęt/klaster/sekrety/dane/DNS.
Luka powietrza - fizyczna/logiczna izolacja kopii (taśma/konto wyłączone/nośniki offline).
Immutability (WORM) - niezmienne przechowywanie (taśma/obiekt z blokadą/retencją).

Poziomy dostępności DR

Cold Site - brak infrastruktury/zamrożenie; RTO: godziny-dni; najtańszy CAPEX/OPEX.
Ciepłe witryny - szablony/obrazy/częściowo zakończone usługi; RTO: Dziesiątki minut-godzin.
Hot Site - aktywne repliki; RTO: minuty; droższe i bardziej skomplikowane.
Hybryda: jądro → gorące/ciepłe, wszystko inne → zimno (z priorytetem na starcie).

Gdzie niezbędne są kopie zapasowe na zimno

Masywna infestacja kryptograficzna/kompromis domeny.
Korupcja danych, która przeszła do wszystkich replik.
Utrata regionu/centrum danych, siła wyższa (ogień, powódź).
Umyślne usunięcie/sabotaż z uprzywilejowanych kont.

Topologia kopii zapasowych na zimno

1. Klasy mediów/pamięci masowej

Taśmy (LTO-8/9): niski koszt, domyślna szczelina powietrza, wysoka pojemność, sekwencyjny dostęp.
Dyski offline/NAS: „bezpieczne przypadki”, podłączyć tylko do okna kopii zapasowej/przywrócenia.
Archiwizowane klasy obiektów (Glacier-like): niska cena przechowywania, wyższy czas ekstrakcji.

2. Umieszczenie

Inne miejsce/region; inny dostawca/rachunek; poszczególnych kluczy/administratorów.

3. Niezmienność

WORM/Object Lock (Zgodność/Zarządzanie) taśmy z retencji i Hold prawnych.

Polityka 3-2-1-1-0 (z naciskiem na zimno)

3 kopie danych (prod + lokalna kopia zapasowa + offsite).
2 różne nośniki (płyta/taśma/obiekt).
1 offsite (inne miejsce/chmura).
1 niezmienny (WORM/szczelina powietrza).
0 błędów kontrolnych (kontrolne/okresowe odzyskiwanie testów).

Katalogi, Metadane i kontrola integralności

Katalog kopii zapasowej: co, gdzie, kiedy, wersja, klucze, sprawdź kwoty, okres retencji.
Katalog aktywów - Usługa → zależności → woluminy/wiadra → priorytet.
Listy kontrolne i pliki manifestów: pisać i przywracać pojednanie.
Pliki kanaryjskie: regularne przywracanie do wczesnego wykrywania problemów z mediami.

Szyfrowanie i klucze

Szyfrowanie w stanie spoczynku (taśma/obiekt) i w locie (kopiowanie).
KMS/Skarbiec z podwójną kontrolą, sejfy offline dla kluczy głównych, obrót.
Oddzielne klucze do sprzedaży/kopii zapasowych/archiwów (minimalizując promień wybuchu).
Udokumentowany proces dostępu klucza podczas DR (wymagania, role, dziennik).

Priorytety i spójność planu DR

Mapa priorytetowa (przykład):

1. Identyfikacja i dostęp: IdP (strefa minimalna), Skarbiec/KMS, rdzeń sieci.

2. Płaszczyzny danych i kontroli: etcd K8s, konfiguracje, sekrety, rejestry obrazów, wdrożenie artefaktów.

3. Bazy danych transakcji/portfel: dzienniki + najnowsze pełne/przyrostowe.

4. Bramy płatności/integracji: klucze, certyfikaty, IP/DNS.

5. Fronty web/api: start kanaryjski, zawartość statyczna z obiektu.

6. Analityka/Raportowanie: Na zakończenie rdzenia.

Przywracanie sekwencji (black-start):

1. Infrastruktura: sieć, DNS/Anycast, jądro IAM, obrazy bazowe/klaster.

2. Sekrety/certyfikaty: przywracanie skarbca/KMS z zimnej kopii zapasowej, dystrybucja tajemnic bootstrap.

3. Płaszczyzna sterowania: etcd/Control Plane/rejestry/repozytoria.

4. Dane: wdrożenie bazy danych z kopii zapasowej na zimno + PITR z dzienników (przez RPO).

5. Aplikacje: uruchomienie zależności drzewa, podgrzewanie buforów/CDN.

6. Testy i walidacja: badania zdrowotne, spójność, kontrole.

7. Przełączanie ruchu: DNS/routing/balancery (stopniowe/kanaryjskie).

8. Kontrole powrotne: brak wycieków/długów, rejestrowanie i ustawa DR.

Procedury przywracania na zimno (typowe)

Taśmy: inwentaryzacja, pobieranie, równoległe strumienie, mapa plików → katalogi → zadania odzyskiwania; rozliczanie czasów wyszukiwania i rewiru.
Zajęcia archiwalne: żądanie ekstrakcji (minuty → godziny), ustawianie na gorąco, przywracanie za pomocą manifestu.
Dyski offline: połączenie tylko do odczytu, kontrola kontrolna → kopiowanie.
Praktyka: izolowana piaskownica do przywrócenia, a następnie przeniesienie do środowiska produkcyjnego.

Komunikacja i org. struktura w DR

Рола: Incydent Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.

Kanały: kopia zapasowa (poza domeną korporacyjną), głos/czat,

szablony wiadomości: do klientów/partnerów/organów regulacyjnych; częstotliwość aktualizacji; jedno „źródło prawdy”.
Ujednolicony dziennik zdarzeń: linia czasu, rozwiązania, właściciele.

DNS, Sieci i ruch

Split-brain-protection: flagi „DR-mode” w konfiguracji; funkcje-flagi dla ograniczonej funkcjonalności.
Strategia DNS: niski poziom TTL z wyprzedzeniem, niezależny dostawca DNS; krok zmiany A/AAAA/CNAME, rozgrzać CDN.
Routing: Anycast/Geo, ogłoszenie BGP z witryny DR; ACL/zapory są ponownie składane z IaC.

SLO dla DR

RPO spełniało ≥ 99% czasu (log/increment lag within target).
RTO black-start (pełny scenariusz) ≤ cel (na przykład 4 godziny) podczas testów raz na kwartał.
Sukces ćwiczeń DR - 100% zadań krytycznych jest zakończonych w oknie.
Immutability - udział kopii zapasowych z Retention/Lock = 100%.
Kontrola integralności - 100% zgodnie z harmonogramem; awaria mediów → bilet migracyjny.

Testy i ćwiczenia

Tabela-top: skrypty, role, listy kontrolne, lista kontaktów.
Techniczne: selektywne odzyskiwanie baz danych/plików/tajemnic do piaskownicy z weryfikacją czeków i spójnością.
Black-start-wiertarka: raz/kwartał (lub raz/sześć miesięcy) - pełne uruchomienie jądra w miejscu DR.
pośmiertnie: fakty, wąskie gardła, plan poprawy (SLO/procesy/automatyzacja).

Automatyzacja i artefakty

IaC: klastry, sieci, stosy - w kodzie; Gałęzie/parametry DR.
Książki startowe: komponent według komponentu (Vault/KMS, etcd, DB, bramy, fronty).
Pakiet DR: offline kopia kluczowych doków (kontakty, schematy, hasła bezpiecznych zwrotów), instrukcje dostępu fizycznego.
Restauracja kanaryjska: codziennie małe przywracanie i uzgadnianie kontrolne.
Tagi: „DR-critical”, „Warm-only”, „Cold-only” dla usług/woluminów.

Lista kontrolna implementacji

Klasy danych i ich RPO/RTO są dostosowane do działalności gospodarczej; określono priorytety naprawy gospodarczej.
Zaimplementowane kopie zapasowe na zimno: media, immutability (WORM/Object Lock), offsite/air-gap.
Katalogi: aktywa, kopie zapasowe, klucze; Sprawdź kwoty i kontrolę wersji.
procedury black-start: sieci/DNS, IdP/Vault/KMS, samolot kontrolny, dane, applayer.
Ćwiczenia: tabela-top kwartalnik; restauracje kanaryjskie dziennie; czarny start raz/ćwierć-sześć miesięcy.
Komunikacja i szablony regulacyjne; oddzielne kanały komunikacyjne.
SLO/mierniki/wpisy dla DR; sprawozdania dla kierownictwa.
Umowy z dostawcami (taśmy/klasy archiwalne/DNS/CDN), SLA potwierdzone.
Finansowanie: budżet mediów/archiwum, logistyka, wymiana mediów na czas.

Częste błędy

„Istnieje replika - nie jest potrzebna kopia zapasowa →” błąd logiczny/ransomware pozostawi wszędzie.
Nie ma immutability/air-gap → pojedynczy wektor do kompromisu wszystkich kopii.
Brak katalogów/kwot kontrolnych → przywrócone „coś”, ale nie to.
DNS TTL jest zbyt duży → wielodniowa migracja ruchu.
Klucze/KMS w tej samej domenie/koncie → blokowanie dostępu w incydencie.
Ćwiczenia tylko „na papierze” → RTO/RPO nie są potwierdzone.

iGaming/specyficzne dla fintechu

Portfel/rdzeń płatniczy: ścisły RPO (≤ 1-5 minut) i RTO (≤ 15-60 minut); logi do obiektu z WORM; Funkcja DR „równowaga tylko do odczytu” dla przejrzystej komunikacji.
Dostawcy PSP/treści: wstępnie uzgodnione DR-IP/domena, białe listy, certyfikaty, klucze HMAC/mTLS - kopie w pakiecie DR.
Raportowanie/regulatory: szablony powiadomień, niezmienione archiwa, wiarygodna integralność, dziennik aktywności.
Szczyty i wydarzenia: gotowość DR jest sprawdzana przed ważnymi turniejami/promocjami; restauracja kanaryjska i ocieplenie CDN.

Szablony Mini Runbook

1) Skarbiec/KMS black-start (koncepcja):

1. Inicjalizacja klastra DR, ładowanie klawiszy unseal (podwójna kontrola).

2. Przywracanie kopii zapasowej (na zimno).

3. Sprawdzanie zasad, wydawanie tajemnic dla CI/CD/K8s.

2) PostgreSQL DR (kopia zapasowa PITR:

1. Rozwiń pustą instancję, przywróć pełnię z zimna.

2. Prześlij dzienniki WAL (przyrosty) do momentu docelowego.

3. Kontrola spójności, włączanie replikacji, otwieranie tylko do odczytu, a następnie odczytywanie.

3) DNS/ruch:

1. Zmniejszyć TTL w ciągu 24-72 godzin do planowanego ryzyka (lub utrzymywać niski stale).

2. Przełączanie A/AAAA/CNAME za pomocą listy kontrolnej, monitorowania błędów/opóźnień.

3. Stopniowy wzrost ruchu (kanaryjski 5% → 25% → 100%).

Wynik

Niezawodny DR oparty na zimnych kopiach zapasowych to: niezmienne odizolowane kopie, sformalizowane procedury black-start, przejrzyste RPO/RTO, regularne ćwiczenia, przemyślana strategia DNS/sieci i kluczowa dyscyplina. Zaangażuj wszystko w IaC i książki startowe, zautomatyzuj kontrole integralności i przywracanie kanarków - i zawsze będziesz miał kontrolowaną ścieżkę do odzyskiwania nawet po najgorszym scenariuszu.