Disaster Recovery и cold-backups

Breve riepilogo

DR è la capacità di ripristinare le funzioni aziendali in seguito a un grave incidente. Cold-backups è l'ultima linea di difesa: copie invariate/isolate che possono essere ripristinate in caso di interruzione totale del sito o compromissione. La strategia si basa su RTO/RPO, priorità dei sistemi, esercizi annuali DR e disciplina operativa rigorosa (cataloghi, chiavi, controlli).

Termini e obiettivi

RPO (Recovery Point Objective) - Perdita massima di dati consentita (ad esempio, 15 min).
RTO (Recovery Time Objective) - Tempo massimo consentito per il ripristino (ad esempio, 2 ore).
Black-start - Ripristino da zero: ferro/cluster/segreti/dati/DNS.
Air-gap - Isolamento fisico/logico delle copie (nastro/account/supporto offline disattivato).
Immutability (WORM) - Memorizzazione invariata (nastro/oggetto con Lock/Retention).

Livelli di preparazione DR

Cold Site - Infrastruttura mancante/congelata RTO: ore-giorni; CAPEX/OPEX più economico.
Warm Site - modelli/immagini/servizi parzialmente pronti; RTO, decine di minuti e ore.
Hot Site - repliche attive RTO: minuti; più costoso e più difficile.
Ibrido: kernel hot/warm, tutto il resto è cold (con priorità all'avvio).

Dove i cold-backups sono indispensabili

Crittografazione di massa/compromissione del dominio.
La corruzione dei dati è andata in tutte le battute.
Perdita della regione/centro di controllo, forza maggiore (incendio, inondazione).
Cancellazione/sabotaggio intenzionale da cartelle privilegiate.

Topologia cold-backups

1. Media/classi di storage

Nastri (LTO-8/9) - Low cost, air-gap di default, elevata capacità, accesso seriale.
Unità offline/NAS: cassaforte, collegate solo alla finestra backup/restore.
Classi di archiviazione di oggetti (Glacier-simili) - Costi di conservazione ridotti, tempi di recupero più elevati.

2. Posizionamento

Altro sito/regione; altro provider/account; chiavi/amministratori separati.

3. Immutabilità

Nastri WORM/Object Lock (Compliance/Governance) con retino e Legale Hold.

Criteri 3-2-1-1-0 (con focus su cold)

3 copie di dati (prod + backup locale + off).
2 di supporti diversi (disco/nastro/oggetto).
1 offsite (altro sito/cloud).
1 invariato (WORM/air-gap).
0 errori di verifica (checksum/test di ripristino periodici).

Directory, metadati e controllo dell'integrità

Catalogo dei backup: cosa, dove, quando, versione, chiavi, assegno-somma, data di scadenza.
Catalogo delle risorse: il servizio di controllo della dipendenza da volume/baguette la priorità.
File Checksums e manifest - Verifica per scrittura e ripristino.
I file Canary sono un restore regolare per l'elaborazione precoce dei problemi dei supporti.

Crittografia e chiavi

Crittografia a riposo (nastro/oggetto) e in volo (copia).
KMS/Vault con dual-control, cassette di sicurezza off-line per chiavi master, rotazione.
Chiavi separate per prode/bacap/archivi (minimizzazione del raggio blast).
Processo documentato di accesso alle chiavi per DR (requisiti, ruoli, registro).

Piano DR: priorità e sequenza

Mappa delle priorità (esempio):

1. Identificazione e accesso: IdP (zona minima), Vault/KMS, kernel di rete.

2. I dati e i piani di controllo sono: etcd K8s, confighi, sequets, registri di immagini, manufatti di deploy.

3. Database/portafogli transazionali: registri + ultimi full/incremental.

4. Gateway di pagamento/integrazione: chiavi, certificati, IP/DNS.

5. Web/Api: avvio canaresco, contenuto statico dall'oggetto.

6. Analisi/report al termine del kernel.

Sequenza di ripristino (black-start):

1. Infrastruttura: rete, DNS/Anycast, IAM core, immagini di base/cluster.

2. Segreti/certificati: ripristina Vault/KMS dal cold-backup, distribuisce i segreti bootstrap.

3. Piano di controllo: etcd/Control Plane/minuscoli/repository.

4. Dati: espandere il database da cold-backup + PIT dai registri (RPO).

5. Applicazioni: avvia dipendenze per albero, riscaldando cache/CDN.

6. Test e convalida: provini health, consistenza, valori di controllo.

7. Cambio di traffico: DNS/routing/bilanciatori (graduale/canaresco).

8. Post-test: nessuna perdita di debito, logica e atto DR.

Procedure cold-restore (tipiche)

Nastri: inventario, caricamento, striping parallelo, map di file, cartelle di per il recupero conteggio dei tempi di ricerca e ricollocamento.
Archivi-classi - Richiesta di estrazione (minutes→hours), staging in archivio caldo, ripristino da manifesto.
Unità offline - Connessione read-only, checksum Check-Out.
La pratica è «scarico di sabbia» isolato per il recupero, quindi il trasferimento in un ambiente protetto.

Comunicazioni e org. struttura per DR

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
I canali sono ridondanti (fuori dal dominio aziendale), voce/chat, SecureDocs.
Modelli di messaggio: client/partner/regolatori; frequenza degli update un'unica «fonte di verità».
Un unico registro eventi: timeline, soluzioni, proprietari.

DNS, reti e traffico

Protezione split-brain: flag della modalità DR nella configurazione feature-flags per funzionalità limitate.
Strategia DNS: TTL in anticipo basso, provider DNS indipendente; cambio graduale A/AAAA/CNAME, riscaldamento CDN.
Routing: Anycast/Geo, annuncio BGP dal sito DR; Gli ACL/firewall vengono ricollocati dal IaC.

SLO per DR

RPO è stato rispettato per il 99% del tempo (una serie di registri/incarichi all'interno dell'obiettivo).
RTO black-start (lo script completo) è stato utilizzato come target (ad esempio 4 ore) per i test una volta al trimestre.
Successo dell'esercitazione DR: il 100% delle attività critiche sono state eseguite nella finestra.
Immutabilità - Percentuale di backup con Retention/Lock = 100%.
Controlli di integrità: 100% in base alla tabella di marcia L'interruzione della migrazione da parte del portatore.

Test e esercitazioni

Tabella-top: script, ruoli, scontrini, foglio di contatto.
Tecnico: recupero selettivo di database/file/segreti in una cassetta di sabbia, con controllo degli importi di controllo e consistenza.
Black-start-drill: volte/trimestre (o volte/sei mesi) è il lancio completo del nucleo nel sito DR.
Post-mortem: fatti, colli di bottiglia, piano di miglioramento (SLO/processi/automazione).

Automazione e manufatti

IaC: cluster, reti, pile nel codice; I rami DR/parametri.
Runbooks (Vault/KMS, etcd, database, gateway, fronti).
Il pacchetto DR è una copia off-line dei dock chiave (contatti, schemi, password delle frasi di cassaforte), istruzioni di accesso fisico.
Canary-restore - ristore giornaliero piccolo e checksum.
Tag/etichette: DR-critical, Warm-only, Cold-only per servizi/volumi.

Assegno foglio di implementazione

Le classi di dati e i relativi RPO/RTO sono coerenti con l'azienda; Priorità di ripristino definite.
Cold-backups: supporti, immutabilità (WORM/Object Lock), offsite/air-gap.
Cataloghi: beni, backup, chiavi; assegno-somma e controllo delle versioni.
Procedure black-start: reti/DNS, IdP/Vault/KMS, piano di controllo, dati, livello up.
Esercitazione: table-top trimestrale; restore canarini ogni giorno; black-start volte/trimestre-sei mesi.
Comunicazioni e modelli regolatori canali di comunicazione separati.
SLO/metriche/alert per DR; rapporti alla direzione.
Accordi con i provider (nastri/archivio-classi/DNS/CDN), SLA confermato.
Finanza: budget dei supporti/archivi, logistica, sostituzione dei supporti.

Errori tipici

«Non c'è bisogno di un batch».
Nessuna immutabilità/air-gap → un unico vettore di compromissione di tutte le copie.
L'assenza di cataloghi o di → è stata recuperata da qualcosa, ma non da quello.
TTL DNS è troppo grande per la migrazione di traffico di più giorni.
Le chiavi/KMS nello stesso dominio/account → il blocco dell'accesso in caso di incidente.
L'esercitazione «su carta» non è confermata da RTO/RPO.

Specifico per iGaming/Fintech

Portafoglio/nucleo di pagamento: RPO rigoroso (1-5 min) e RTO (15-60 min); registri in un oggetto WORM La funzione DR read-only bilancia per la comunicazione trasparente.
PSP/provider di contenuti: pre-concordato DR-IP/dominio, whitelists, certificati, HMAC/mTLS chiavi - copie nel pacchetto DR.
Report/Regolatori: modelli di notifica, archivi invariati, integrità provata, registro delle attività.
Picchi e iventi: La preparazione del DR viene verificata fino a tornei/promozioni di grandi dimensioni; restore canarini e riscaldamento CDN.

Modelli mini runbook

1) Vault/KMS black-start (concept):

1. Inizializzazione del cluster DR, caricamento delle chiavi unseal (dual-control).

2. Ripristino del backap di storage (cold-copy).

3. Verifica regole, rilascio di segreti bootstrap per CI/CD/K8s.

2) PostgreSQL DR (PITR из cold-backup):

1. Espandi istanza vuota, ripristina full da cold.

2. Inserisci i registri WAL fino al momento di destinazione.

3. Verifica consistenza, attiva la replica, apri read-only, quindi read-write.

3) DNS/traffico:

1. Ridurre la TTL da 24-72 ore a rischi pianificati (o mantenere basso costantemente).

2. Commutazione A/AAAA/CNAME su un foglio di assegno, monitoraggio dell'errore/latitanza.

3. Aumento graduale del traffico (canarino 5% al 25% al 100%).

Totale

Un DR affidabile basato su cold-backups è costituito da copie isolate immutabili, procedure black-start formalizzate, RPO/RTO chiari, esercitazioni regolari, strategia di rete elaborata da DNS e disciplina delle chiavi. Fissare tutto in IaC e runbook, automatizzare i controlli di integrità e i restore canari, e avere sempre un percorso di ripristino controllato anche dopo lo scenario peggiore.