Disaster Recovery и cold-backups

Resumo curto

DR. é a capacidade de recuperar as funções do negócio após um grande acidente. Cold-backups é a «última linha de defesa»: cópias imutáveis/isoladas que podem ser restauradas quando o local estiver completamente desligado ou comprometido. A estratégia é baseada em RTO/RPO, priorização de sistemas, exercícios DR anuais e disciplina operacional rigorosa (diretórios, chaves, verificações).

Termos e objetivos

RPO (Recovery Point Objectiva) - perda máxima de dados permitida (por exemplo, ≤ 15 min).
RTO (Recovery Time Objectiva) - tempo máximo de recuperação permitido (por exemplo, ≤ 2 h).
Black-start - recuperação «do zero»: ferro/cluster/segredos/dados/DNS.
Air-gap - isolamento físico/lógico de cópias (fita/conta desativada/mídia offline).
Imutability (WORM) - Armazenamento imutável (fita/objeto com Lock/Retenção).

Níveis de pronto para Dr

Cold Site - A infraestrutura está ausente/congelada; RTO: relógio-dia; CAPEX/OPEX mais barato.
Warm Site - modelos/imagens/serviços parcialmente prontos; RTO, dezenas de minutos-relógio.
Hot Site - réplicas ativas; RTO: minutos; mais caro e complicado.
Híbrido: núcleo → hot/warm, todo o resto → cold (priorizado ao iniciar).

Onde os cold-backups são indispensáveis

Criptorização em massa/comprometimento de domínio.
A corrupção de dados que foi para todas as réplicas.
Perda da região/Centro, força maior (incêndio, inundação).
Remoção/sabotagem intencional de dados privilegiados.

Topologia cold-backups

1. Mídia/classe de armazenamento

Fitas (LTO-8/9): barato, air-gap padrão, alta capacidade, acesso sequencial.
Drives offline/NAS: «porta-cofres», conectado apenas à janela de bacap/restore.
Classes de arquivos de objeto (Glacier-similares): preço de armazenamento baixo, tempo de extração mais elevado.

2. Posicionamento

Outro local/região; outro provedor/conta; chaves individuais/administradores.

3. Permanência

Fitas WORM/Object Lock (Compliance/Governance) com retino e Legal Hold.

Política 3-2-1-1-0 (com foco em cold)

3 cópias de dados (prod + reserva local + off).
2 mídias diferentes (disco/fita/objeto).
1 off (outro local/nuvem).
1 inalterável (WORM/air-gap).
0 erros de verificação (checksum/teste de recuperação periódico).

Diretórios, metadados e controle de integridade

O catálogo de bacapes, o que, quando, a versão, as chaves, as quantias de cheque, a data limite.
Diretório de ativos: serviço → dependendo → volume/baquete → prioridade.
Checksums e arquivos manifest: verificação de gravação e recuperação.
Ficheiros Canary: restore regular para pré-processamento de problemas de mídia.

Criptografia e chaves

Criptografia em paz (fita/objeto) e em voo (cópia).
KMS/Vault com controle dual, cofres off-line para chaves mestre, rotação.
Chaves separadas para prêmios/bacapes/arquivos (minimizar o raio blast).
Processo documentado de acesso a chaves em DR. (requisitos, papéis, registro).

Plano DR.: prioridade e sequência

Mapa de prioridades (exemplo):

1. Identificação e acesso: IdP (área mínima), Vault/KMS, núcleo de rede.

2. Dados e planos de controle: etcd K8s, configs, sequets, registros de imagens, artefatos de deploes.

3. BD/carteira de transação: revistas + mais recentes full/incremental.

4. Passarelas de pagamento/integração: chaves, certificados, IP/DNS.

5. Web/api-frentes: lançamento canário, conteúdo estático do objeto.

6. Análise/relatórios: após o fim do núcleo.

Sequência de recuperação (black-start):

1. Infraestrutura: rede, DNS/Anycast, núcleo IAM, imagens básicas/cluster.

2. Segredos/certificados: Restaurar o Vault/KMS do cold-backup, distribuir segredos bootstrap.

3. Plano de referência: etcd/Controle Plane/maiúsculas/repositórios.

4. Dados: expandir o banco de dados a partir do cold-backup + PITR dos registros (RPO).

5. Aplicativos: iniciar dependências em madeira, aquecendo em dinheiro/CDN.

6. Testes e validação: provas de health, consistência, quantias de controle.

7. Mudança de tráfego DNS/Routing/Balanceadores (gradual/canarinho).

8. Pós-verificação: falta de vazamento/dívida, loging e ata DR..

Procedimentos cold-restore (típicos)

Fitas: inventário, download, striptease paralelo, map arquivos → diretórios → tascas para recuperação; contém o tempo de busca e reposição.
Classe de arquivo: pedido de extração (minutes→hours), estaging em armazenamento quente, restauração por manifesto.
Unidades Offline: conexão read-online, verificações checksum → cópia.
Prática: uma caixa de areia isolada para recuperação, depois transferência para um ambiente de prod.

Comunicação e org. estrutura para Dr

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Canais de reserva (fora do domínio corporativo), voz/bate-papo, SecureDocs.
Modelos de mensagens: clientes/parceiros/reguladores; frequência de updates; uma única fonte de verdade.
Um único registro de eventos, timeline, soluções, proprietários.

DNS, redes e tráfego

Protecção Split-brain: bandeiras de modo DR. na configuração; função-flags para função limitada.
Estratégia DNS: TTL de baixa antecedência, provedor DNS independente; mudança gradual A/AAAA/CNAME, aquecendo CDN.
Roteiro: Anycast/Geo, anúncio BGP do site DR.; ACL/arquivos são reencontrados de IaC.

SLO para DR

O RPO é cumprido ≥ 99% do tempo (lote de revistas/encartes dentro do objetivo).
RTO black-start (cenário completo) ≤ alvo (por exemplo, 4 horas) em testes uma vez por trimestre.
O sucesso dos exercícios de DR. - 100% das tarefas críticas foram executadas na janela.
Permanência - proporção de bacapes com Retenção/Lock = 100%.
Verificações de integridade - 100% de acordo com o cronograma; A falha do hospedeiro é tíquete para migração.

Testes e exercícios

Tabela-top: cenários, papéis, folhas de cheque, contatos-folha.
Técnica: recuperação seletiva de BD/arquivos/segredos em «banco de areia», verificando somas de controle e consistência.
Black-start-drill: cada/trimestre (ou cada/seis meses) - lançamento completo do núcleo no Dr. site.
Post-mortem: factos, estreitos, planos de melhorias (SLO/processos/automação).

Automação e artefatos

IaC: clusters, redes, pilhas - no código; Ramais DR./parâmetros.
Runbooks: Discernimento (Vault/KMS, etCD, BD, hall, frentes).
Pacote DR.: cópia off-line das docas-chave (contatos, esquemas, senhas de frases de cofre), instruções de acesso físico.
Canary-restore: restore diário pequeno e checagem checksum.
Tags/rótulos: «DR.-critical», «Warm-only», «Cold-only» para serviços/volumes.

Folha de cheque de implementação

As classes de dados e seus RPO/RTO estão alinhados com o negócio; prioridades de recuperação definidas.
Implementados cold-backups: mídia, imunidade (WORM/Object Lock), off/air-gap.
Diretórios: ativos, bacapes, chaves; valores de cheque e controle de versões.
Procedimentos black-start: redes/DNS, IdP/Vault/KMS, plano de controle, dados, camada de app.
Exercícios: mesa-top trimestral; restore canário diariamente; black-start vezes/trimestre-seis meses.
Comunicações e modelos regulatórios; canais de comunicação individuais.
SLO/métricas/alertas para DR.; relatórios ao manual.
Acordos com provedores (fita/arquivo-classe/DNS/CDN), SLA confirmados.
Finanças: orçamento de mídia/arquivo, logística, substituição de mídia.

Erros típicos

«Não é preciso um bacape» → um erro lógico/criptografado vai para todo o lado.
Não há imutabilidade/air-gap → um único vetor de comprometimento de todas as cópias.
A falta de catálogos/cheques → restabeleceu qualquer coisa, mas não.
O TTL DNS é muito grande → migração de tráfego de vários dias.
Chaves/KMS no mesmo domínio/conta → bloqueio de acesso no incidente.
Os ensinamentos são apenas «em papel» → RTO/RPO não estão confirmados.

Especificidades para iGaming/Fintech

Carteira/núcleo de pagamento: RPO rigoroso (≤ 1-5 min) e RTO (≤ 15-60 min); registros de objeto com WORM; Função de «read-only equilíbrio» para comunicação transparente.
Provedores de conteúdo PSP/PSP: DR-IP/domínio previamente acordado, whitelistas, certificados, chaves HMAC/mTLS - cópias no pacote DR..
Relatórios/reguladores: modelos de notificação, arquivos imutáveis, integridade comprovada, registro de ação.
Picos e iventes: A preparação do DR. é testada antes dos grandes torneios/promoções; restore canário e CDN aquecido.

Modelos mini-runbook

1) Vault/KMS black-start (conceito):

1. Inicialização do cluster DR., carregamento das chaves unseal (dual-controle).

2. Restaurando backap de armazenamento (cold-copy).

3. Teste de políticas, emissão de segredos bootstrap para CI/CD/K8s.

2) PostgreSQL DR (PITR из cold-backup):

1. Expandir instância vazia, restaurar full de cold.

2. Adicione as revistas WAL (encartes) até o ponto de destino.

3. Verificar a consistência, ativar a replicação, abrir o read-only, depois read-write.

3) DNS/tráfego:

1. Reduzir o TTL de 24 a 72 horas para riscos planejados (ou manter baixo permanentemente).

2. Alterna A/AAAA/CNAME por folha de cheque, monitoramento de erro/latência.

3. Crescimento gradual do tráfego (5% canário → 25% → 100%).

Resultado

DR. confiável baseado em cold-backups - cópias isoladas imutáveis, procedimentos black-start formalizados, RPO/RTO nítidos, exercícios regulares, estratégia de rede elaborada DNS e disciplina de chaves. Fixe tudo em IaC e runbook, automatize os testes de integridade e restore canários - e você sempre terá um caminho de recuperação controlado, mesmo após o pior cenário possível.