Disaster Recovery и cold-backups

简短摘要

DR是在发生重大事故后恢复业务功能的能力。冷回程是"最后的防御线"：不变/孤立的副本，适合在完全断电或破坏现场时进行恢复。该策略围绕RTO/RPO，系统优先级，年度DR演习和严格的操作纪律（目录，密钥，验证）构建。

术语和目标

RPO（恢复点目标）-最大允许数据丢失（例如,≤ 15分钟）。
RTO（恢复时间目标）-允许的最大恢复时间（例如,≤ 2小时）。
Black start-从头开始恢复：铁/群集/秘密/数据/DNS。
Air-gap-物理/逻辑拷贝隔离（磁带/禁用帐户/离线介质）。
Immutability （WORM）-不可变存储（带有Lock/Retention的磁带/对象）。

DR就绪水平

冷站-缺少/冻结的基础设施；RTO：时日；最便宜的CAPEX/OPEX。
Warm站点-模板/图像/部分完成的服务；RTO：几十分钟。
Hot Site-主动复制品；RTO：分钟；更昂贵、更复杂。
混合动力车：内核→ hot/warm，其他一切都→冷（启动时优先级）。

冷回落是必不可少的

大规模密码沉默/域损害。
数据腐败，走向所有复制品。
区域/数据中心损失，不可抗力（火灾，洪水）。
故意从特权帐户中删除/破坏。

cold-backups拓扑

1.媒体/存储类

磁带（LTO-8/9）：便宜、默认空隙、高容量、串行访问。
离线驱动器/NAS："保险箱桉例",仅连接到备份/恢复窗口。
归档对象类（类似于冰川）：存储价格低，提取时间长。

2.住宿

另一个地点/地区；其他供应商/帐户；单个密钥/管理员。

3.不朽性

WORM/对象锁（Compliance/Governance）磁带，带有还原和法律保留。

政策3-2-1-1-0（以冷为重点）

3个数据拷贝（prod+local备份+offsite）。
2个不同的介质（驱动器/磁带/对象）。
1个离线（其他站点/云）。
1不变（WORM/air-gap）。
0个检查错误（checksum/定期测试恢复）。

目录、元数据和完整性控制

备用目录：什么,何时,版本,密钥,支票和金额,期限是再生的。
资产目录：服务→ →卷/垃圾箱→优先级。
Checksums和manifest文件：写入和恢复对账。
金丝雀文件：用于早期媒体问题检测的常规恢复。

加密和密钥

静止加密（磁带/对象）和飞行加密（复制）。

KMS/Vault带双控制,主键离线保险箱,轮换.

Prod/Back/Archives的分离密钥（最大程度地减少爆炸半径）。
记录在DR（需求、角色、日志）下访问密钥的过程。

DR计划： 优先次序和顺序

优先级图（示例）：

1.识别和访问：IdP（最小区域）,Vault/KMS,网络内核。

2.数据和控制平面：etcd K8s，configs，secrets，图像注册表，depload工件。

3.交易DB/钱包：日志+最新完整/积压。

4.支付/集成网关：密钥、证书、IP/DNS。

5.Web/api fronts：金丝雀启动，来自对象的静态内容。

6.分析/报告：内核完成后。

恢复序列（black-start）：

1.基础架构：网络，DNS/Anycast，内核IAM，基本映像/群集。

2.秘密/证书：从冷备份中恢复Vault/KMS,分发引导秘密。

3.控制平面：etcd/Control Plane/寄存器/存储库。

4.数据：部署来自cold-backup+PITR的数据库（通过RPO）。

5.应用：通过加热缓存/CDN在树上运行依赖项。

6.测试和验证：健康样本，一致性，校验和。

7.流量切换：DNS/路由/平衡器（分阶段/金丝雀）。

8.后检查：无泄漏/债务，逻辑和DR行为。

冷还原程序（范例）

磁带：清单，下载，并行流，map文件→目录→ task进行恢复；考虑搜索和倒带时间。
归档类：提取请求（minutes→hours）,堆迭到热存储,恢复清单。
离线驱动器：只读连接、检查→复制。
练习：隔离的"沙箱"进行修复，然后转移到原生环境。

通信和组织。DR的结构

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.

频道：备份（企业域之外），语音/聊天，SecureDocs。
消息模板：客户/合作伙伴/监管机构；更新频率；一个单一的"真相来源"。
统一事件日志：时间线,解决方桉,所有者。

DNS、网络和流量

分裂脑保护：配置中的"DR模式"标志；功能限制功能的特征标志。
DNS策略：提前TTL低，独立DNS提供商；分阶段更换A/AAAA/CNAME，加热CDN。
路由：Anycast/Geo，来自DR站点的BGP公告；ACL/Firewall从IaC重新定位。

DR的SLO

RPO ≥达到99％的时间（目标范围内的日志/镶嵌物）。
每季度一次测试RTO黑色开始（完整脚本）≤目标（例如4小时）。
DR演习成功-100%的关键任务在窗口中完成。
Immutability是Retention/Lock=100％的后备份额。
完整性检查-按计划进行100％；介质故障→ ticket迁移。

测试和练习

Table top：脚本、角色、支票单、联系人单。
技术：选择性地将DB/文件/秘密还原为"沙箱"，并检查校验和一致性。
Black-start-drill：一次/季度（或一次/半年）-在DR站点上完全启动内核。
Mortem后：事实、瓶颈、改进计划（SLO/进程/自动化）。

自动化和人工制品

IaC：集群，网络，堆栈-在代码中；DR分支/参数。
Runbooks：分组（Vault/KMS、etcd、DB、Gateway、Fronts）。
DR软件包：关键码头的离线副本（联系人、电路、安全短语密码）,fizdap说明。
金丝雀还原：每日小型还原和checksum钻孔。
标签/标签：服务/卷的"DR-critical"，"Warm-only"，"Cold-only"。

实施支票

数据类及其RPO/RTO与业务一致；确定了恢复的优先事项。
实现了cold-backups：介质,immutability （WORM/Object Lock）, offsyte/air-gap。
目录：资产，备份，钥匙；支票金额和版本控制。
Black start过程：网络/DNS、IdP/Vault/KMS、控制平面、数据、app图层。
演习：每季度一次表；每日金丝雀恢复；黑色开始时间/季度-六个月。
通信和监管模式；各个通信渠道。
DR的SLO/度量/异同；向管理层报告。
与提供商（磁带/存档类/DNS/CDN）的安排，SLA已得到确认。
财务：媒体预算/存档、物流、按时更换媒体。

典型错误

"有一个复制品-不需要备份"→逻辑错误/勒索软件将随处可见。
没有immutability/air-gap →所有副本的单一损害矢量。
缺少目录/支票金额→恢复了"某些东西"，但没有恢复。
TTL DNS太大→多日流量迁移。
同一域/帐户中的密钥/KMS →在事件发生时阻止访问。
RTO/RPO →仅在纸上进行的练习尚未得到确认。

iGaming/fintech的细节

钱包/支付核心：严格的RPO（≤ 1-5分钟）和RTO（≤ 15-60分钟）；使用WORM的对象日志；用于透明通信的"只读平衡"DR功能。
PSP/内容提供商：预先同意的DR-IP/域, whitelists,证书,HMAC/mTLS密钥是DR软件包中的副本。
报告/监管机构：通知模板、不可更改的档桉、可证明的完整性、活动日志。
高峰和高峰：在重大锦标赛/促销之前检查DR准备情况；金丝雀还原和CDN加热。

迷你运行手册模板

1） Vault/KMS black start（概念）：

1.初始化DR群集，加载非seal（双控制）密钥。

2.恢复存储备份（冷复制）。

3.检查策略，为CI/CD/K8s发布引导程序秘密。

2) PostgreSQL DR (PITR из cold-backup):

1.展开空的实例,从冷中完全恢复。
2.将WAL日志放到目标时刻。
3.检查一致性,启用复制,仅打开读取,然后读写。

3） DNS/流量：

1.将TTL降低24-72小时至计划风险（或始终保持低位）。

2.通过支票单切换A/AAAA/CNAME，监视错误/潜伏期。

3.流量逐渐增加（金丝雀为5％ → 25％ → 100％）。

结果

强大的基于冷备份的DR是：固定的隔离副本，正式化的黑启动程序，明确的RPO/RTO，定期演习，深思熟虑的DNS/网络策略和密钥纪律。在IaC和runbook中记录所有内容，自动执行完整性检查和金丝雀恢复-即使在最坏的情况发生后，您也始终可以控制恢复路径。