GH GambleHub

Disaster Recovery и cold-backups

简短摘要

DR是在发生重大事故后恢复业务功能的能力。冷回程是"最后的防御线":不变/孤立的副本,适合在完全断电或破坏现场时进行恢复。该策略围绕RTO/RPO,系统优先级,年度DR演习和严格的操作纪律(目录,密钥,验证)构建。

术语和目标

RPO(恢复点目标)-最大允许数据丢失(例如,≤ 15分钟)。
RTO(恢复时间目标)-允许的最大恢复时间(例如,≤ 2小时)。
Black start-从头开始恢复:铁/群集/秘密/数据/DNS。
Air-gap-物理/逻辑拷贝隔离(磁带/禁用帐户/离线介质)。
Immutability (WORM)-不可变存储(带有Lock/Retention的磁带/对象)。

DR就绪水平

冷站-缺少/冻结的基础设施;RTO:时日;最便宜的CAPEX/OPEX。
Warm站点-模板/图像/部分完成的服务;RTO:几十分钟。
Hot Site-主动复制品;RTO:分钟;更昂贵、更复杂。
混合动力车:内核→ hot/warm,其他一切都→冷(启动时优先级)。

冷回落是必不可少的

大规模密码沉默/域损害。
数据腐败,走向所有复制品。
区域/数据中心损失,不可抗力(火灾,洪水)。
故意从特权帐户中删除/破坏。

cold-backups拓扑

1.媒体/存储类

磁带(LTO-8/9):便宜、默认空隙、高容量、串行访问。
离线驱动器/NAS:"保险箱桉例",仅连接到备份/恢复窗口。
归档对象类(类似于冰川):存储价格低,提取时间长。

2.住宿

另一个地点/地区;其他供应商/帐户;单个密钥/管理员。

3.不朽性

WORM/对象锁(Compliance/Governance)磁带,带有还原和法律保留。

政策3-2-1-1-0(以冷为重点)

3个数据拷贝(prod+local备份+offsite)。
2个不同的介质(驱动器/磁带/对象)。
1个离线(其他站点/云)。
1不变(WORM/air-gap)。
0个检查错误(checksum/定期测试恢复)。

目录、元数据和完整性控制

备用目录:什么,何时,版本,密钥,支票和金额,期限是再生的。
资产目录:服务→ →卷/垃圾箱→优先级。
Checksums和manifest文件:写入和恢复对账。
金丝雀文件:用于早期媒体问题检测的常规恢复。

加密和密钥

静止加密(磁带/对象)和飞行加密(复制)。

KMS/Vault带双控制,主键离线保险箱,轮换.

Prod/Back/Archives的分离密钥(最大程度地减少爆炸半径)。
记录在DR(需求、角色、日志)下访问密钥的过程。

DR计划: 优先次序和顺序

优先级图(示例):

1.识别和访问:IdP(最小区域),Vault/KMS,网络内核。

2.数据和控制平面:etcd K8s,configs,secrets,图像注册表,depload工件。

3.交易DB/钱包:日志+最新完整/积压。

4.支付/集成网关:密钥、证书、IP/DNS。

5.Web/api fronts:金丝雀启动,来自对象的静态内容。

6.分析/报告:内核完成后。

恢复序列(black-start):

1.基础架构:网络,DNS/Anycast,内核IAM,基本映像/群集。

2.秘密/证书:从冷备份中恢复Vault/KMS,分发引导秘密。

3.控制平面:etcd/Control Plane/寄存器/存储库。

4.数据:部署来自cold-backup+PITR的数据库(通过RPO)。

5.应用:通过加热缓存/CDN在树上运行依赖项。

6.测试和验证:健康样本,一致性,校验和。

7.流量切换:DNS/路由/平衡器(分阶段/金丝雀)。

8.后检查:无泄漏/债务,逻辑和DR行为。

冷还原程序(范例)

磁带:清单,下载,并行流,map文件→目录→ task进行恢复;考虑搜索和倒带时间。
归档类:提取请求(minutes→hours),堆迭到热存储,恢复清单。
离线驱动器:只读连接、检查→复制。
练习:隔离的"沙箱"进行修复,然后转移到原生环境。

通信和组织。DR的结构

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.

频道:备份(企业域之外),语音/聊天,SecureDocs。
消息模板:客户/合作伙伴/监管机构;更新频率;一个单一的"真相来源"。
统一事件日志:时间线,解决方桉,所有者。

DNS、网络和流量

分裂脑保护:配置中的"DR模式"标志;功能限制功能的特征标志。
DNS策略:提前TTL低,独立DNS提供商;分阶段更换A/AAAA/CNAME,加热CDN。
路由:Anycast/Geo,来自DR站点的BGP公告;ACL/Firewall从IaC重新定位。

DR的SLO

RPO ≥达到99%的时间(目标范围内的日志/镶嵌物)。
每季度一次测试RTO黑色开始(完整脚本)≤目标(例如4小时)。
DR演习成功-100%的关键任务在窗口中完成。
Immutability是Retention/Lock=100%的后备份额。
完整性检查-按计划进行100%;介质故障→ ticket迁移。

测试和练习

Table top:脚本、角色、支票单、联系人单。
技术:选择性地将DB/文件/秘密还原为"沙箱",并检查校验和一致性。
Black-start-drill:一次/季度(或一次/半年)-在DR站点上完全启动内核。
Mortem后:事实、瓶颈、改进计划(SLO/进程/自动化)。

自动化和人工制品

IaC:集群,网络,堆栈-在代码中;DR分支/参数。
Runbooks:分组(Vault/KMS、etcd、DB、Gateway、Fronts)。
DR软件包:关键码头的离线副本(联系人、电路、安全短语密码),fizdap说明。
金丝雀还原:每日小型还原和checksum钻孔。
标签/标签:服务/卷的"DR-critical","Warm-only","Cold-only"。

实施支票

  • 数据类及其RPO/RTO与业务一致;确定了恢复的优先事项。
  • 实现了cold-backups:介质,immutability (WORM/Object Lock), offsyte/air-gap。
  • 目录:资产,备份,钥匙;支票金额和版本控制。
  • Black start过程:网络/DNS、IdP/Vault/KMS、控制平面、数据、app图层。
  • 演习:每季度一次表;每日金丝雀恢复;黑色开始时间/季度-六个月。
  • 通信和监管模式;各个通信渠道。
  • DR的SLO/度量/异同;向管理层报告。
  • 与提供商(磁带/存档类/DNS/CDN)的安排,SLA已得到确认。
  • 财务:媒体预算/存档、物流、按时更换媒体。

典型错误

"有一个复制品-不需要备份"→逻辑错误/勒索软件将随处可见。
没有immutability/air-gap →所有副本的单一损害矢量。
缺少目录/支票金额→恢复了"某些东西",但没有恢复。
TTL DNS太大→多日流量迁移。
同一域/帐户中的密钥/KMS →在事件发生时阻止访问。
RTO/RPO →仅在纸上进行的练习尚未得到确认。

iGaming/fintech的细节

钱包/支付核心:严格的RPO(≤ 1-5分钟)和RTO(≤ 15-60分钟);使用WORM的对象日志;用于透明通信的"只读平衡"DR功能。
PSP/内容提供商:预先同意的DR-IP/域, whitelists,证书,HMAC/mTLS密钥是DR软件包中的副本。
报告/监管机构:通知模板、不可更改的档桉、可证明的完整性、活动日志。
高峰和高峰:在重大锦标赛/促销之前检查DR准备情况;金丝雀还原和CDN加热。

迷你运行手册模板

1) Vault/KMS black start(概念):

1.初始化DR群集,加载非seal(双控制)密钥。

2.恢复存储备份(冷复制)。

3.检查策略,为CI/CD/K8s发布引导程序秘密。

2) PostgreSQL DR (PITR из cold-backup):

1.展开空的实例,从冷中完全恢复。
2.将WAL日志放到目标时刻。
3.检查一致性,启用复制,仅打开读取,然后读写。

3) DNS/流量:

1.将TTL降低24-72小时至计划风险(或始终保持低位)。

2.通过支票单切换A/AAAA/CNAME,监视错误/潜伏期。

3.流量逐渐增加(金丝雀为5% → 25% → 100%)。

结果

强大的基于冷备份的DR是:固定的隔离副本,正式化的黑启动程序,明确的RPO/RTO,定期演习,深思熟虑的DNS/网络策略和密钥纪律。在IaC和runbook中记录所有内容,自动执行完整性检查和金丝雀恢复-即使在最坏的情况发生后,您也始终可以控制恢复路径。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。