业务连续性计划
1)目标,领域和原则
目标:确保关键服务(存款,投注/游戏,结论,KYC/AML,sapport)在中断时继续进行,并在不违反许可证和合同的情况下快速恢复。
领域:在线平台,支付回路,反亲和力/CUS,DWH/BI,札幌服务,运营和法律功能,关键供应商(PSP/KYC/云/CDN/工作室/聚合器)。
原则是:安全第一,玩家第一,调节正确性,RTO/RPO最小化,简单降级模式,可证明性和常规练习。
2) BIA-业务影响分析
定义关键流程、输入/输出、依赖性、"手动"替代方案和目标RTO/RPO。
BIA片段的示例(YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3)脚本/威胁(风险→影响→响应)
这些:云区域下降,DB失败,群集丢失,DDoS攻击,CDN故障。
供应商:PSP/KYC退化,与游戏聚合器破裂,无法进行反植物/制裁筛选。
网络:计费/密钥的损害,ransomware,PII泄漏。
过程/人员:罢工/疾病,主要专业人员的离职,发布错误。
地理/不可抗力:电信/电力中断,军事/制裁风险,域/交通阻塞。
每个:触发器、升级阈值、控制措施、服务降级和通信模式。
4)可持续发展架构和战略
按区域主动活动/主动站立;基础设施作为代码,用于快速提升。
降级模式:仅阅读店面,关闭非关键游戏提供商,付款限制,带有延迟结帐的"仅存款"(如果法律允许),降低分析/ETL频率。
交通管理:Anycast CDN、地理平衡、健康检查、金丝雀路由。
数据:PITR备份,更改日志,区域间复制,密码完整性(哈希/WORM)。
钥匙/秘密:独立的按区域KMS,带有日志记录的"断面玻璃"。
PSP/KYC多户:自动收发器,通过SLA/潜伏路由。
5)指挥结构(事件指挥系统)
事件指挥官(IC)-单一决策点。
Ops Lead(SRE/Platform)-技术稳定,操纵器和度量标准。
Business Continuity Lead-协调流程/手动过程。
Comms Lead-外部/内部通知(玩家、合作伙伴、监管机构)。
安全/DPO-网络事件/隐私,监管窗口。
Payments/KYC Leads-PSP/KYC脚本。
Liaisons: Legal, Support, VIP/CRM, Data/BI.
规则:每个事件一个IC,明确的渠道和决策逻辑。
6)通讯计划
频道:战争室(聊天/桥梁),备用通信(电话/无线电/备用信使),预先验证的PSP/KYC/银行联系人。
外部消息模板:状态页面,社交网络,电子邮件/推送;语气-事实,时机,下一步。
监管者和合作伙伴:预设地址,通知的SLA;商定的措辞。
玩家:透明的ETA,补偿/奖金(如果适用),降级期间的常见问题解答。
7)运营计划(Runbooks)
片段的示例:7.1 Feilover到另一个地区
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7.2 PSP降解
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7.3 KYC提供商不可用
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) IT和数据恢复(DR)
系统类别:Tier-1(平台/支付/CUS),Tier-2(游戏/分析),Tier-3(内部)。
上升顺序:set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika。
完整性检查:校验和、日志/复制验证、事务核对(重新认证)。
DR测试:每年完整(交换机),季度部分;记录实际的RTO/RPO。
9)人员,办公室和物流
远程就绪:备用笔记本电脑/调制解调器、SSO/MFA访问、IC的"红色"访问。
备用地点:备用办公室/联合办公室,通行证清单,疏散计划。
轮换:能力矩阵,关键角色的重复,替代计划。
关键通信/电力提供商:联系人,SLA,发电机/UPS(如果相关)。
10)供应商和供应链
合同中的BCP/DR要求:RTO/RPO,强制性测试,审计权和联合演习。
子处理器注册表:联系人、外卖计划、离岸时数据删除/导出确认。
Tier-1季刊:事件,DR协议,证书状态,SLA。
11)培训、演习和测试
每季度一次Tabletop:PSP/KYC/云/网络脚本。
技术教义:DR部分/完整;DDoS/CDN切换;"kill-switch"提供商的SDK。
沟通演习:新闻稿/状态更新/监管信。
回顾展:时间线,RCA,CAPA,运行手册更新和BIA。
12)度量(KPI/KRI)
RTO/RPO事实(根据Tier-1):符合目标≥ 95%。
MTTD/MTTR:下降趋势;重大事件的MTTR ≤目标。
Failover成功:不丢失数据/订单/投注,≤ X地雷降级。
Coverage练习:≥ 2个完整的DR测试/年度+4个平台。
通讯:第一次更新前的时间≤ 15分钟,根据政策进行更新的频率。
Vendor resilience: 12个月内经确诊的DR测试的Tier-1份额为100%。
13)RACI(集合)
14)支票单
14.1 Ready-to-Failover
- 当前IC/供应商/监管机构的联系人
- 复制健康,常规PITR备份
- 已验证SDK/webhook的"kill-switch"
- 经过健康检查的流量管理器(GSLB/CDN)
- 状态/信件模板和出版权
- Runbooks and Access (SSO/MFA)每月验证
14.2事件发生时
- 分配给IC,打开战争室,开始解决方案
- 分类(P1/P2),情景选择和降解
- Techdiejia (failover/Limits/停机)
- 第一次公开升级≤ 15分钟
- SLA监管/合作伙伴通知
- 为后太平间捕获文物
14.3事件发生后
- RCA和CAPA的后太平间
- 更新了BIA/阈值/例行程序
- 培训/转售假货,bordu报告
- 财务/这一对账(重新调整)
15)模板(片段)
15.1个脚本卡
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15.2到状态页的消息
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16)文档和版本管理
在存储库中验证BCP/Runbooks,更改日志,文档的所有者。
修订时间(Tier-1每季度),控制离线副本的可用性。
存储演习/事件文物和绩效指标。
17)实施路线图(6-8周)
1-2周:BIA和关键流程,RTO/RPO目标,脚本和所有者列表。
3-4周:可持续性和退化模式体系结构,运行手册,通信模式,联系人。
5-6周:与供应商集成(PSP/KYC/云),试点演习(tabletop+部分DR),调整。
第7周至第8周:完整的DR测试(如果可能的话),季度演习周期的启动,董事会报告和监管套餐(如果需要)。
18)相关的wiki部分
风险注册表,事件和泄漏,DR/BCP测试,TPRM和SLA,ISO 27001/27701,SOC 2,PCI DSS,IGA/RBAC/Least Privilege,Logs/WORM策略-用于单个稳定性和可证明性回路。
TL;DR
有效的BCP=BIA→RTO/RPO→stsenarii和degradatsii→multi供应商/多区域+清晰的事件命令,通信和演习。保持文档的活力,定期进行测试-甚至大故障也不会阻止业务或影响许可证。