运营和管理→业务流程连续性
业务流程连续性(BCP)
1)什么是BCP,为什么需要
BCP(业务连续性规划)是一种系统化方法,用于确保业务流程在任何故障中都具有可持续性:从数据中心故障到提供商危机、数据泄露或负载突然增加。
在高负载产品(iGaming,fintech,市场)中,这不仅是关于基础设施-这是关于保持信任,遵守监管义务和保护收入。
- 保持关键服务和数据的可用性。
- 最大限度地减少恢复时间(RTO)和数据丢失(RPO)。
- 确保团队、沟通和外部合作伙伴在危机中正常工作。
- 标准化响应和员工培训。
2)BCP的主要组件
1.BIA(业务影响分析)-评估故障对流程和业务的影响。
2.风险和情景-威胁矩阵(基础设施,外部,人为)。
3.RTO/RPO目标是恢复和允许损失的目标。
4.恢复计划(DRP)-重新启动系统和进程的详细步骤。
5.通讯-内部和外部渠道,通知模板。
6.测试和审计-定期检查,演习,后期分析。
7.文档和版本控制-集中访问和相关性。
3)影响分析(BIA)
BIA确定了哪些过程是关键的,以及恢复它们的速度有多快。
该技术:1.所有业务流程列表(Payments、Bets、Games、KYC、支持)。
2.定义相关性(服务、数据、提供商、员工)。
3.评估拒绝的影响:财务,法律,声誉,运营。
4.为每个流程安装RTO/RPO。
5.优先级:"必须拥有","应该拥有","需要拥有"。
示例:4)风险矩阵
5) RTO、RPO和临界水平
RTO(恢复时间目标):恢复前允许多少时间。
RPO(恢复点目标):可能会丢失多少数据。
6) DRP (Disaster Recovery Plan)
目的:确保系统快速一致地恢复。
步骤:1.定义脚本(数据中心灾难、PSP故障、密钥损害、网络丢失)。
2.对于每个脚本-完成分步剧本。
3.支持DR基础架构:备份群集、DB副本、CDN/edge。
4.定期测试RTO/RPO和故障转移程序。
5.将所有语句存储在具有版本控制的单个存储中。
DR模板示例:
Scenario: EU region falls
RTO: 30 min RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking
7)团队和角色的组织
BCP协调员:计划所有者,组织审核和测试。
DR领导:负责DR计划的技术实施。
域所有者:确保其过程的连续性(Payments、Games、KYC)。
通信命令:负责内部/外部通知和状态平台。
HR/Admin:员工的BCP(远程、通信、访问)。
法律/合规性:监管通知和法律措施。
8)危机中的沟通
规则:- 明确的渠道和备用联系。
- 第一次升级是在事件发生后15分钟内。
- 通信的统一基调,事实和ETA。
- 事件结束前每N分钟更新一次。
- 恢复后-报告和验尸。
[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.
9)测试和演习
技术:故障测试,DB恢复,DDoS模拟。
操作:手动/角色更改命令。
完整的BCP演习:"停电"脚本或提供商不可用。
- DR测试-每季度;
- BCP全面教学每年进行1-2次。
- 文件:结果,偏离RTO/RPO,改进行动。
10)度量和KPI
RTO合规性:恢复目标≤过程百分比。
RPO法规遵从性:不丢失数据>目标过程的百分比。
DR测试成功率:成功验证恢复过程。
BCP覆盖:具有当前计划的过程比例(>90%)。
Comms SLA:第一个摘要≤ 15分钟,ETA更新。
Postmortem SLA:100%关键事件分析≤ 72小时。
11)文档和知识管理
单个BCP存储(版本,所有者,修订日期)。
版本控制:至少每6个月审核一次。
可用性:离线拷贝和备用通信渠道(包括电信/信使)。
集成:在SOP、事件过程和操作仪表板中引用BCP。
与Risk Register和Security Policies同步。
12)30/60/90-实施计划
30天:- 确定BCP所有者和关键过程。
- 执行基本的BIA和分类(RTO/RPO)。
- 创建风险矩阵和事件脚本目录。
- 开发DRP模板和优先服务的第一个版本。
- 进行试点DR测试(failover,DB恢复)。
- 准备通信模式和角色分配。
- 创建一个BCP文档存储和SOP集成。
- 开始团队培训和呼叫人员。
- 进行团队间BCP演习。
- 对RTO/RPO合规性和KPI度量进行审核。
- 最终确定BCP流程的修订计划和自动化。
- 将BCP纳入季度OKR和内部安全检查。
13)反模式
"BCP仅用于打勾":没有真正的测试和所有者。
与当前体系结构不匹配的过时DR语句。
未经验证的通信渠道和联系人。
未记录的依赖关系(PSP,CDN,KYC提供商)。
故障后缺乏验尸。
网络崩溃时无法离线访问BCP。
14) BCP文档结构示例
1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history
15)与其他部分的集成
操作分析:对头和降级到事件的指标。
通知和警报系统:启动BCP程序的早期信号。
管理伦理:透明报告和诚实测试。
AI助手:自动准备BCP摘要和DR检查表。
责任文化:培训,"游戏日",回顾展。
16) FAQ
Q: BCP与DRP有何不同?
答:BCP更广泛:涵盖人员、流程、沟通、合作伙伴和基础设施。DRP是IT系统恢复的技术计划。
Q: 如何经常更新BCP?
答:每次重大架构变更、事件发生后,或每6个月至少1次。
问:是否需要包括合作伙伴?
A:是的。PSP、KYC和工作室是连续性链的一部分,必须有自己的OLA和BCP协议。