运营和管理→业务流程连续性

业务流程连续性（BCP）

1）什么是BCP，为什么需要

BCP（业务连续性规划）是一种系统化方法,用于确保业务流程在任何故障中都具有可持续性：从数据中心故障到提供商危机、数据泄露或负载突然增加。
在高负载产品（iGaming，fintech，市场）中，这不仅是关于基础设施-这是关于保持信任，遵守监管义务和保护收入。

目标是：

保持关键服务和数据的可用性。
最大限度地减少恢复时间（RTO）和数据丢失（RPO）。
确保团队、沟通和外部合作伙伴在危机中正常工作。
标准化响应和员工培训。

2）BCP的主要组件

1.BIA（业务影响分析）-评估故障对流程和业务的影响。
2.风险和情景-威胁矩阵（基础设施，外部，人为）。
3.RTO/RPO目标是恢复和允许损失的目标。
4.恢复计划（DRP）-重新启动系统和进程的详细步骤。
5.通讯-内部和外部渠道，通知模板。
6.测试和审计-定期检查，演习，后期分析。
7.文档和版本控制-集中访问和相关性。

3）影响分析（BIA）

BIA确定了哪些过程是关键的，以及恢复它们的速度有多快。

该技术：

1.所有业务流程列表（Payments、Bets、Games、KYC、支持）。

2.定义相关性（服务、数据、提供商、员工）。

3.评估拒绝的影响：财务，法律，声誉，运营。

4.为每个流程安装RTO/RPO。

5.优先级："必须拥有"，"应该拥有"，"需要拥有"。

示例：

一个过程	RTO	RPO	简单时损坏>RTO	业主
存款	30分钟	5分钟	收入损失,玩家流出	Payments Team
费率计算	1小时	10分钟	声誉，用户投诉	Bets Team
KYC检查	4小时	30分钟	违反合规性	Compliance

4）风险矩阵

风险类型	示例	概率	影响力	三.措施
基础设施	数据中心的倒塌	平均水平	高个子	DR环境,多区域
提供商	PSP不可用	高的	平均水平	费洛弗，替代路线
人类	发布错误	平均水平	平均水平	金丝雀，回滚
网络威胁	Ransomware / DDoS	低端	高个子	WAF，IAM，备用
监管机构	冻结付款	低端	高个子	法律DR计划,替代的PSP

5） RTO、RPO和临界水平

RTO（恢复时间目标）：恢复前允许多少时间。
RPO（恢复点目标）：可能会丢失多少数据。

流程类：

班级	RTO	RPO	示例
A（批评）	≤ 30分钟	≤ 5分钟	付款，身份验证API
B（重要）	≤ 4小时	≤ 30分钟	KYC游戏
C（支持）	≤ 24小时	≤ 2小时	分析、报告
D（背景）	>24小时	>6小时	存档、测试环境

6) DRP (Disaster Recovery Plan)

目的：确保系统快速一致地恢复。

步骤：

1.定义脚本（数据中心灾难、PSP故障、密钥损害、网络丢失）。

2.对于每个脚本-完成分步剧本。

3.支持DR基础架构：备份群集、DB副本、CDN/edge。

4.定期测试RTO/RPO和故障转移程序。

5.将所有语句存储在具有版本控制的单个存储中。

DR模板示例：


Scenario: EU region falls
RTO: 30 min    RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking

7）团队和角色的组织

BCP协调员：计划所有者，组织审核和测试。
DR领导：负责DR计划的技术实施。
域所有者：确保其过程的连续性（Payments、Games、KYC）。
通信命令：负责内部/外部通知和状态平台。
HR/Admin：员工的BCP（远程、通信、访问）。
法律/合规性：监管通知和法律措施。

8）危机中的沟通

规则：

明确的渠道和备用联系。
第一次升级是在事件发生后15分钟内。
通信的统一基调，事实和ETA。
事件结束前每N分钟更新一次。
恢复后-报告和验尸。

升级模板：


[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.

9）测试和演习

技术：故障测试，DB恢复，DDoS模拟。
操作：手动/角色更改命令。
完整的BCP演习："停电"脚本或提供商不可用。

规律性：

DR测试-每季度；
BCP全面教学每年进行1-2次。
文件：结果，偏离RTO/RPO，改进行动。

10）度量和KPI

RTO合规性：恢复目标≤过程百分比。
RPO法规遵从性：不丢失数据>目标过程的百分比。
DR测试成功率：成功验证恢复过程。
BCP覆盖：具有当前计划的过程比例（>90％）。
Comms SLA：第一个摘要≤ 15分钟，ETA更新。
Postmortem SLA：100%关键事件分析≤ 72小时。

11）文档和知识管理

单个BCP存储（版本，所有者，修订日期）。
版本控制：至少每6个月审核一次。
可用性：离线拷贝和备用通信渠道（包括电信/信使）。
集成：在SOP、事件过程和操作仪表板中引用BCP。
与Risk Register和Security Policies同步。

12）30/60/90-实施计划

30天：

确定BCP所有者和关键过程。
执行基本的BIA和分类（RTO/RPO）。
创建风险矩阵和事件脚本目录。
开发DRP模板和优先服务的第一个版本。

60天：

进行试点DR测试（failover，DB恢复）。
准备通信模式和角色分配。
创建一个BCP文档存储和SOP集成。
开始团队培训和呼叫人员。

90天：

进行团队间BCP演习。
对RTO/RPO合规性和KPI度量进行审核。
最终确定BCP流程的修订计划和自动化。
将BCP纳入季度OKR和内部安全检查。

13）反模式

"BCP仅用于打勾"：没有真正的测试和所有者。
与当前体系结构不匹配的过时DR语句。
未经验证的通信渠道和联系人。
未记录的依赖关系（PSP，CDN，KYC提供商）。
故障后缺乏验尸。
网络崩溃时无法离线访问BCP。

14） BCP文档结构示例


1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history

15）与其他部分的集成

操作分析：对头和降级到事件的指标。
通知和警报系统：启动BCP程序的早期信号。
管理伦理：透明报告和诚实测试。
AI助手：自动准备BCP摘要和DR检查表。
责任文化：培训，"游戏日"，回顾展。

16) FAQ

Q： BCP与DRP有何不同?

答：BCP更广泛：涵盖人员、流程、沟通、合作伙伴和基础设施。DRP是IT系统恢复的技术计划。

Q：如何经常更新BCP?

答：每次重大架构变更、事件发生后，或每6个月至少1次。

问：是否需要包括合作伙伴？
A：是的。PSP、KYC和工作室是连续性链的一部分，必须有自己的OLA和BCP协议。

运营和管理→业务流程连续性

业务流程连续性（BCP）

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目