GH GambleHub

运营和管理→业务流程连续性

业务流程连续性(BCP)

1)什么是BCP,为什么需要

BCP(业务连续性规划)是一种系统化方法,用于确保业务流程在任何故障中都具有可持续性:从数据中心故障到提供商危机、数据泄露或负载突然增加。
在高负载产品(iGaming,fintech,市场)中,这不仅是关于基础设施-这是关于保持信任,遵守监管义务和保护收入。

目标是:
  • 保持关键服务和数据的可用性。
  • 最大限度地减少恢复时间(RTO)和数据丢失(RPO)。
  • 确保团队、沟通和外部合作伙伴在危机中正常工作。
  • 标准化响应和员工培训。

2)BCP的主要组件

1.BIA(业务影响分析)-评估故障对流程和业务的影响。
2.风险和情景-威胁矩阵(基础设施,外部,人为)。
3.RTO/RPO目标是恢复和允许损失的目标。
4.恢复计划(DRP)-重新启动系统和进程的详细步骤。
5.通讯-内部和外部渠道,通知模板。
6.测试和审计-定期检查,演习,后期分析。
7.文档和版本控制-集中访问和相关性。

3)影响分析(BIA)

BIA确定了哪些过程是关键的,以及恢复它们的速度有多快。

该技术:

1.所有业务流程列表(Payments、Bets、Games、KYC、支持)。

2.定义相关性(服务、数据、提供商、员工)。

3.评估拒绝的影响:财务,法律,声誉,运营。

4.为每个流程安装RTO/RPO。

5.优先级:"必须拥有","应该拥有","需要拥有"。

示例:
一个过程RTORPO简单时损坏>RTO业主
存款30分钟5分钟收入损失,玩家流出Payments Team
费率计算1小时10分钟声誉,用户投诉Bets Team
KYC检查4小时30分钟违反合规性Compliance

4)风险矩阵

风险类型示例概率影响力三.措施
基础设施数据中心的倒塌平均水平高个子DR环境,多区域
提供商PSP不可用高的平均水平费洛弗,替代路线
人类发布错误平均水平平均水平金丝雀,回滚
网络威胁Ransomware / DDoS低端高个子WAF,IAM,备用
监管机构冻结付款低端高个子法律DR计划,替代的PSP

5) RTO、RPO和临界水平

RTO(恢复时间目标):恢复前允许多少时间。
RPO(恢复点目标):可能会丢失多少数据。

流程类:
班级RTORPO示例
A(批评)≤ 30分钟≤ 5分钟付款,身份验证API
B(重要)≤ 4小时≤ 30分钟KYC游戏
C(支持)≤ 24小时≤ 2小时分析、报告
D(背景)>24小时>6小时存档、测试环境

6) DRP (Disaster Recovery Plan)

目的:确保系统快速一致地恢复。

步骤:

1.定义脚本(数据中心灾难、PSP故障、密钥损害、网络丢失)。

2.对于每个脚本-完成分步剧本。

3.支持DR基础架构:备份群集、DB副本、CDN/edge。

4.定期测试RTO/RPO和故障转移程序。

5.将所有语句存储在具有版本控制的单个存储中。

DR模板示例:

Scenario: EU region falls
RTO: 30 min    RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking

7)团队和角色的组织

BCP协调员:计划所有者,组织审核和测试。
DR领导:负责DR计划的技术实施。
域所有者:确保其过程的连续性(Payments、Games、KYC)。
通信命令:负责内部/外部通知和状态平台。
HR/Admin:员工的BCP(远程、通信、访问)。
法律/合规性:监管通知和法律措施。

8)危机中的沟通

规则:
  • 明确的渠道和备用联系。
  • 第一次升级是在事件发生后15分钟内。
  • 通信的统一基调,事实和ETA。
  • 事件结束前每N分钟更新一次。
  • 恢复后-报告和验尸。
升级模板:

[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.

9)测试和演习

技术:故障测试,DB恢复,DDoS模拟。
操作:手动/角色更改命令。
完整的BCP演习:"停电"脚本或提供商不可用。

规律性:
  • DR测试-每季度;
  • BCP全面教学每年进行1-2次。
  • 文件:结果,偏离RTO/RPO,改进行动。

10)度量和KPI

RTO合规性:恢复目标≤过程百分比。
RPO法规遵从性:不丢失数据>目标过程的百分比。
DR测试成功率:成功验证恢复过程。
BCP覆盖:具有当前计划的过程比例(>90%)。
Comms SLA:第一个摘要≤ 15分钟,ETA更新。
Postmortem SLA:100%关键事件分析≤ 72小时。

11)文档和知识管理

单个BCP存储(版本,所有者,修订日期)。
版本控制:至少每6个月审核一次。
可用性:离线拷贝和备用通信渠道(包括电信/信使)。
集成:在SOP、事件过程和操作仪表板中引用BCP。
与Risk Register和Security Policies同步。

12)30/60/90-实施计划

30天:
  • 确定BCP所有者和关键过程。
  • 执行基本的BIA和分类(RTO/RPO)。
  • 创建风险矩阵和事件脚本目录。
  • 开发DRP模板和优先服务的第一个版本。
60天:
  • 进行试点DR测试(failover,DB恢复)。
  • 准备通信模式和角色分配。
  • 创建一个BCP文档存储和SOP集成。
  • 开始团队培训和呼叫人员。
90天:
  • 进行团队间BCP演习。
  • 对RTO/RPO合规性和KPI度量进行审核。
  • 最终确定BCP流程的修订计划和自动化。
  • 将BCP纳入季度OKR和内部安全检查。

13)反模式

"BCP仅用于打勾":没有真正的测试和所有者。
与当前体系结构不匹配的过时DR语句。
未经验证的通信渠道和联系人。
未记录的依赖关系(PSP,CDN,KYC提供商)。
故障后缺乏验尸。
网络崩溃时无法离线访问BCP。

14) BCP文档结构示例


1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history

15)与其他部分的集成

操作分析:对头和降级到事件的指标。
通知和警报系统:启动BCP程序的早期信号。
管理伦理:透明报告和诚实测试。
AI助手:自动准备BCP摘要和DR检查表。
责任文化:培训,"游戏日",回顾展。

16) FAQ

Q: BCP与DRP有何不同?

答:BCP更广泛:涵盖人员、流程、沟通、合作伙伴和基础设施。DRP是IT系统恢复的技术计划。

Q: 如何经常更新BCP?

答:每次重大架构变更、事件发生后,或每6个月至少1次。

问:是否需要包括合作伙伴?
A:是的。PSP、KYC和工作室是连续性链的一部分,必须有自己的OLA和BCP协议。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。