GH GambleHub

业务连续性计划

1)目标,领域和原则

目标:确保关键服务(存款,投注/游戏,结论,KYC/AML,sapport)在中断时继续进行,并在不违反许可证和合同的情况下快速恢复。
领域:在线平台,支付回路,反亲和力/CUS,DWH/BI,札幌服务,运营和法律功能,关键供应商(PSP/KYC/云/CDN/工作室/聚合器)。
原则是:安全第一,玩家第一,调节正确性,RTO/RPO最小化,简单降级模式,可证明性和常规练习。

2) BIA-业务影响分析

定义关键流程、输入/输出、依赖性、"手动"替代方案和目标RTO/RPO。

BIA片段的示例(YAML):
yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]

3)脚本/威胁(风险→影响→响应)

这些:云区域下降,DB失败,群集丢失,DDoS攻击,CDN故障。
供应商:PSP/KYC退化,与游戏聚合器破裂,无法进行反植物/制裁筛选。
网络:计费/密钥的损害,ransomware,PII泄漏。
过程/人员:罢工/疾病,主要专业人员的离职,发布错误。
地理/不可抗力:电信/电力中断,军事/制裁风险,域/交通阻塞。

每个:触发器、升级阈值、控制措施、服务降级和通信模式。

4)可持续发展架构和战略

按区域主动活动/主动站立;基础设施作为代码,用于快速提升。
降级模式:仅阅读店面,关闭非关键游戏提供商,付款限制,带有延迟结帐的"仅存款"(如果法律允许),降低分析/ETL频率。
交通管理:Anycast CDN、地理平衡、健康检查、金丝雀路由。
数据:PITR备份,更改日志,区域间复制,密码完整性(哈希/WORM)。
钥匙/秘密:独立的按区域KMS,带有日志记录的"断面玻璃"。
PSP/KYC多户:自动收发器,通过SLA/潜伏路由。

5)指挥结构(事件指挥系统)

事件指挥官(IC)-单一决策点。
Ops Lead(SRE/Platform)-技术稳定,操纵器和度量标准。
Business Continuity Lead-协调流程/手动过程。
Comms Lead-外部/内部通知(玩家、合作伙伴、监管机构)。
安全/DPO-网络事件/隐私,监管窗口。
Payments/KYC Leads-PSP/KYC脚本。

Liaisons: Legal, Support, VIP/CRM, Data/BI.

规则:每个事件一个IC,明确的渠道和决策逻辑。

6)通讯计划

频道:战争室(聊天/桥梁),备用通信(电话/无线电/备用信使),预先验证的PSP/KYC/银行联系人。
外部消息模板:状态页面,社交网络,电子邮件/推送;语气-事实,时机,下一步。
监管者和合作伙伴:预设地址,通知的SLA;商定的措辞。
玩家:透明的ETA,补偿/奖金(如果适用),降级期间的常见问题解答。

7)运营计划(Runbooks)

片段的示例:

7.1 Feilover到另一个地区

yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"

7.2 PSP降解

yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter

7.3 KYC提供商不可用

yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch

8) IT和数据恢复(DR)

系统类别:Tier-1(平台/支付/CUS),Tier-2(游戏/分析),Tier-3(内部)。
上升顺序:set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika。
完整性检查:校验和、日志/复制验证、事务核对(重新认证)。
DR测试:每年完整(交换机),季度部分;记录实际的RTO/RPO。

9)人员,办公室和物流

远程就绪:备用笔记本电脑/调制解调器、SSO/MFA访问、IC的"红色"访问。
备用地点:备用办公室/联合办公室,通行证清单,疏散计划。
轮换:能力矩阵,关键角色的重复,替代计划。
关键通信/电力提供商:联系人,SLA,发电机/UPS(如果相关)。

10)供应商和供应链

合同中的BCP/DR要求:RTO/RPO,强制性测试,审计权和联合演习。
子处理器注册表:联系人、外卖计划、离岸时数据删除/导出确认。
Tier-1季刊:事件,DR协议,证书状态,SLA。

11)培训、演习和测试

每季度一次Tabletop:PSP/KYC/云/网络脚本。
技术教义:DR部分/完整;DDoS/CDN切换;"kill-switch"提供商的SDK。
沟通演习:新闻稿/状态更新/监管信。
回顾展:时间线,RCA,CAPA,运行手册更新和BIA。

12)度量(KPI/KRI)

RTO/RPO事实(根据Tier-1):符合目标≥ 95%。
MTTD/MTTR:下降趋势;重大事件的MTTR ≤目标。
Failover成功:不丢失数据/订单/投注,≤ X地雷降级。
Coverage练习:≥ 2个完整的DR测试/年度+4个平台。
通讯:第一次更新前的时间≤ 15分钟,根据政策进行更新的频率。
Vendor resilience: 12个月内经确诊的DR测试的Tier-1份额为100%。

13)RACI(集合)

活动ICSRE/PlatformSecurity/DPOPaymentsRisk/KYCProductSupport/CRMLegal/ComplianceComms/PRData/BI
事件公告A/RRRRRCCCCC
技术稳定/操纵器CA/RCCCCIIIC
PSP/KYC路由CCIA/RA/RCIIII
沟通方式AICCCCCCRI
监管通知IIA/RCCIIRII
后太平间/SARAA/RRRRRRRCCR

14)支票单

14.1 Ready-to-Failover

  • 当前IC/供应商/监管机构的联系人
  • 复制健康,常规PITR备份
  • 已验证SDK/webhook的"kill-switch"
  • 经过健康检查的流量管理器(GSLB/CDN)
  • 状态/信件模板和出版权
  • Runbooks and Access (SSO/MFA)每月验证

14.2事件发生时

  • 分配给IC,打开战争室,开始解决方案
  • 分类(P1/P2),情景选择和降解
  • Techdiejia (failover/Limits/停机)
  • 第一次公开升级≤ 15分钟
  • SLA监管/合作伙伴通知
  • 为后太平间捕获文物

14.3事件发生后

  • RCA和CAPA的后太平间
  • 更新了BIA/阈值/例行程序
  • 培训/转售假货,bordu报告
  • 财务/这一对账(重新调整)

15)模板(片段)

15.1个脚本卡

yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]

15.2到状态页的消息


[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.

16)文档和版本管理

在存储库中验证BCP/Runbooks,更改日志,文档的所有者。
修订时间(Tier-1每季度),控制离线副本的可用性。
存储演习/事件文物和绩效指标。

17)实施路线图(6-8周)

1-2周:BIA和关键流程,RTO/RPO目标,脚本和所有者列表。
3-4周:可持续性和退化模式体系结构,运行手册,通信模式,联系人。
5-6周:与供应商集成(PSP/KYC/云),试点演习(tabletop+部分DR),调整。
第7周至第8周:完整的DR测试(如果可能的话),季度演习周期的启动,董事会报告和监管套餐(如果需要)。

18)相关的wiki部分

风险注册表,事件和泄漏,DR/BCP测试,TPRM和SLA,ISO 27001/27701,SOC 2,PCI DSS,IGA/RBAC/Least Privilege,Logs/WORM策略-用于单个稳定性和可证明性回路。

TL;DR

有效的BCP=BIA→RTO/RPO→stsenarii和degradatsii→multi供应商/多区域+清晰的事件命令,通信和演习。保持文档的活力,定期进行测试-甚至大故障也不会阻止业务或影响许可证。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。