業務連續性計劃
1)目標,領域和原則
目標:確保關鍵服務(存款,投註/遊戲,結論,KYC/AML,sapport)在中斷時繼續進行,並在不違反許可證和合同的情況下快速恢復。
領域:在線平臺,支付回路,反親和力/CUS,DWH/BI,劄幌服務,運營和法律功能,關鍵供應商(PSP/KYC/雲/CDN/工作室/聚合器)。
原則是:安全第一,玩家第一,調節正確性,RTO/RPO最小化,簡單降級模式,可證明性和常規練習。
2) BIA-業務影響分析
定義關鍵流程、輸入/輸出、依賴性、「手動」替代方案和目標RTO/RPO。
BIA片段的示例(YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3)腳本/威脅(風險→影響→響應)
這些:雲區域下降,DB失敗,群集丟失,DDoS攻擊,CDN故障。
供應商:PSP/KYC退化,與遊戲聚合器破裂,無法進行反植物/制裁篩選。
網絡:計費/密鑰的損害,ransomware,PII泄漏。
過程/人員:罷工/疾病,主要專業人員的離職,發布錯誤。
地理/不可抗力:電信/電力中斷,軍事/制裁風險,域/交通阻塞。
每個:觸發器、升級閾值、控制措施、服務降級和通信模式。
4)可持續發展架構和戰略
按區域主動活動/主動站立;基礎設施作為代碼,用於快速提升。
降級模式:僅閱讀店面,關閉非關鍵遊戲提供商,付款限制,帶有延遲結帳的「僅存款」(如果法律允許),降低分析/ETL頻率。
交通管理:Anycast CDN、地理平衡、健康檢查、金絲雀路由。
數據:PITR備份,更改日誌,區域間復制,密碼完整性(哈希/WORM)。
鑰匙/秘密:獨立的按區域KMS,帶有日誌記錄的「斷面玻璃」。
PSP/KYC多戶:自動收發器,通過SLA/潛伏路由。
5)指揮結構(事件指揮系統)
事件指揮官(IC)-單一決策點。
Ops Lead(SRE/Platform)-技術穩定,操縱器和度量標準。
Business Continuity Lead-協調流程/手動過程。
Comms Lead-外部/內部通知(玩家、合作夥伴、監管機構)。
安全/DPO-網絡事件/隱私,監管窗口。
Payments/KYC Leads-PSP/KYC腳本。
Liaisons: Legal, Support, VIP/CRM, Data/BI.
規則:每個事件一個IC,明確的渠道和決策邏輯。
6)通訊計劃
頻道:戰爭室(聊天/橋梁),備用通信(電話/無線電/備用信使),預先驗證的PSP/KYC/銀行聯系人。
外部消息模板:狀態頁面,社交網絡,電子郵件/推送;語氣-事實,時機,下一步。
監管者和合作夥伴:預設地址,通知的SLA;商定的措辭。
玩家:透明的ETA,補償/獎金(如果適用),降級期間的常見問題解答。
7)運營計劃(Runbooks)
片段的示例:7.1 Feilover到另一個地區
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7.2 PSP降解
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7.3 KYC提供商不可用
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) IT和數據恢復(DR)
系統類別:Tier-1(平臺/支付/CUS),Tier-2(遊戲/分析),Tier-3(內部)。
上升順序:set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika。
完整性檢查:校驗和、日誌/復制驗證、事務核對(重新認證)。
DR測試:每年完整(交換機),季度部分;記錄實際的RTO/RPO。
9)人員,辦公室和物流
遠程就緒:備用筆記本電腦/調制解調器、SSO/MFA訪問、IC的「紅色」訪問。
備用地點:備用辦公室/聯合辦公室,通行證清單,疏散計劃。
輪換:能力矩陣,關鍵角色的重復,替代計劃。
關鍵通信/電力提供商:聯系人,SLA,發電機/UPS(如果相關)。
10)供應商和供應鏈
合同中的BCP/DR要求:RTO/RPO,強制性測試,審計權和聯合演習。
子處理器註冊表:聯系人、外賣計劃、離岸時數據刪除/導出確認。
Tier-1季刊:事件,DR協議,證書狀態,SLA。
11)培訓、演習和測試
每季度一次Tabletop:PSP/KYC/雲/網絡腳本。
技術教義:DR部分/完整;DDoS/CDN切換;「kill-switch」提供商的SDK。
溝通演習:新聞稿/狀態更新/監管信。
回顧展:時間線,RCA,CAPA,運行手冊更新和BIA。
12)度量(KPI/KRI)
RTO/RPO事實(根據Tier-1):符合目標≥ 95%。
MTTD/MTTR:下降趨勢;重大事件的MTTR ≤目標。
Failover成功:不丟失數據/訂單/投註,≤ X地雷降級。
Coverage練習:≥ 2個完整的DR測試/年度+4個平臺。
通訊:第一次更新前的時間≤ 15分鐘,根據政策進行更新的頻率。
Vendor resilience: 12個月內經確診的DR測試的Tier-1份額為100%。
13)RACI(集合)
14)支票單
14.1 Ready-to-Failover
- 當前IC/供應商/監管機構的聯系人
- 復制健康,常規PITR備份
- 已驗證SDK/webhook的「kill-switch」
- 經過健康檢查的流量管理器(GSLB/CDN)
- 狀態/信件模板和出版權
- Runbooks and Access (SSO/MFA)每月驗證
14.2事件發生時
- 分配給IC,打開戰爭室,開始解決方案
- 分類(P1/P2),情景選擇和降解
- Techdiejia (failover/Limits/停機)
- 第一次公開升級≤ 15分鐘
- SLA監管/合作夥伴通知
- 為後太平間捕獲文物
14.3事件發生後
- RCA和CAPA的後太平間
- 更新了BIA/閾值/例行程序
- 培訓/轉售假貨,bordu報告
- 財務/這一對賬(重新調整)
15)模板(片段)
15.1個腳本卡
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15.2到狀態頁的消息
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16)文檔和版本管理
在存儲庫中驗證BCP/Runbooks,更改日誌,文檔的所有者。
修訂時間(Tier-1每季度),控制離線副本的可用性。
存儲演習/事件文物和績效指標。
17)實施路線圖(6-8周)
1-2周:BIA和關鍵流程,RTO/RPO目標,腳本和所有者列表。
3-4周:可持續性和退化模式體系結構,運行手冊,通信模式,聯系人。
5-6周:與供應商集成(PSP/KYC/雲),試點演習(tabletop+部分DR),調整。
第7周至第8周:完整的DR測試(如果可能的話),季度演習周期的啟動,董事會報告和監管套餐(如果需要)。
18)相關的wiki部分
風險註冊表,事件和泄漏,DR/BCP測試,TPRM和SLA,ISO 27001/27701,SOC 2,PCI DSS,IGA/RBAC/Least Privilege,Logs/WORM策略-用於單個穩定性和可證明性回路。
TL;DR
有效的BCP=BIA→RTO/RPO→stsenarii和degradatsii→multi供應商/多區域+清晰的事件命令,通信和演習。保持文檔的活力,定期進行測試-甚至大故障也不會阻止業務或影響許可證。