ビジネス継続性プラン
1)目的、範囲および原則
目的:ライセンスや契約に違反することなく、障害や迅速な回復の場合に重要なサービス(預金、賭け/ゲーム、結論、KYC/AML、サポート)の継続を確保する。
エリア:オンラインプラットフォーム、決済ループ、不正防止/CUS、 DWH/BI、サポート、運用および法的機能、キーベンダー(PSP/KYC/クラウド/CDN/スタジオ/アグリゲーター)。
原則:安全第一、プレーヤー第一、規制の正確性、RTO/RPOの最小化、単純な劣化モード、証明性および定期的な演習。
2) BIA-ビジネス・インパクト分析
重要なプロセス、入力/出力、依存関係、手動代替、およびターゲットRTO/RPOを特定します。
BIAフラグメント(YAML)の例:yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3)リスク→影響→対応
クラウド領域クラッシュ、データベース障害、クラスタ損失、DDoS攻撃、CDN障害。
ベンダー:PSP/KYCの劣化、ゲームアグリゲーターでのブレーク、不正防止/制裁スクリーニングのアクセス不能。
サイバー:アカウント/キーの妥協、ランサムウェア、PIIリーク。
プロセス/人:ストライキ/病気、主要な専門家の出発、リリースエラー。
地理/不可抗力:通信/エネルギー停止、軍事/制裁リスク、ドメイン/トラフィックの閉塞。
それぞれ:トリガー、エスカレーションしきい値、制御対策、サービスの劣化、通信テンプレート。
4)サステナビリティアーキテクチャと戦略
アクティブ/アクティブ/スタンバイ領域。迅速な上昇のためのコードとしてのインフラ。
劣化モード:読み取り専用ショーケース、非クリティカルなゲームプロバイダの切断、支払限度額「のみ」、遅延キャッシュアウト(法的に許容されている場合)、分析/ETL頻度の低下。
トラフィック管理:Anycast CDN、ジオバランシング、ヘルスチェック、カナリアルーティング。
データ:PITRバックアップ、変更ログ、リージョン間レプリケーション、暗号整合性(ハッシュ/WORM)。
キー/シークレット:リージョンごとに独立したKMS、ロギング付きの「ブレークガラス」。
PSP/KYCマルチホーミング:自動フェイルオーバー、SLA/レイテンシルーティング。
5)インシデントコマンドシステム
インシデントコマンダー(IC)-単一の決定ポイント。
Ops Lead (SRE/Platform)-技術安定化、feilover、メトリクス。
ビジネス継続性リード-プロセス/手動手順の調整。
Comms Lead-外部/内部通知(プレーヤー、パートナー、レギュレーター)。
セキュリティ/DPO-サイバーインシデント/プライバシー、規制のウィンドウ。
支払い/KYCリード-PSP/KYCシナリオ。
Liaisons:法律、サポート、VIP/CRM、 データ/BI。
ルール:インシデント、クリアチャネル、意思決定ログごとに1つのIC。
6)コミュニケーションプラン
チャンネル:ウォールルーム(チャット/ブリッジ)、バックアップ接続(電話/ラジオ/alt-messenger)、事前にチェックされたPSP/KYC/銀行の連絡先。
外部メッセージテンプレート:ステータスページ、ソーシャルネットワーク、電子メール/プッシュ;トーン-事実、タイミング、次のステップ。
レギュレータとパートナー:プリセットアドレス、SLA通知;合意された言葉遣い。
プレーヤー:透明なETA、補償/ボーナス(該当する場合)、劣化期間のFAQ。
7)運用計画(ランブック)
フラグメントの例:7.1別の地域へのFeilover
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7.2 PSPの劣化
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7.3 KYCプロバイダが利用できません
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) ITとデータ復旧(DR)
システムカテゴリ:Tier-1 (プラットフォーム/決済/CCM)、 Tier-2(ゲーム/分析)、Tier-3(内部)。
持ち上がるプロシージャ:set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika。
整合性チェック-チェックサム、ログ/レプリケーション検証、トランザクションの調整。
DRテスト: 毎年フル(スイッチオーバー)、四半期ごとに部分的。実際のRTO/RPOのコミット
9)人、オフィスおよび兵站学
リモート対応:冗長ノートパソコン/モデム、SSO/MFA経由のアクセス、IC用の「赤い」アクセス。
別の場所:スペアオフィス/コワーキングスペース、パスリスト、避難計画。
シフトの回転:能力行列、重要な役割の複製、交換計画。
重要な通信/エネルギープロバイダ:連絡先、SLA、発電機/UPS(該当する場合)。
10)ベンダーとサプライチェーン
契約におけるBCP/DR要件:RTO/RPO、必須テスト、監査権および共同演習。
サブプロセッサの登録:連絡先、停止計画、オフボーディング時のデータ削除/エクスポートの確認。
第1四半期レビュー:インシデント、DRプロトコル、認証ステータス、SLA。
11)訓練、ドリルおよびテスト
四半期に一度卓上:PSP/KYC/クラウド/サイバーシナリオ。
技術演習:DR partial/full;DDoS/CDNスイッチング;「kill-switch」 SDKプロバイダ。
コミュニケーションドリル:プレスリリース/ステータスの更新/規制文字。
レトロスペクティブ:タイムライン、RCA、 CAPA、 runbooks update、 BIA。
12)指標(KPI/KRI)
RTO/RPO実際(Tier-1によると):95% ≥目標を達成します。
MTTD/MTTR:下降トレンド;重大事件のMTTR ≤標的とされる。
Feiloverの成功:データ/注文/レートを損なうことなく、≤ X分の劣化。
適用範囲の練習:≥ 2完全なDRテスト/年+4卓上。
コミュニケーション:最初の更新への時間≤ 15分、ポリシーに従って更新の頻度。
ベンダーの回復力:12か月の確認されたDRテストのTier-1のシェアは100%です。
13) RACI(拡大)
14)チェックリスト
14.1 Ready-to-Failover
- 現在のIC/ベンダー/レギュレータの連絡先
- レプリケーションの健全性、通常のPITRバックアップ
- SDK/Webhookキルスイッチ検証済み
- 健全性チェックを検証したトラフィックマネージャ(GSLB/CDN)
- ステータス/レターテンプレートと発行権
- 毎月レビューされたランブックとアクセス(SSO/MFA)
14.2事件発生時
- 割り当てられたIC、戦争部屋の開いた、決定のログ開始
- 分類(P1/P2)、シナリオの選択と劣化
- テクニカルアクション(feilover/limits/切断)
- 最初の公開更新≤ 15分
- SLA規制/パートナー通知
- 死後のアーティファクトのキャプチャ
14.3事件発生後
- RCAとCAPAによる死後
- BIA/しきい値/ルーチンを更新しました
- トレーニング/リテストの修正、ボードレポート
- 財政/和解
15)テンプレート(フラグメント)
15.1スクリプトカード
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15.2ステータスページへのメッセージ
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16)ドキュメントおよびバージョン管理
リポジトリ内のBCP/Runbooksのバージョン管理、change-log、 document owner。
改訂期間(Tier-1の四半期)、オフラインコピーの可用性の制御。
ドリル/インシデントのアーティファクトとパフォーマンス指標を格納します。
17)導入ロードマップ(6〜8週間)
週1-2: BIAと重要なプロセス、RTO/RPOの目標、シナリオと所有者のリスト。
週3-4:安定性と劣化モードのアーキテクチャ、ランブック、通信テンプレート、連絡先。
週5-6:ベンダー統合(PSP/KYC/クラウド)、パイロットエクササイズ(卓上+部分DR)、調整。
週7-8:完全なDRテスト(可能であれば)、四半期ごとの運動サイクルの開始、取締役会報告書と規制パッケージ(必要な場合)。
18)関連するwikiセクション
リスクレジスタ、インシデントおよびリーク、DR/BCPテスト、TPRMおよびSLA、 ISO 27001/27701、 SOC 2、 PCI DSS、 IGA/RBAC/Lest Privilege、 ログポリシー/WORM-堅牢性と実証性。
TL;DR(ドクター)
効果的なBCP=BIA→RTO/RPO→stsenariiとdegradatsii→マルチベンダー/マルチリージョン+クリアインシデントコマンド、通信および演習。文書を生かし、定期的にテストしてください。大きなクラッシュでも、ビジネスを停止したり、ライセンスをヒットさせたりすることはありません。