業務と→経営の継続性
事業継続性(BCP)
1) BCPとは何か、なぜ必要なのか
BCP (Business Continuity Planning)は、データセンターの障害からプロバイダの危機、データ漏洩、または突然の負荷増加まで、あらゆる障害におけるビジネスプロセスの安定性を確保するための体系的なアプローチです。
高負荷の製品(iGaming、フィンテック、マーケットプレイス)では、これはインフラだけでなく、信頼性の維持、規制上の義務の遵守、収益の保護に関するものです。
- 重要なサービスとデータの可用性を維持します。
- リカバリ時間(RTO)とデータ損失(RPO)を最小限に抑えます。
- 危機にあるチーム、コミュニケーション、外部パートナーの操作性を確保します。
- スタッフの応答および訓練を標準化して下さい。
2) BCPの主要な部品
1.BIA (Business Impact Analysis)-失敗がプロセスやビジネスに与える影響を評価します。
2.リスクとシナリオは、脅威(インフラ、外部、人間)のマトリックスです。
3.ターゲットRTO/RPO:回復と損失のターゲット。
4.復旧計画(DRP)-システムとプロセスを再起動するための詳細な手順。
5.コミュニケーション-内部および外部チャンネル、通知テンプレート。
6.テストとリビジョン-定期的なチェック、演習、分析後。
7.ドキュメントとバージョン管理-一元化されたアクセスと関連性。
3)影響分析(BIA)
BIAは、どのプロセスが重要であり、どのように迅速に復元されるべきかを決定します。
メソッド:1.すべてのビジネスプロセスのリスト(支払い、賭け、ゲーム、KYC、サポート)。
2.依存関係(サービス、データ、プロバイダ、従業員)を定義します。
3.失敗の影響評価:財政、法的、評判、運用。
4.各プロセスにRTO/RPOを設定します。
5.優先順位付け:「Must Have」、 「Should Have」、 「Nice to Have」。
例:4)リスクマトリックス
5) RTO、 RPOおよびcriticalityのレベル
Recovery Time Objective (RTO)-リカバリ前にどれくらいの時間が許されるか。
Recovery Point Objective (RPO)-データがどれだけ失われるか。
6) DRP(災害復旧計画)
目標は、迅速かつ一貫したシステムリカバリを確保することです。
ステップ:1.シナリオ(データセンターの災害、PSPの障害、主要な妥協、ネットワークの損失)を特定します。
2.各スクリプト-既製のステップバイステップのプレイブック。
3.DRインフラストラクチャをサポート:バックアップクラスタ、データベースレプリカ、CDN/edge。
4.定期的にRTO/RPOとフェイルオーバー手順をテストします。
5.すべての命令を単一のバージョン管理リポジトリに保存します。
DRテンプレートの例:
Scenario: EU region falls
RTO: 30 min RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking
7)チームと役割の組織化
BCPコーディネーター:プログラムの所有者、監査およびテストを整理します。
DRリード:DR計画の技術的実施を担当。
ドメイン所有者:プロセス(支払い、ゲーム、KYC)の継続性を確保します。
コミュニケーションチーム:内部/外部通知およびステータスプラットフォームの責任者。
人事/管理者:人事(リモート、コミュニケーション、アクセス)のためのBCP。
法的/コンプライアンス:規制上の通知と法的措置。
8)危機におけるコミュニケーション
ルール:- チャンネルと冗長連絡先をクリアします。
- 最初のアップデートは、インシデントから15分以内です。
- コミュニケーション、事実、ETAの統一されたトーン。
- インシデントが終了するまで、N分ごとに更新されます。
- 回復の後-報告と死後。
[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.
9)テストおよびドリル
技術:フェイルオーバーテスト、データベースリカバリ、DDoSシミュレーション。
手術室:ハンドオーバー/ロール変更チーム。
完全なBCP演習:「ブラックアウト」シナリオまたはプロバイダが利用できない。
- DRテスト-四半期ごと;
- BCP-full-scale exercise-年に1-2回。
- ドキュメント:結果、RTO/RPOからの逸脱、改善アクション。
10)指標とKPI
RTO準拠: ターゲット≤復元されたプロセスの%
RPO準拠:データ損失のないプロセスの%>ターゲット。
DRテスト成功率:回復手順の成功したテスト。
BCPカバレッジ:最新の計画を持つプロセスの割合(>90%)。
Comms SLA:最初の要約≤ 15分、ETAの更新。
Postmortem SLA: 72時間の≤分析で100%重要なイベント
11)ドキュメントと知識管理
単一のBCPストレージ(バージョン、所有者、リビジョンの日付)。
バージョン管理:少なくとも6ヶ月に1回はリビジョン。
可用性:オフラインコピーおよびバックアップ通信チャネル(テレコム/インスタントメッセンジャーを含む)。
統合:SOP、インシデントプロセス、運用ダッシュボードのBCPへの参照。
リスクレジスタとセキュリティポリシーとの同期。
12) 30/60/90-実施計画
30日:- BCP所有者と重要なプロセスを特定します。
- 基本的なBIAと分類(RTO/RPO)を実行します。
- リスクマトリックスとインシデントシナリオのカタログを作成します。
- 優先サービスのためのDRPテンプレートと最初のバージョンを開発します。
- パイロットDRテスト(フェイルオーバー、データベースのリカバリ)を実施します。
- コミュニケーションテンプレートとロール配布を準備します。
- BCPドキュメントとSOP統合の単一のリポジトリを作成します。
- トレーニングチームと通話担当者を開始します。
- チーム間のBCP演習を実施します。
- RTO/RPOおよびKPI指標の遵守を監査します。
- BCPプロセスの修正と自動化の計画を確定します。
- 四半期ごとのOKRおよび内部セキュリティレビューにBCPを含める。
13)アンチパターン
「BCP for show only」:実際のテストなし、所有者なし。
現在のアーキテクチャと一致しない古いDR命令。
未確認の通信チャネルと連絡先。
非アクティブな依存関係(PSP、 CDN、 KYCプロバイダ)。
故障後の死後の欠如。
ネットワークが低下すると、BCPへのオフラインアクセスはありません。
14) BCPドキュメント構造の例
1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history
15)他のセクションとの統合
運用分析:ヘッドルームとインシデント指標の劣化。
通知とアラートシステム:BCPプロシージャをトリガーする初期のシグナル。
管理倫理:透明なレポートと正直なテスト。
AIアシスタント:BCPサマリーとDRチェックリストの自動作成。
責任の文化:トレーニング、「ゲームの日」、レトロスペクティブ。
16) FAQ
Q: BCPはDRPとどう違うのですか?
A: BCP-広範囲:人、プロセス、コミュニケーション、パートナー、インフラストラクチャをカバーします。DRP-ITシステム復旧のための技術計画。
Q: BCPを更新する頻度はどのくらいですか?
A:すべての主要なアーキテクチャの変更後、インシデントまたは少なくとも1 6ヶ月ごとに。
Q:パートナーを含める必要がありますか?
A:はい。PSP、 KYC、スタジオ-継続性チェーンの一部は、OLAおよびBCP契約を締結している必要があります。