GH GambleHub

Disaster Recoveryコールドバックアップ

概要

DRは、大規模災害後にビジネス機能を復元する能力です。コールドバックアップ-「防御の最後の行」:サイトの完全な非エネルギー化または妥協の場合の回復に適した変更不可/分離されたコピー。戦略は、RTO/RPO、システムの優先順位付け、年次DR演習、厳格な運用規律(カタログ、キー、チェック)を中心に構築されています。

利用規約と目的

RPO (Recovery Point Objective)-最大許容データ損失(例≤ 15分)。
RTO (Recovery Time Objective)-最大許容回復時間(例:≤ 2時間)。
ブラックスタート-ベアメタルリカバリ:ハードウェア/クラスタ/シークレット/データ/DNS。
エアギャップ-コピー(テープ/無効アカウント/オフラインメディア)の物理的/論理的分離。
不変性(WORM)-不変ストレージ(ロック/保持付きテープ/オブジェクト)。

DR可用性レベル

コールドサイト-インフラストラクチャが欠落/凍結されています。RTO:時間-日;最も安いCAPEX/OPEX。
暖かいサイト-テンプレート/画像/部分的に終了したサービス。RTO:数十分の時間。
ホットサイト-アクティブなレプリカ;RTO:分;より高価で複雑です。
ハイブリッド:カーネル→ホット/ウォーム、その他のすべて→コールド(起動時に優先)。

コールドバックアップが不可欠な場所

大規模な暗号侵害/ドメイン侵害。
すべてのレプリカに行ったデータの破損。
地域/データセンターの損失、不可抗力(火災、洪水)。
特権アカウントからの意図的な削除/妨害行為。

コールドバックアップトポロジ

1.メディア/ストレージクラス

テープ(LTO-8/9):低コスト、デフォルトのエアギャップ、大容量、シーケンシャルアクセス。
オフラインディスク/NAS:「セーフケース」、バックアップ/復元ウィンドウにのみ接続します。
アーカイブされたオブジェクトクラス(氷河のような):ストレージ価格が低く、抽出時間が長くなります。

2.[配置]

その他のサイト/地域;他のプロバイダ/アカウント;個々のキー/管理者。

3.イミュータビリティ

WORM/Object Lock (Compliance/Governance)テープの保持と法的保持。

ポリシー3-2-1-1-0(寒さに焦点を当てて)

データの3コピー(prod+local backup+offsite)。
2異なるメディア(ディスク/テープ/オブジェクト)。
1オフサイト(他のサイト/クラウド)。
1不変(WORM/エアギャップ)。
0チェックエラー(チェックサム/定期テストのリカバリ)。

ディレクトリ、メタデータ、整合性制御

バックアップカタログ:What、 where、 version、 keys、 check amount、 retention period。
アセットカタログ-サービス→依存関係→ボリューム/バケット→優先度。
チェックサムとマニフェストファイル:和解の書き込みと復元。
カナリアファイル:メディアの問題を早期に検出するための定期的な復元。

暗号化とキー

残り(テープ/オブジェクト)と飛行中(コピー)の暗号化。
マスターキー、回転のための二重制御、オフライン金庫が付いているKMS/Vault。
セールス/バックアップ/アーカイブのキーを分離します(ブラスト半径を最小化)。
DR中の重要なアクセスプロセス(要件、役割、ログ)を文書化。

DR計画の優先順位付けと一貫性

プライオリティマップ(例):

1.識別とアクセス:IdP(最小ゾーン)、Vault/KMS、ネットワークコア。

2.データおよび制御平面:etcd K8s、構成、シークレット、イメージレジスタ、デプロイアーティファクト。

3.トランザクションデータベース/ウォレット:logs+latest full/incremental。

4.支払/統合ゲートウェイ:キー、証明書、IP/DNS。

5.Web/api fronts:カナリア起動、オブジェクトからの静的コンテンツ。

6.分析/レポート:コア完了時。

シーケンスの復元(ブラックスタート):

1.インフラストラクチャ:ネットワーク、DNS/Anycast、カーネルIAM、ベースイメージ/クラスタ。

2.秘密/証明書:コールドバックアップからVault/KMSを復元し、ブートストラップの秘密を配布します。

3.コントロールプレーン:etcd/Control Plane/レジスタ/リポジトリ。

4.データ:(RPOによる)ログからコールドバックアップ+PITRからデータベースを展開します。

5.アプリケーション:ツリーの依存関係を起動し、キャッシュ/CDNをウォームアップします。

6.テストと検証:健康テスト、一貫性、チェックサム。

7.トラフィックスイッチング:DNS/ルーティング/バランサ(フェーズ/カナリア)。

8.ポストチェック:リーク/借金、ロギング、DR行為はありません。

コールドリストア手順(典型的な)

テープ:インベントリ、ダウンロード、パラレルストリーム、ファイルマップ→ディレクトリ→回復タスク;検索時間と巻き戻し時間を計算します。
アーカイブクラス:抽出要求(分→時間)、ホットストレージへのステージング、マニフェストによる復元。
オフラインディスク:読み取り専用接続、チェックサムチェック→コピー。
練習:修復のための分離されたサンドボックス、その後、本番環境に転送します。

コミュニケーションと組織。DRの構造

インシデントコマンダー、Tech Lead (Infra)、 DB Lead、 App Lead、 Comms、 Security。
チャンネル:バックアップ(企業ドメイン外)、音声/チャット、SecureDocs。
メッセージテンプレート:クライアント/パートナー/レギュレータへ;更新頻度;単一の「真実の源」。
統合イベントログ:タイムライン、ソリューション、所有者。

DNS、ネットワーク、トラフィック

分割脳保護:構成の「DRモード」フラグ;限られた機能のためのfeature-flags。
DNS戦略:先立って低いTTL、独立したDNSプロバイダ;ステップ変更A/AAAA/CNAME、 CDNをウォームアップします。
ルーティング:Anycast/Geo、 DRサイトからのBGP発表;ACL/ファイアウォールはIaCから再構成されます。

DR用SLO

RPOは時間の≥ 99%を満たしました(目標内のログ/増分の遅れ)。
RTOブラックスタート(フルシナリオ)テストのターゲット≤(例えば、4時間)四半期に一度。
DR演習の成功-重要なタスクの100%がウィンドウで完了します。
不変性-Retention/Lock=100%のバックアップの共有。
整合性チェック-スケジュールに応じて100%;メディア障害→移行チケット。

テストとエクササイズ

Table-top:スクリプト、ロール、チェックリスト、連絡先リスト。
テクニカル:チェックサムと一貫性の検証とサンドボックスへのデータベース/ファイル/秘密の選択的回復。
ブラックスタートドリル:1回/4分の1(または1回/6ヶ月)-DRサイトでカーネルを完全に起動します。
死後:事実、ボトルネック、改善計画(SLO/プロセス/自動化)。

オートメーションとアーティファクト

IaC:クラスタ、ネットワーク、スタック-コード;DRブランチ/パラメータ。
Runbooks:コンポーネント別コンポーネント(Vault/KMS、 etcd、 DB、ゲートウェイ、フロント)。
DRパッケージ:キードックのオフラインコピー(連絡先、スキーム、安全なフレーズのパスワード)、物理的なアクセス手順。
カナリア復元:毎日の小さな復元とチェックサム和解。
タグ/タグ:「DR-critical」、 「Warm-only」、サービス/ボリュームの「Cold-only」。

実装チェックリスト

  • データクラスとそのRPO/RTOはビジネスと一致します。リカバリの優先度が定義されています。
  • コールドバックアップを実装:メディア、不変性(WORM/オブジェクトロック)、オフサイト/エアギャップ。
  • カタログ:資産、バックアップ、キー;金額とバージョン管理をチェックします。
  • ブラックスタートプロシージャ:ネットワーク/DNS、 IdP/Vault/KMS、制御平面、データ、applayer。
  • 演習:テーブルトップ四半期;カナリアは毎日復元します。black-start 1回/四半期-6ヶ月。
  • コミュニケーションと規制のテンプレート;別の通信チャネル。
  • DRのSLO/メトリック/アラート;管理者への報告。
  • プロバイダ(テープ/アーカイブクラス/DNS/CDN)との契約、SLAの確認。
  • ファイナンス:メディア/アーカイブ予算、物流、メディアの交換時間による。

よくあるエラー

「レプリカがあります-バックアップは必要ありません→」論理エラー/ランサムウェアはどこにでも残されます。
不変性/エアギャップ→すべてのコピーを妥協するための単一のベクトルはありません。
カタログ/チェック金額の不足→「何か」を復元しましたが、そうではありません。
DNS TTLは大きすぎる→複数日のトラフィック移行。
同じドメイン/アカウントのキー/KMS→インシデントのアクセスをブロックします。
演習のみ「紙に」→RTO/RPOは確認されていません。

iGaming/fintech固有の

財布/支払の中心:厳密なRPO (≤ 1-5分)およびRTO (≤ 15-60分);WORMを使用してオブジェクトにログを記録します。透明なコミュニケーションのためのDR関数「読み取り専用バランス」。
PSP/コンテンツプロバイダ:事前に合意されたDR-IP/ドメイン、ホワイトリスト、証明書、HMAC/mTLSキー-DRパケット内のコピー。
レポート/レギュレータ:通知テンプレート、変更のないアーカイブ、証明可能な整合性、アクティビティログ。
ピークとイベント:DR準備は主要なトーナメント/プロモーションの前にチェックされます。カナリア復元とCDN温暖化。

ミニランブックテンプレート

1) ヴォールト/KMSブラックスタート(コンセプト):

1.DRクラスタの初期化、unseal (dual-control)キーのロード。

2.ストレージのバックアップ(コールドコピー)を復元します。

3.ポリシーのチェック、CI/CD/K8sのためのブートストラップの秘密の発行。

2) PostgreSQL DR (PITR独自のコールドバックアップ):

1.空のインスタンスを展開し、コールドから完全に復元します。

2.ターゲット・モーメントにWALログ(増分)をアップロードします。

3.一貫性チェック、レプリケーションを有効にし、読み取り専用を開き、読み取り/書き込みを行います。

3) DNS/トラフィック:

1.計画されたリスクに24〜72時間でTTLを削減します(または常に低く保ちます)。

2.チェックリスト、エラー/レイテンシ監視でA/AAAA/CNAMEを切り替えます。

3.段階的なトラフィック増加(カナリア5%→25%→100%)。

[結果]

コールドバックアップに基づく信頼性の高いDRは次のとおりです。不変の絶縁コピー、正式化されたブラックスタート手順、明確なRPO/RTO、定期的な演習、よく考えられたDNS/ネットワーク戦略、および重要な規律。すべてをIaCとランブックにコミットし、整合性チェックとカナリリストアを自動化します。最悪のシナリオが発生した場合でも、リカバリへのパスは常に制御されます。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。