Disaster Recoveryコールドバックアップ
概要
DRは、大規模災害後にビジネス機能を復元する能力です。コールドバックアップ-「防御の最後の行」:サイトの完全な非エネルギー化または妥協の場合の回復に適した変更不可/分離されたコピー。戦略は、RTO/RPO、システムの優先順位付け、年次DR演習、厳格な運用規律(カタログ、キー、チェック)を中心に構築されています。
利用規約と目的
RPO (Recovery Point Objective)-最大許容データ損失(例≤ 15分)。
RTO (Recovery Time Objective)-最大許容回復時間(例:≤ 2時間)。
ブラックスタート-ベアメタルリカバリ:ハードウェア/クラスタ/シークレット/データ/DNS。
エアギャップ-コピー(テープ/無効アカウント/オフラインメディア)の物理的/論理的分離。
不変性(WORM)-不変ストレージ(ロック/保持付きテープ/オブジェクト)。
DR可用性レベル
コールドサイト-インフラストラクチャが欠落/凍結されています。RTO:時間-日;最も安いCAPEX/OPEX。
暖かいサイト-テンプレート/画像/部分的に終了したサービス。RTO:数十分の時間。
ホットサイト-アクティブなレプリカ;RTO:分;より高価で複雑です。
ハイブリッド:カーネル→ホット/ウォーム、その他のすべて→コールド(起動時に優先)。
コールドバックアップが不可欠な場所
大規模な暗号侵害/ドメイン侵害。
すべてのレプリカに行ったデータの破損。
地域/データセンターの損失、不可抗力(火災、洪水)。
特権アカウントからの意図的な削除/妨害行為。
コールドバックアップトポロジ
1.メディア/ストレージクラス
テープ(LTO-8/9):低コスト、デフォルトのエアギャップ、大容量、シーケンシャルアクセス。
オフラインディスク/NAS:「セーフケース」、バックアップ/復元ウィンドウにのみ接続します。
アーカイブされたオブジェクトクラス(氷河のような):ストレージ価格が低く、抽出時間が長くなります。
2.[配置]
その他のサイト/地域;他のプロバイダ/アカウント;個々のキー/管理者。
3.イミュータビリティ
WORM/Object Lock (Compliance/Governance)テープの保持と法的保持。
ポリシー3-2-1-1-0(寒さに焦点を当てて)
データの3コピー(prod+local backup+offsite)。
2異なるメディア(ディスク/テープ/オブジェクト)。
1オフサイト(他のサイト/クラウド)。
1不変(WORM/エアギャップ)。
0チェックエラー(チェックサム/定期テストのリカバリ)。
ディレクトリ、メタデータ、整合性制御
バックアップカタログ:What、 where、 version、 keys、 check amount、 retention period。
アセットカタログ-サービス→依存関係→ボリューム/バケット→優先度。
チェックサムとマニフェストファイル:和解の書き込みと復元。
カナリアファイル:メディアの問題を早期に検出するための定期的な復元。
暗号化とキー
残り(テープ/オブジェクト)と飛行中(コピー)の暗号化。
マスターキー、回転のための二重制御、オフライン金庫が付いているKMS/Vault。
セールス/バックアップ/アーカイブのキーを分離します(ブラスト半径を最小化)。
DR中の重要なアクセスプロセス(要件、役割、ログ)を文書化。
DR計画の優先順位付けと一貫性
プライオリティマップ(例):1.識別とアクセス:IdP(最小ゾーン)、Vault/KMS、ネットワークコア。
2.データおよび制御平面:etcd K8s、構成、シークレット、イメージレジスタ、デプロイアーティファクト。
3.トランザクションデータベース/ウォレット:logs+latest full/incremental。
4.支払/統合ゲートウェイ:キー、証明書、IP/DNS。
5.Web/api fronts:カナリア起動、オブジェクトからの静的コンテンツ。
6.分析/レポート:コア完了時。
シーケンスの復元(ブラックスタート):1.インフラストラクチャ:ネットワーク、DNS/Anycast、カーネルIAM、ベースイメージ/クラスタ。
2.秘密/証明書:コールドバックアップからVault/KMSを復元し、ブートストラップの秘密を配布します。
3.コントロールプレーン:etcd/Control Plane/レジスタ/リポジトリ。
4.データ:(RPOによる)ログからコールドバックアップ+PITRからデータベースを展開します。
5.アプリケーション:ツリーの依存関係を起動し、キャッシュ/CDNをウォームアップします。
6.テストと検証:健康テスト、一貫性、チェックサム。
7.トラフィックスイッチング:DNS/ルーティング/バランサ(フェーズ/カナリア)。
8.ポストチェック:リーク/借金、ロギング、DR行為はありません。
コールドリストア手順(典型的な)
テープ:インベントリ、ダウンロード、パラレルストリーム、ファイルマップ→ディレクトリ→回復タスク;検索時間と巻き戻し時間を計算します。
アーカイブクラス:抽出要求(分→時間)、ホットストレージへのステージング、マニフェストによる復元。
オフラインディスク:読み取り専用接続、チェックサムチェック→コピー。
練習:修復のための分離されたサンドボックス、その後、本番環境に転送します。
コミュニケーションと組織。DRの構造
インシデントコマンダー、Tech Lead (Infra)、 DB Lead、 App Lead、 Comms、 Security。
チャンネル:バックアップ(企業ドメイン外)、音声/チャット、SecureDocs。
メッセージテンプレート:クライアント/パートナー/レギュレータへ;更新頻度;単一の「真実の源」。
統合イベントログ:タイムライン、ソリューション、所有者。
DNS、ネットワーク、トラフィック
分割脳保護:構成の「DRモード」フラグ;限られた機能のためのfeature-flags。
DNS戦略:先立って低いTTL、独立したDNSプロバイダ;ステップ変更A/AAAA/CNAME、 CDNをウォームアップします。
ルーティング:Anycast/Geo、 DRサイトからのBGP発表;ACL/ファイアウォールはIaCから再構成されます。
DR用SLO
RPOは時間の≥ 99%を満たしました(目標内のログ/増分の遅れ)。
RTOブラックスタート(フルシナリオ)テストのターゲット≤(例えば、4時間)四半期に一度。
DR演習の成功-重要なタスクの100%がウィンドウで完了します。
不変性-Retention/Lock=100%のバックアップの共有。
整合性チェック-スケジュールに応じて100%;メディア障害→移行チケット。
テストとエクササイズ
Table-top:スクリプト、ロール、チェックリスト、連絡先リスト。
テクニカル:チェックサムと一貫性の検証とサンドボックスへのデータベース/ファイル/秘密の選択的回復。
ブラックスタートドリル:1回/4分の1(または1回/6ヶ月)-DRサイトでカーネルを完全に起動します。
死後:事実、ボトルネック、改善計画(SLO/プロセス/自動化)。
オートメーションとアーティファクト
IaC:クラスタ、ネットワーク、スタック-コード;DRブランチ/パラメータ。
Runbooks:コンポーネント別コンポーネント(Vault/KMS、 etcd、 DB、ゲートウェイ、フロント)。
DRパッケージ:キードックのオフラインコピー(連絡先、スキーム、安全なフレーズのパスワード)、物理的なアクセス手順。
カナリア復元:毎日の小さな復元とチェックサム和解。
タグ/タグ:「DR-critical」、 「Warm-only」、サービス/ボリュームの「Cold-only」。
実装チェックリスト
- データクラスとそのRPO/RTOはビジネスと一致します。リカバリの優先度が定義されています。
- コールドバックアップを実装:メディア、不変性(WORM/オブジェクトロック)、オフサイト/エアギャップ。
- カタログ:資産、バックアップ、キー;金額とバージョン管理をチェックします。
- ブラックスタートプロシージャ:ネットワーク/DNS、 IdP/Vault/KMS、制御平面、データ、applayer。
- 演習:テーブルトップ四半期;カナリアは毎日復元します。black-start 1回/四半期-6ヶ月。
- コミュニケーションと規制のテンプレート;別の通信チャネル。
- DRのSLO/メトリック/アラート;管理者への報告。
- プロバイダ(テープ/アーカイブクラス/DNS/CDN)との契約、SLAの確認。
- ファイナンス:メディア/アーカイブ予算、物流、メディアの交換時間による。
よくあるエラー
「レプリカがあります-バックアップは必要ありません→」論理エラー/ランサムウェアはどこにでも残されます。
不変性/エアギャップ→すべてのコピーを妥協するための単一のベクトルはありません。
カタログ/チェック金額の不足→「何か」を復元しましたが、そうではありません。
DNS TTLは大きすぎる→複数日のトラフィック移行。
同じドメイン/アカウントのキー/KMS→インシデントのアクセスをブロックします。
演習のみ「紙に」→RTO/RPOは確認されていません。
iGaming/fintech固有の
財布/支払の中心:厳密なRPO (≤ 1-5分)およびRTO (≤ 15-60分);WORMを使用してオブジェクトにログを記録します。透明なコミュニケーションのためのDR関数「読み取り専用バランス」。
PSP/コンテンツプロバイダ:事前に合意されたDR-IP/ドメイン、ホワイトリスト、証明書、HMAC/mTLSキー-DRパケット内のコピー。
レポート/レギュレータ:通知テンプレート、変更のないアーカイブ、証明可能な整合性、アクティビティログ。
ピークとイベント:DR準備は主要なトーナメント/プロモーションの前にチェックされます。カナリア復元とCDN温暖化。
ミニランブックテンプレート
1) ヴォールト/KMSブラックスタート(コンセプト):1.DRクラスタの初期化、unseal (dual-control)キーのロード。
2.ストレージのバックアップ(コールドコピー)を復元します。
3.ポリシーのチェック、CI/CD/K8sのためのブートストラップの秘密の発行。
2) PostgreSQL DR (PITR独自のコールドバックアップ):1.空のインスタンスを展開し、コールドから完全に復元します。
2.ターゲット・モーメントにWALログ(増分)をアップロードします。
3.一貫性チェック、レプリケーションを有効にし、読み取り専用を開き、読み取り/書き込みを行います。
3) DNS/トラフィック:1.計画されたリスクに24〜72時間でTTLを削減します(または常に低く保ちます)。
2.チェックリスト、エラー/レイテンシ監視でA/AAAA/CNAMEを切り替えます。
3.段階的なトラフィック増加(カナリア5%→25%→100%)。
[結果]
コールドバックアップに基づく信頼性の高いDRは次のとおりです。不変の絶縁コピー、正式化されたブラックスタート手順、明確なRPO/RTO、定期的な演習、よく考えられたDNS/ネットワーク戦略、および重要な規律。すべてをIaCとランブックにコミットし、整合性チェックとカナリリストアを自動化します。最悪のシナリオが発生した場合でも、リカバリへのパスは常に制御されます。