インシデントシミュレーション
1)なぜシミュレーションを行うのか
インシデントシミュレーションは、チームが実際のプレイブックを使用して検出、診断、エスカレーション、回復を行う安全なトレーニングです。Ones:- より低いMTTD/MTTA/MTTRは、キックバックおよびfyloversの信頼を高めます;
- プロセスのギャップ(エスカレーション、コミュニケーション)とアーキテクチャの弱点を特定する。
- RCA→CAPAへの入力として機能し、ドキュメント(runbook/SOP)を改善します。
- SLA/規制/監査要件の準備状況を確認します。
2)シミュレーションフォーマット
卓上(卓上)-ボード/チャット上の会話スクリプト:安く、高速で、役割やコミュニケーションを実践するのに最適です。
ゲームデー(ステージでの演習/制限付き販売)-プレイブックの実用的な手順。販売-明確なゲートが付いている安全な、可逆的な行為だけ。
カオスエンジニアリング-安定性とSLOゲートをチェックするための制御障害(依存関係/ネットワーク/ノードの切断)。
DR演習(ディザスタリカバリ)-AZ/リージョンの障害、バックアップからのリカバリ、スイッチングプロバイダ。
Comms-drill-純粋にコミュニケーション:ステータスページ、メッセージテンプレート、PR/Legal。
3)役割と責任
インシデントコマンダー(IC)-決定を行い、計画を導き、エスカレーションを解除します。
技術リード(TL)-診断、技術的な「注射」と仮説。
Comms Lead (CL)-内部/外部更新、ステータスページ。
Scribe-プロトコル(タイムライン、アクション、意思決定、アーティファクト)。
オブザーバー/アセスメント-測定基準と手順の遵守を記録します。
Red Team(オプション)-予期しない「注射」を導入します。
4)シミュレーション成功指標
合成インシデントによるMTTD/MTTA/MTTR。
Comm SLA:アップデートの適時性と品質。
SLOガードレール:バーンレートに対する正しい反応、外部サンプルのクォーラム。
Runbook fidelity:ドキュメントごとに完了したステップの%、即興なし。
エスカレーションレイテンシー-希望のロール/プロバイダを接続する速度。
チェックリストのパスレート:「ready/accepted/closed」の遵守。
ノイズと疲労:余分なアラート、過負荷のオンコール。
CAPA完了:シミュレーション後に完了したアクションの割合。
5)準備: 開始前に必要なもの
目的と仮説:私たちがチェックするもの(プロセス、アーキテクチャ、人々)。
シナリオと「注射」:タイミングと症状/イベントのシーケンス。
セキュリティ制限:取り返しのつかない変更の禁止。元に戻すポイント。
データとスタンド:合成トラフィック、劣化機能フラグ、セキュアキー。
ドキュメント:runbook/SOPへのリンク、エスカレーション、プロバイダの連絡先リスト。
観測性:事前にマークされたダッシュボード/アラート、テストカナリー。
物流:時間/期間、参加者、戦争部屋チャンネル、録音。
6)シミュレーションの実行: 段階
1.概要(5-10分):ICは目標、役割、安全ルール、完了基準に似ています。
2.T0-症状の注入:アラート、ビジネスSLIの低下、プロバイダの外部ステータス。
3.トリアージとエスカレーション:SEVの割り当て、リリースの凍結、必要な役割の接続。
4.診断:仮説、DNS/TLS/CDN/DB/キャッシュ/バスチェック、リリースアノテーション。
5.アクションの軽減:otkat/kanareyka→、degradation flags、 provider failover、 limits/retras。
6.コミュニケーション:定期的な更新(フォーマット:Impakt→Diagnostika→Deystviya→Sled。)を更新します。
7.回復と検証:グリーンゾーンN間隔で外部合成+SLI。
8.報告書(AAR): 15-30分-事実、結論、CAPA。
7)シナリオ例(カタログ)
支払の成功の低下:プロバイダーAは1つの国で低下します;期待されるアクション-トラフィックの再配布、簡素化されたUX、通信を可能にします。
DNSエラー:書き込み/TTLエラー、一部のユーザーはドメインを解決しません。期待されるステップ-修正/フォールバック、CDNクリア、ステータスの更新。
期限切れのTLS証明書:古い顧客のハンドシェイクブレイク;緊急延長およびチェーンチェック保留中。
Kafka lag: KYC/AMLイベントの遅延の増加;期待-消費者を拡大し、生産者を制限します。
データベースP 99:および成長5xx:狭いインデックス、接続制限;期待-機能フラグ、制限、hotfix/ロールバック。
地域の失敗:AZ/PoPのシャットダウン;待機-GSLB/Anycastスイッチング、データ検証、SLO。
コミュニケーションドリル:すべてが「緑」ですが、パターン、間隔、コーディネートをLegal/PRでチェックします。
8)型板「注入」(カード)
ID: INJ-2025-11-01-01
Purpose: Verification of failover payments and comms SLA
Trigger T0: 30% reduction in transaction success in the TR region (alert SLI + burn rate)
Signals: 5xx growth in payment API, external status PSP-A = partial outage
Expected actions: reduction of the share on PSP-A to 30%, inclusion of degrade-payments-UX, status update 15 min
Success criteria: success of payments ≥ 98% in 30 minutes, two green SLI intervals
NOTAM (security): prohibition of direct database edits; flags/routing only
9)安全性とコンプライアンス
生産シミュレーション-リバーシブルのみ:フィーチャーフラグ、少数でのトラフィックの切り替え、読書のための発言、「シャドートラフィック」。
アクセス制御/監査:ChatOps/pipeline経由のすべてのアクション。変更できないストレージにログインします。
PII/秘密-トレーニングアーティファクトでは使用されません。データの省人化。
規制:シミュレーションがクライアント通信に影響を与える場合-プライベートチャネルで「教育」をマークします。公共の投稿は真似されていません。
10)評価とAAR→RCA→CAPA
AAR (After Action Review)-運動直後:何が期待/見られた、何が働いた/しない。
RCA-RCAテンプレートによると、重大な障害(たとえば、エスカレーションが機能しなかった)の場合。
CAPA-所有者/期限/効果メトリック(プレイブック、アラート、アーキテクチャの変更)を含むアクションのリスト。
チェックポイント-D+14/D+30:実行の検証、脆弱ポイントでのミニドリルの繰り返し。
11)ドキュメントとアーティファクト
シミュレーションプラン:目標、シナリオ、注射、参加者、ウィンドウ、成功基準。
タイムライン(UTC): T0...Tn、 ICソリューション、技術的な手順、更新。
ダッシュボード/ログの画像、アラートとステータスの抽出。
サマリーレポート-メトリクス、Playbookの不一致、CAPA
ドキュメントの更新:runbook/SOP/contactの編集、新しいダッシュボードへのリンク。
12)頻度および適用範囲
卓上:月に2-4回(主要な流れおよび役割によって)。
ステージ内のゲームの日:月に1〜2回。
混沌の場合(prod-light):四半期ごとに、厳密にゲートによって。
DRエクササイズ:実際のスイッチングで年に1〜2回。
Comms-drill:テンプレートとSLAの更新を訓練するために毎月。
13)チェックリスト
シミュレーションの前に
- シナリオ、「注射」、成功基準、安全ウィンドウ。
- 役割、チャネル、テンプレートのステータスは一貫しています。
- スタンド/フラグ/ダッシュボードの可用性をチェックしました。
- 撤退と可逆性の計画が文書化されている。
- 評価されたSLO/顧客へのリスクと影響。
期間中
- 割り当てられたSEV、フリーズ・リリース(必要に応じて)。
- スケジュール上のコミュニケーション、フォーマットは一貫しています。
- 監査ツールを介したすべてのアクション。
- Scribeはプロトコルを維持し、アーティファクトを収集します。
- 安全:禁止/制限は尊重されています。
After
- AARが投稿され、レポートが保存されました。
- RCA(故障の場合)が開始されます。
- CAPAsは所有者/締め切りで発行されます。
- runbook/SOP/contactsを更新しました。
- 脆弱性の再テストが計画されています。
14)アンチパターン
「計画の代わりに即興」-成功のためのスクリプトと基準はありません。
ゲートやキャンセルプランのないリスク-演習はインシデントに変わります。
通信やエスカレーションのない機器のみで作業します。
AAR/RCAの欠如-チームは学習していません。
観察可能性およびSLO gardrailsのないProdカオス。
不透明な権利:prodの秘密のマニュアル編集。
15)ミニテンプレート
ゲームデーアジェンダ(60-90分)
1.簡単(5分)→目標、役割、セキュリティ。
2.シナリオT 0(5分)→症状の提示。
3.トリアージ/エスカレーション(10分)。
4.診断+アクション(30-45分)-1-2「注射」。
5.復旧と検証(10分)。
6.AAR (15分)-結論、CAPA。
AARテンプレート(ショート)
What was expected:
What happened:
What worked:
What didn't work:
Solutions and why:
Actions (CAPA) with deadlines:
Responsible persons:
Retest Date:
16)ボトムライン
インシデントシミュレーションは、人、プロセス、およびアーキテクチャのための「シミュレータ」です。定期的で安全で測定可能な演習は、危機をルーチンに変えます。チームはより速く反応し、プレイブックは本当に機能し、アーキテクチャはより安定しており、レギュレータとクライアントは運用機能の成熟度を確認します。主なものは、明確な目標、安全なゲート、良い指標と必須AAR→RCA→CAPAです。