インシデント後の報告
1)インシデント後の解析が必要な理由
事後報告(post-mortem/AAR)は、失敗後に組織を訓練するための構造化されたプロセスです。目標は、責任を見いだすことではなく、原因の根本と貢献を特定し、再発リスクとインシデントのコストを削減し、SLO、 MTTR、および顧客/規制上の信頼を向上させる測定可能な行動(CAPA)を統合することです。
2)原則(Just Culture)
告発なし:私たちは、パーソナリティではなく、システム、意思決定、コンテキストを分析します。
事実は意見よりも重要です:タイムライン、ログ、メトリック、トレイル、変更のアーティファクト。
E2Eビュー:クライアント上の症状から内部依存関係や外部プロバイダまで。
検証可能性:各仮説は実験/データによってサポートされています。
ループ閉鎖:CAPA→→チェックポイント→リテストを解析します。
3)パースを実行するタイミングとフォーマット
必須:SEV-0/1;SLA/規制要件の違反;データ漏洩;重要なPRリスク。
加速(光):顕著な影響または定期的な症状を伴うSEV-2。
通信AAR:障害がステータスページ/サポートに影響を与える場合、更新のSLAとメッセージの品質を確認します。
条件:48-72時間のドラフト、最終バージョン-5営業日まで(別段の合意がない限り)。
4)役割と責任
RCAリード:プロセスを整理し、会議をリードし、レポートとCAPAの品質を担当します。
インシデントコマンダー(IC):インシデントファクトとソリューションを提供します。
技術リード(システム別):アーティファクトを確認する原因分析。
Comms/Support/Legal:コミュニケーションおよびコンプライアンス要件の評価。
Scribe:プロトコル、証拠収集、構造への準拠。
製品/ビジネスステークホルダー-顧客への影響/売上高、CAPA優先順位付け
5)準備: 会議の前に収集するもの
タイムライン(UTC): T0検出→Tn回復;releases/feature flags/configs、プロバイダのステータス。
観測データ:SLI/SLOグラフ、エラー率、パーセンタイル、ログ、トレース、スクリーンショット。
変更のコンテキスト:PR/展開へのリンク、DB移行、フィーチャーフラグ、作業計画。
影響:影響を受けるコホート/リージョン/プロバイダ、ダウンタイム分、SLAクレジット。
コミュニケーション:ステータスページの下書き/投稿、サポート回答、内部アナウンス。
政治家/プレイブック:偏差があったプロセスで何が起こったはずです。
6)分析手順(組み合わせを選択)
5理由:因果鎖の急速な解剖(リスク-過剰複製)。
フィッシュボーンチャート:人/プロセス/プラットフォーム/ポリシー/パートナー/製品。
フォルトツリー解析(FTA)-イベントから複数の原因(AND/OR)への控除。
変更分析:インシデントと安定した状態の間に何が変わったか。
因果グラフ:複雑なマイクロサービスと外部依存関係の因果グラフ。
ヒューマンファクターレビュー:疲労、情報ノイズ、無関係なランブック"と。
7)レポート構造(テンプレート)
1.エグゼクティブサマリー-何、いつ、影響を受けました、最終的なステータス。
2.影響:SLI/SLO、ユーザー、地域/プロバイダー、最小ダウンタイム、金融/規制効果。
3.タイムライン(UTC):主要イベント、リリース、ICソリューション、通信。
4.オブザベーションとデータ:グラフ、ログ、トレース、configs/スキームの拡散。
5.仮説とテスト:受け入れ/拒否、実験/シミュレーションへの参照。
6.根本原因:システム/プロセス/テクニカル(明確な文言)。
7.要因:以前に気づかなかった/停止した理由。
8.機能したもの/機能しなかったもの:プロセス、ツール、人々。
9.CAPA:オーナー/締め切り/成功指標による是正措置と予防措置。
10.検証計画:D+14/D+30コントロールポイント、終了基準。
11.外部バージョン:クライアント/規制(機密データなし)。
12.アプリケーション:アーティファクト、チケット/PRへのリンク、ダッシュボードのスクリーンショット。
8) CAPAs: アクションを動作させる方法
各アクションには所有者、期限、および効果KPIがあります(例えば、X%の変更失敗率の減少、90日のゼロリピート、スパイクの燃焼率の減少)。
別の是正措置と予防措置。
policy-as-codeへのリンク:アラート、SLOゲート、オートスケール/リミット、GitOps。
CAPAは、毎週の運用会議でのレビューで公開バックログに入ります。
9)効果の点検および閉鎖
チェックポイント:D+7(中間)、D+14/D+30(メイン)、D+90(合計)。
検証:テスト/シミュレーション(ゲーム日)、シャドウトラフィック、観測可能性(グリーンゾーン内の安定したSLI)、再発はありません。
完了したCAPAと検証済みのメトリックでのみクローズが可能です。
10)コミュニケーションとコンプライアンス
内部:製品/サポート/管理の明確なステータス、SLAの更新が満たされます。
外部:ステータスページ、クライアント/パートナーへの郵送;責任のない言語、明確な予防計画。
規制:通知の締め切り、例の省略、レポートとアーティファクトの変更できない保存。
11)プロセス成熟度の指標
レポートの発行時間:実際のSLAとSLA(例:≤ 5営業日)。
CAPA完了率:予定日に終了したアクティビティの%。
再開率:90日間のリピートインシデントの割合。
全身原因の割合と「ヒューマンエラー」。
アラート衛生:偽ページの減少、ランブックで覆われたアラートの増加。
DORAメトリクス変更:MTTR、 change-failure-rate before/after。
12)チェックリスト
解析する前に
- RCAオーナーとメンバーシップ定義。
- 収集されたタイムラインとアーティファクト(ログ/グラフ/リリース/フラグ)。
- cohort/region/providerによって評価される影響。
- インパクトとタイムラインのセクションのドラフトが作成されました。
- 関連するポリシー/プレイブックは実際のアクションにマップされます。
期間中
- 受け入れられた/拒否された仮説と根拠が記録された。
- ルートと貢献の原因が特定されました。
- KPIと期限付きのCAPAプランが作成されました。
- 外部の当事者のためのレポートのバージョンは合意されています(必要に応じて)。
After
- 時間通りに公開されたレポート、役割別のアクセス。
- CAPAは記録され、所有者は確認されます。
- 検証にはテストポイントとミニシミュレーションが割り当てられています。
- runbook/SOP/alerts/documentationを更新しました。
13)アンチパターン
「罪人X」-リピート→全身的な理由なし。
CAPAなしまたは所有者/期限なしのレポート-紙のための紙。
事実/アーティファクトはありません-感覚に関する結論。
あまりにも一般的な言語(「データベースの過負荷」)特定の変更なし。
コミュニケーションとコンプライアンスを無視することは、評判のリスクです。
効果テストなしの閉鎖-数週間後に再発します。
14)ミニテンプレート
レポートヘッダー
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
根本原因定式化(例)
CAPA(フラグメント)
PSP-A (1%→5%→25%)、所有者:@payments-tl、 2025-11-07までのカナリアルーティングを有効にします。
合計≤ SLA時間800ミリ秒、所有者:@platform-sre、最大:2025-11-05、 KPI:負荷Nの下でp99 <600ミリ秒のタイムアウト/リトレイを再構成します。
BIN CohortによるビジネスSLIの追加、所有者:@data-lead、 to: 2025-11-10、 KPI:劣化検出<5分。
15)毎日の練習に埋め込むこと
毎週のRCAレビュー:CAPAステータス、新しいレッスン、プロセスの更新。
タグ(サービス、SEV、理由)と検索でwikiの死後のディレクトリ。
対策を検証するための2〜4週間のインシデントに基づいたシミュレーション。
オンコールのオンボーディングと更新トレーニングシナリオのレッスンを含む。
16)ボトムライン
インシデント後の解析は、全身的な改善のメカニズムです。事実が収集されると、因果関係が証明され、行動が測定可能で検証され、組織は信頼性の運用資本を蓄積します。MTTRとリピートインシデントが落ちる、予測可能性が解放され、顧客の信頼性が向上します。