インシデントのエスカレーション
1)目的と原則
インシデントのエスカレーションは、ユーザーやビジネスメトリクスへの影響を最小限に抑えるために、適切な役割とリソースを迅速に引き付ける管理プロセスです。
主な原則:- スピードは理想よりも重要です。遅刻するよりも、事件を早期に宣言してエスカレートを解除する方が良いでしょう。
- Unifiedコマンド。解決の責任者の一人はインシデントコマンダー(IC)です。
- 透明性。社内外のステークホルダーのための明確なステータスとコミュニケーションチャネル。
- ドキュメント性。すべてのステップ、意思決定、タイムラインは監査と改善のためにキャプチャされます。
2)重症度グラデーション(SEV/Pレベル)
例のスケール(ドメイン/管轄区域に適応):- SEV-0/P0 (critical)-主要機能(ログイン/支払い)、データ漏洩、法的リスクの完全な利用不能。コール中のカーネル全体の即時ページング、フリーズ・リリース。
- SEV-1/P1(高)-p95/p99の劣化、主要プロセスにおけるエラー/障害のシェアの増加、地域/プロバイダのアクセス不能。
- SEV-2/P2 (medium)-限られたコホート(地域、プロバイダー)の部分的な劣化、回避策があります。
- SEV-3/P3 (low)-ユーザーにとって重要ではありませんが、注意が必要です(ETLの背景遅延、期限切れのレポート)。
- 損傷半径(ユーザー数/売上高)×持続時間×感度(規制/PR)→SEVレベル。
3)プロセスKPI
MTTD(検出時間)-インシデントの最初から最初の信号まで。
MTTA(受信時間)-IC確認への信号。
MTTR(回復時間)-SLO/関数が復元されるまで。
エスカレーションレイテンシー-確認から目的のロール/コマンドの接続まで。
再開率-インシデントの割合は「解決」後に再開されました。
Comm SLA-外部/内部更新の間隔に準拠します。
4)役割と責任(RACI)
インシデントコマンダー(IC):ソリューションの所有者は、レベル、計画、フリーズ、エスカレーション、デエスカレーションを設定します。修正を書いていません。
Tech Lead (TL):技術診断、仮説、エンジニアの調整。
Comms Lead (CL):ステータスページ、クライアントおよび内部コミュニケーション、Legal/PRとの調整。
Scribe:事実、タイムライン、決定の正確な記録。
Liaisons:外部プロバイダー/チームの代表(支払い、KYC、ホスティング)。
通話中のエンジニア:計画の実行、プレイブック/ロールバックの起動。
各ロールのデューティスケジュールとバックアップを割り当てます。
5)チャネルおよびアーティファクト
War-room channel (ChatOps):オートアノテーション(バージョン、フラグ、カナリア)のテンプレートを備えた単一の調整ポイント(Slack/Teams)。
SEV-1+用のビデオブリッジ。
インシデントチケット(ワンページャー):ID、 SEV、 IC、参加者、仮説/診断、ステップ、ETA、ステータス、インパクト、グラフへのリンク。
ステータスページ:public/internal;定期的な更新のスケジュール(例えば、SEV-1+のための15-30分ごとに)。
6)タイムボックスと標準間隔
T0 (min。 0-5):割り当てられたIC、割り当てられたSEV、凍結解放(必要ならば)、戦争部屋開いた。
T+15 min:最初の公開/内部メッセージ(影響を受けるもの、回避策、次の更新ウィンドウ)。
T+30/60分:安定したダイナミクスがない場合、次のレベル(プラットフォーム/DB/セキュリティ/プロバイダ)のエスカレーション。
定期的な更新:SEV-0: 15分ごと;SEV-1: 30分ごと;SEV-2+:毎時。
7)自動エスカレーションルール(トリガーポリシー)
コードとして記録し、監視/アラートに接続:- 短いウィンドウと長いウィンドウのしきい値を超えるバーンレートのエラー予算。
- 外部サンプルのクォーラム:≥ 2リージョンはHTTP/TLS/DNSの劣化を記録します。
- ビジネスSLI(支払い/登録の成功)はSLOを下回ります。
- セキュリティ署名:漏洩/妥協の疑いがあります。
- プロバイダ信号:webhookステータス「major outage」。
8)発見から解決へのプロセス
1.インシデント宣言(IC): SEV、カバレッジ、フリーズ、Playbookの起動。
2.診断(TL):仮説、半径分離(領域、プロバイダ、機能)、チェック(DNS/TLS/CDN/DB/キャッシュ/バス)。
3.アクションの軽減(素早い勝利):ロールバック/カナリアフラグ機能、劣化フラグ機能、プロバイダのフェイルオーバー、レートリミット、キャッシュオーバーレイ。
4.コミュニケーション(CL):ステータスページ、顧客/パートナー、法律/広報、予定通りの更新。
5.回復の確認:外部合成+実測値(SLI)、凍結除去。
6.脱エスカレーション:SEVの減少、観測への移行N分/時間。
7.閉鎖とRCA:死後の準備、アクションアイテム、所有者とタイミング。
9)外部プロバイダとの連携
複数のリージョンからプロバイダへのサンプルを所有する+リクエスト/エラーのミラーログ例。
エスカレーション契約(連絡先、応答SLA、優先度、ステータスWebフック)。
SLOプロバイダによる自動フェイルオーバー/トラフィック転送。
証拠ベース:タイムライン、サンプルリクエスト/レスポンス、レイテンシ/エラーグラフ、プロバイダチケットID。
10)規制、安全、PR
Security/P0:分離、アーティファクトの収集、開示の最小化、必須通知(内部/外部/レギュレータ)。
法的:外部更新の文言の承認、契約上のSLA/罰金の会計処理。
PR/カスタマーサービス:既製の応答テンプレート、Q&A、補償/クレジット(該当する場合)。
11)メッセージテンプレート
プライマリ(T+15):- "私たちは、[機能/領域]に影響を与えるSEV-1のインシデントを調査しています。症状:[簡単に]。回避策[説明]を有効にしました。次のアップデートは[time]にあります"
- "診断:[仮説/確認]。アクション:[スイッチプロバイダ/ロールバックリリース/有効な劣化]。インパクトが[パーセント/コホート]に減少しました。次回のアップデートは[time]"です"
- "事件は解決されていSEV-1。理由:[root]。回復時間:[MTTR]。次のステップ:[fix/checks/watch N hours]。死後-[when/where]"
12)プレイブック(模範)
支払いの成功の低下:プロバイダーAのシェアを減らし、X%をBに転送します。degrade-payments-UXのレトラを制限で有効にします。finコマンドを通知します。
p99 APIの成長:新しいバージョンのカナリアを減らします。重い機能をオフにします。cache-TTLを増やす。DBインデックス/接続をチェックします。
DNS/TLS/CDNの問題:証明書/チェーンの検証;レコードを更新するスタンバイCDNに切り替えてキャッシュを再構築します。
セキュリティの疑い:ノードの分離、キーの回転、mTLSペンの有効化、アーティファクトの収集、法的通知。
13)エスカレーション解除と「解決」基準
次の場合、インシデントがダウングレードされます:- 緑の地帯≥ N間隔で安定したSLI/SLO;
- 緩和アクションと観察が実行されました-回帰なし;
- セキュリティクラスの場合-ベクトルが閉じられていることが確認され、キー/シークレットが回転します。
閉じる-タイムライン、アクションアイテムの所有者、期限を修正した後のみ。
14)死後(非罰的)
構造:1.事実(タイムライン、ユーザー/メトリクスが見たもの)。
2.根本原因(技術/プロセス)。
3.うまくいったもの/エスカレーションでうまくいかなかったもの。
4.予防措置(テスト、アラート、制限、アーキテクチャ)。
5.締め切りと所有者とのアクションプラン。
6.エラー予算にリンクし、SLO/プロセスを修正します。
15)プロセス成熟度の指標
ユーザーの苦情前に報告されたインシデントの割合。
SEVレベルによるMTTA;所望の役割を接続する時間。
更新間隔(Comm SLA)の順守。
手作業による「創造性」のないプレイブックで解決されたインシデントの割合。
時間通りに死後からアクション項目の実行。
16)アンチパターン
「誰かが何かをする」-IC/役割はありません。
戦争部屋のポリフォニーは、アクションの代わりにバージョンをめぐる論争です。
遅い宣言→人を集めるための時間の喪失。
フリーズアノテーションとリリースアノテーションはありません。
外部とのコミュニケーションの欠如-苦情/PRリスクを高める。
死後と行動なしで閉じる-私たちは同じ間違いを繰り返します。
17) ICチェックリスト(ポケットカード)
- SEVを割り当て、戦争部屋を開きます。
- TL、 CL、 Scribe、 check on-call presentを割り当てます。
- release-freezeを有効にします(SEV-1+の場合)。
- 真実のソースを確認する:SLIダッシュボード、合成、ログ、トレース。
- 迅速な軽減アクション(ロールバック/フラグ/フェイルオーバー)を受け入れます。
- スケジュールされた定期的な更新を提供します。
- ResolveとPost-Recoveryモニタリングのキャプチャ基準。
- 死後を開始し、アクションアイテムの所有者を割り当てます。
18)日常業務への組み込み
ゲームデー:重要なシナリオのシミュレーション。
Playbookカタログ:バージョン管理、テスト済み、パラメータ付き。
ツール:ChatOpsコマンド「/declare「、「/page」、「/status「、「/rollback」。
統合:発券、ステータスページ、死後、CMDB/サービスカタログ。
SLO/Error Budgetとのネゴシエーション:自動エスカレーションのトリガとフリーズのルール。
19)ボトムライン
エスカレーションは、アテンダントへの電話だけでなく、運用上の規律です。IC、既製のプレイブック、更新タイムボックス、およびSLOメトリクスおよび予算ポリシーとの統合によって割り当てられたSEVレベルをクリアすると、混沌とした火災が予測可能なプロセスに変わります。