エスカレーションマトリックス
1)行列の目的
エスカレーションマトリックスは、誰がいつ、いつ、つながるかを統一したルールであるため、インシデントはカオスからマネージドプロセスへと素早く移行します。彼女は次のように設定します:- SEVレベルとその基準;
- タイミング(ack→→エスカレーション→更新の検出);
- 各ステップの役割/チャネル
- 例外(セキュリティとコンプライアンスのための静かな時間はありません)
- プレイブックとステータスページのバンドル。
2)重症度による分類(SEV)
ドメインとSLOのターゲット番号を指定します。
3)基本的なWho/when/where行列
4)重要なエスカレーションツリー(本質)
1.SLOへの影響が確認されていますか?
→はい:ICを割り当て、SEVを宣言し、戦争部屋を開きます。
→いいえ:チケット/観察、ページはありません。
2.時間通りにACKを取得しましたか?
→はい:私たちはプレイブックに沿って続けます。
→いいえ:P2→IC→DM(時間のはしご)。
3.セキュリティ/リーク/PII?
→常にセキュリティIR+法的、公共コミュニケーションが調整されています。
4.外部プロバイダ?
→ベンダー所有者のエスカレーション、ルートスイッチング、ステータスの修正。
5)エスカレーションの役割と責任(短い)
P1(プライマリ):トリアージ、プレイブック開始、ICへのリンク。
P2(セカンダリ):バックアップ、複雑なアクション、コンテキスト保持。
IC(インシデントコマンダー):SEVを発表し、凍結/ロールバックを決定し、ペースを維持します。
デューティマネージャー:ロックを解除し、リソースを再配布し、組織の意思決定を行います。
Comms:ステータスページ、SLA更新。
セキュリティIR:分離、法医学、法的通知。
ベンダー所有者:外部プロバイダ、スイッチオーバー/フォールバック。
6)暫定ガイド(ランドマーク)
SEV-1/0: ACK ≤ 5°、Declare ≤ 10°、First Comms ≤ 15°、Updates q=15-30°。
エスカレーターはしご:P1→P2 (5 m)→IC (10 m)→Duty Manager (15 m)→Exec on-call (30 m)。
セキュリティ:遅延と「静かな時間」なし、更新q=15メートル。
7)ルーティングとセグメンテーション
サービス/地域/テナント別:ルーティングキー='service+region+tenant'。
プローブのクォーラム:2つ≥独立したソースが確認された場合にのみエスカレートします(2つのリージョン+RUM/ビジネスSLIから合成)。
Dedup:数十の症状の代わりに1つのマスターアラート(DB「赤」は5xxノイズを抑制します)。
8)例外および特別なモード
セキュリティ/法的:セキュリティIRのエスカレーションと法的順番外;コーディネートを通してのみパブリックテキスト。
プロバイダ:個別のOLA/SLAマトリックス(連絡先、タイムゾーン、優先度)。
Change Freeze: if SEV-1/0-リリースと構成の自動フリーズ。
9)マトリックス成熟度の指標
Ack p95 (SEV-1/0) ≤ 5分。
宣言する時間(中央値)≤ 10分。
Comms SLA Adherence ≥ 95%です。
エスカレーション成功率(P1/P2レベルで解決)≥ 70%。
No-ACKエスカレーション:QoQ。
契約内の重要なプロバイダのベンダーレスポンス時間。
10)チェックリスト
オンライン(オンコール)
- SLOの影響と潜在的なSEVを特定しました。
- ACK製および割り当てられたIC (SEV-1/0のために)。
- 戦争部屋開いた、付属のプレイブック。
- SLAが公開/計画しているステータス更新。
- フリーズ有効(必要に応じて)、プロバイダ/セキュリティがエスカレートしました。
プロセス(毎週のレビュー)
- エスカレーションラダーはSLAで動作しましたか?
- IC前に不要なエスカレーションはありましたか?
- 顧客の通知はタイムリーで正確ですか?
- ブロッカー(アクセス、プロバイダの連絡先、サイレントチャネル)はありましたか?
- プロセス障害のCAPAも設置されています。
11)テンプレート
11.1エスカレーションポリシー(YAMLアイデア)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11.2タイムエスカレーションカード(ボット用)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11.最初の公開更新のための3テンプレート
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12)統合
Alert-as-Code:各ページルールは正確に1つのプレイブックを参照し、独自のエスカレーション行列を知っています。
ChatOps:コマンド'/declare sev1'、'/page p2'、 '/status update'、更新の自動タイマー。
CMDB/カタログ:サービスにはオーナー、オンコール、マトリックス、プロバイダ、チャンネルがあります。
ステータスページ:SEV-1/0、更新履歴、RCAへのリンクのテンプレート。
13)アンチパターン
「一気にエスカレート」→ノイズとぼやけた責任。
IC/ウォールルームはありません-ソリューションはチャットに忍び込みます。
最初のアップデートの遅延-苦情やPRリスクの増加。
セキュリティの例外はありません-法的リスク。
所有者と連絡先のない外部プロバイダ。
階段は自動化されていません-すべてが「ハンドブレーキ」です。
14)導入ロードマップ(3〜5週間)
1.ネッド。1: SEVの基準とタイミングを修正します。ロール/プロバイダの連絡先を収集し、チャンネルを選択します。
2.ネッド。2:ポリシー(YAML)を記述し、Alert-as-Codeにバインドし、pager/botのラダーをオンにします。
3.ネッド。3:2-3重要なサービスのパイロット;SLA Commsとテンプレートをデバッグします。
4.ネッド。4-5:カバレッジを拡大し、毎週のエスカレーションレビューと成熟度の指標を紹介します。
15)ボトムライン
エスカレーションマトリックスは、インシデントの運用憲法です。明確なSEV、タイミング、チャネル、セキュリティ例外、プレイブックやステータスページとの統合により、チームは迅速かつ一貫して透過的に反応し、ユーザーは予測可能なアップデートと自信に満ちたサービス復旧を見ることができます。