GH GambleHub

エスカレーションマトリックス

1)行列の目的

エスカレーションマトリックスは、誰がいつ、いつ、つながるかを統一したルールであるため、インシデントはカオスからマネージドプロセスへと素早く移行します。彼女は次のように設定します:
  • SEVレベルとその基準;
  • タイミング(ack→→エスカレーション→更新の検出);
  • 各ステップの役割/チャネル
  • 例外(セキュリティとコンプライアンスのための静かな時間はありません)
  • プレイブックとステータスページのバンドル。

2)重症度による分類(SEV)

SEVについてインパクト(Im例:時間の目標
SEV-0主要なビジネス/データの完全な利用不可地域的なダウン、データ損失Tier-0≤ 5を宣言してください。最初のComms ≤ 10秒;MTTR-ASAP
SEV-1深刻なSLOの劣化支払-3%へのSLO、 p95> 400 ms≤を宣言してください。最初のComms ≤ 15分;アップデートq=15-30
SEV-2部分的な劣化/バイパスが可能1つのプロバイダが落ちる、フォールバックがある≤ 20を宣言してください。必要に応じてコミット
SEV-3低インパクト/内部顧客以外の障害に影響を与える公開されたアップデートはありません

ドメインとSLOのターゲット番号を指定します。

3)基本的なWho/when/where行列

イベント情報タイミング誰が開始するか私たちはエスカレート誰チャンネル/ツールコメントする
検出(ページ)T0→すぐにMonitoring/P1P1 (P1)Pager/chat#alerts-svcPlaybook自動添付
ACKページ≤ 5分(SEV-1/0)P1 (P1)ページャー(Pager)ACKがない場合-自動エスカレーション
No-ACK5分ページャー(Pager)P2Pager/サウンドさらに-5-10分のIC
SEV-1/0を宣言する10分IC/P1デューティマネージャー、Comms#war-room- 、ステータスページリリースのフリーズ
最初のComms15分Comms (ICによる)Customers/Int。ステークホルダーステータスページ/メールImpact-Diag-Actions-ETAテンプレート
セキュリティトリガー一度にセキュリティIRIC、 Legal、 Exec#sec-war-room静かな時間なし
プロバイダ赤確認の後の≤ 5分ベンダーの所有者IC、製品ベンダーチャネル/メールスイッチオーバーを開始する
更新がありません>30分(SEV-1/0)ボート(ボート)IC/CommsウォールルームSLAリマインダーの更新

4)重要なエスカレーションツリー(本質)

1.SLOへの影響が確認されていますか?

→はい:ICを割り当て、SEVを宣言し、戦争部屋を開きます。
→いいえ:チケット/観察、ページはありません。

2.時間通りにACKを取得しましたか?

→はい:私たちはプレイブックに沿って続けます。
→いいえ:P2→IC→DM(時間のはしご)。

3.セキュリティ/リーク/PII?

→常にセキュリティIR+法的、公共コミュニケーションが調整されています。

4.外部プロバイダ?

→ベンダー所有者のエスカレーション、ルートスイッチング、ステータスの修正。

5)エスカレーションの役割と責任(短い)

P1(プライマリ):トリアージ、プレイブック開始、ICへのリンク。
P2(セカンダリ):バックアップ、複雑なアクション、コンテキスト保持。
IC(インシデントコマンダー):SEVを発表し、凍結/ロールバックを決定し、ペースを維持します。
デューティマネージャー:ロックを解除し、リソースを再配布し、組織の意思決定を行います。
Comms:ステータスページ、SLA更新。
セキュリティIR:分離、法医学、法的通知。
ベンダー所有者:外部プロバイダ、スイッチオーバー/フォールバック。

6)暫定ガイド(ランドマーク)

SEV-1/0: ACK ≤ 5°、Declare ≤ 10°、First Comms ≤ 15°、Updates q=15-30°。
エスカレーターはしご:P1→P2 (5 m)→IC (10 m)→Duty Manager (15 m)→Exec on-call (30 m)。
セキュリティ:遅延と「静かな時間」なし、更新q=15メートル。

7)ルーティングとセグメンテーション

サービス/地域/テナント別:ルーティングキー='service+region+tenant'。
プローブのクォーラム:2つ≥独立したソースが確認された場合にのみエスカレートします(2つのリージョン+RUM/ビジネスSLIから合成)。
Dedup:数十の症状の代わりに1つのマスターアラート(DB「赤」は5xxノイズを抑制します)。

8)例外および特別なモード

セキュリティ/法的:セキュリティIRのエスカレーションと法的順番外;コーディネートを通してのみパブリックテキスト。
プロバイダ:個別のOLA/SLAマトリックス(連絡先、タイムゾーン、優先度)。
Change Freeze: if SEV-1/0-リリースと構成の自動フリーズ。

9)マトリックス成熟度の指標

Ack p95 (SEV-1/0) ≤ 5分。
宣言する時間(中央値)≤ 10分。
Comms SLA Adherence ≥ 95%です。
エスカレーション成功率(P1/P2レベルで解決)≥ 70%。
No-ACKエスカレーション:QoQ。
契約内の重要なプロバイダのベンダーレスポンス時間。

10)チェックリスト

オンライン(オンコール)

  • SLOの影響と潜在的なSEVを特定しました。
  • ACK製および割り当てられたIC (SEV-1/0のために)。
  • 戦争部屋開いた、付属のプレイブック。
  • SLAが公開/計画しているステータス更新。
  • フリーズ有効(必要に応じて)、プロバイダ/セキュリティがエスカレートしました。

プロセス(毎週のレビュー)

  • エスカレーションラダーはSLAで動作しましたか?
  • IC前に不要なエスカレーションはありましたか?
  • 顧客の通知はタイムリーで正確ですか?
  • ブロッカー(アクセス、プロバイダの連絡先、サイレントチャネル)はありましたか?
  • プロセス障害のCAPAも設置されています。

11)テンプレート

11.1エスカレーションポリシー(YAMLアイデア)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11.2タイムエスカレーションカード(ボット用)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11.最初の公開更新のための3テンプレート


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12)統合

Alert-as-Code:各ページルールは正確に1つのプレイブックを参照し、独自のエスカレーション行列を知っています。
ChatOps:コマンド'/declare sev1'、'/page p2'、 '/status update'、更新の自動タイマー。
CMDB/カタログ:サービスにはオーナー、オンコール、マトリックス、プロバイダ、チャンネルがあります。
ステータスページ:SEV-1/0、更新履歴、RCAへのリンクのテンプレート。

13)アンチパターン

「一気にエスカレート」→ノイズとぼやけた責任。
IC/ウォールルームはありません-ソリューションはチャットに忍び込みます。
最初のアップデートの遅延-苦情やPRリスクの増加。
セキュリティの例外はありません-法的リスク。
所有者と連絡先のない外部プロバイダ。
階段は自動化されていません-すべてが「ハンドブレーキ」です。

14)導入ロードマップ(3〜5週間)

1.ネッド。1: SEVの基準とタイミングを修正します。ロール/プロバイダの連絡先を収集し、チャンネルを選択します。
2.ネッド。2:ポリシー(YAML)を記述し、Alert-as-Codeにバインドし、pager/botのラダーをオンにします。
3.ネッド。3:2-3重要なサービスのパイロット;SLA Commsとテンプレートをデバッグします。
4.ネッド。4-5:カバレッジを拡大し、毎週のエスカレーションレビューと成熟度の指標を紹介します。

15)ボトムライン

エスカレーションマトリックスは、インシデントの運用憲法です。明確なSEV、タイミング、チャネル、セキュリティ例外、プレイブックやステータスページとの統合により、チームは迅速かつ一貫して透過的に反応し、ユーザーは予測可能なアップデートと自信に満ちたサービス復旧を見ることができます。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。