Matrice de escaladare
1) Scopul matricei
Matricea de escaladare este reguli uniforme cu privire la cine se conectează și când, astfel încât incidentele să treacă rapid de la haos la un proces gestionat. Ea stabilește:- nivelurile SEV și criteriile acestora;
- calendare (detectarea ack → → escaladarea → actualizări);
- Roluri/canale pentru fiecare pas
- Excepții (fără ore liniștite pentru securitate și conformitate)
- un pachet cu cărți de redare și o pagină de stare.
2) Clasificare după severitate (SEV)
Specificați numerele țintă pentru domeniul dvs. și SLO.
3) de bază cine/când/unde matrice
4) Arborele esențial de escaladare (esență)
1. Orice impact confirmat asupra SLO?
→ Da: atribuiți un IC, declarați un SUV, deschideți o cameră de război.
→ Nu: bilet/observație, nici o pagină.
2. Ai un ACK la timp?
→ Da: continuăm de-a lungul playbook.
→ nr: P2 → IC → DM (scara in timp).
3. Securitate/scurgere/PII?
→ Întotdeauna Securitate IR + Legal, comunicațiile publice sunt coordonate.
4. Furnizor extern?
→ Vendor Owner escaladarea, schimbarea traseului, fix în stare.
5) Roluri și responsabilități de escaladare (scurt)
P1 (Primar): triaj, start playbook, link către IC.
P2 (secundar): backup, acțiuni complexe, retenție contextuală.
IC (Incident Commander): Anunță SUV, decide congela/rollback, păstrează ritmul.
Duty Manager: elimină încuietorile, redistribuie resursele, ia decizii organizaționale.
Comms: status page, actualizări SLA.
Securitate IR: izolare, criminalistică, avize legale.
Furnizor proprietar: furnizori externi, switchover/rezervă.
6) Ghiduri temporare (repere)
: ACK 5 , Declare 10 , Primele Comms 15, Actualizări q = 15-30.
Scară rulantă: P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) →
Securitate: fără întârzieri și „ore liniștite”, actualizări q = 15 m.
7) Rutare și segmentare
Prin serviciu/regiune/chiriaș: cheie de rutare = 'serviciu + regiune + chiriaș'.
Cvorumul sondelor: escaladează numai dacă se confirmă ≥2 surse independente (sintetice din 2 regiuni + RUM/SLI de afaceri).
Dedup: o alertă principală în loc de zeci de simptome (DB „roșu” suprimă zgomotul 5xx).
8) Excepții și moduri speciale
Securitate/Juridic: escaladarea IR de securitate și juridic la rândul său; texte publice numai prin coordonare.
Furnizori: matrice separată OLA/SLA (contacte, fusuri orare, prioritate).
Schimbați Freeze: dacă SEV-1/0 - înghețarea automată a lansărilor și configurațiilor.
9) Măsurători ale maturității matrix
Ack p95 (SEV-1/0) ≤ 5 min.
Timp de declarare (mediană) ≤ 10 min.
Comms SLA Aderență ≥ 95%.
Succesul escaladării (rezolvat la nivel P1/P2) ≥ de 70%.
Escaladări fără ACK ↓ QoQ.
Timpul de răspuns al furnizorilor pentru furnizorii critici din cadrul contractului.
10) Liste de verificare
Online (pentru apel)
- Impactul SLO și potențialul SEV identificate.
- ACK făcut și IC atribuit (pentru SEV-1/0).
- War-cameră deschisă, playbook atașat.
- Actualizare de stare publicată/planificată de SLA.
- Freeze activat (dacă este necesar), furnizor/securitate escaladat.
Proces (revizuire săptămânală)
- Scara de escaladare a funcționat pe SLA?
- Au existat escaladări inutile înainte de IC?
- Sunt notificările clienților în timp util și corecte?
- Au existat blocante (accesări, contacte furnizor, canal silențios)?
- CAPAs pentru eșecuri de proces sunt, de asemenea, în vigoare.
11) Șabloane
11. 1 Politica de escaladare (ideea YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Card de escaladare a timpului (pentru bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Șablon pentru prima actualizare publică
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Integrări
Alert-as-Code: Fiecare regulă pagină se referă exact la un playbook și își cunoaște propria matrice de escaladare.
ChatOps: comenzi '/declara sev1 ', '/pagină p2', '/actualizare stare ', auto-cronometre de actualizări.
CMDB/Catalog: serviciul are proprietari, de gardă, matrice, furnizori, canale.
Status page: șabloane pentru SEV-1/0, istoricul actualizărilor, link-uri către RCA.
13) Anti-modele
„Escaladează totul dintr-o dată” → zgomot și responsabilitate neclară.
Nu IC/război-cameră - soluții se strecoară în chat-uri.
Întârzierea primei actualizări - o creștere a plângerilor și a riscurilor de PR.
Fără excepții de securitate - riscuri juridice.
Furnizori externi fără proprietar și contacte.
Scările nu sunt automatizate - totul este „pe frâna de mână”.
14) Foaie de parcurs de implementare (3-5 săptămâni)
1. Ned. 1: fixați criteriile și temporizările SEV; Colecta rol/furnizor de contacte selectați canale.
2. Ned. 2: descrieți politica (YAML), legați de Alert-as-Code, porniți scara în pager/bot.
3. Ned. 3: pilot pe 2-3 servicii critice; depanare SLA Comms și șabloane.
4. Ned. 4-5: Extindeți acoperirea, introduceți săptămânal Escalation Review și măsurătorile de maturitate.
15) Linia de jos
Matricea de escaladare este Constituția operațională a incidentelor: cine, când și cum se conectează. Cu SEV-uri clare, temporizări, canale, excepții de securitate și integrare cu cărți de redare și o pagină de stare, echipa reacționează rapid, coerent și transparent, iar utilizatorii văd actualizări previzibile și recuperare de servicii încrezătoare.