GH GambleHub

Matrice de escaladare

1) Scopul matricei

Matricea de escaladare este reguli uniforme cu privire la cine se conectează și când, astfel încât incidentele să treacă rapid de la haos la un proces gestionat. Ea stabilește:
  • nivelurile SEV și criteriile acestora;
  • calendare (detectarea ack → → escaladarea → actualizări);
  • Roluri/canale pentru fiecare pas
  • Excepții (fără ore liniștite pentru securitate și conformitate)
  • un pachet cu cărți de redare și o pagină de stare.

2) Clasificare după severitate (SEV)

SEVImpactExempleObiectivele timpului
SEV-0Indisponibilitatea completă a afacerilor/datelor cheieRegional în jos, pierderea de date Tier-0Declară ≤ 5 м; Primele Comms ≤ 10 м; MTTR - ASAP
SEV-1Degradarea serioasă a SLOPlăți -3% către SLO, p95> 400 msDeclară ≤ 10 м; Primele Comms ≤ 15 м; Actualizări q = 15-30 м
SEV-2Degradare parțială/by-pass posibilUn furnizor cade, există folbackDeclară ≤ 20 м; Comms după cum este necesar
SEV-3Impact redus/internNon-client care afectează eșecurileNu există actualizări publice

Specificați numerele țintă pentru domeniul dvs. și SLO.

3) de bază cine/când/unde matrice

EvenimentSincronizareCine inițiazăPe cine escaladămCanal/InstrumentComentariu
Detectare (pagină)T0 → imediatMonitoring/P1P1Pager/chat # alerte-svcPlaybook atașare automată
Pagina ACK≤ 5 min (SEV-1/0)P1PagerDacă nu există ACK - auto-escaladare
No-ACK5 minPagerP2Pager/SunetMai departe - IC în 5-10 min
Declară SEV-1/0≤ 10 minIC/P1Duty Manager, Comms# war-room- , status pageEliberări prin congelare
Primele Comms≤ 15 minComms (de IC)Clienți/Int. părțile interesateStatus page/mailȘablon Impact-Diag-Acțiuni-ETA
Declanșator de securitateÎn acelaşi timpSecuritate IRIC, Juridic,# sec-war-roomFără ore liniștite
Furnizor roșu≤ 5 min după confirmareProprietarul vânzătoruluiIC, ProdusFurnizor canal/e-mailInițiază comutarea
Nici o actualizare> 30 min (SEV-1/0)BarcaIC/CommsCameră de războiActualizare memento SLA

4) Arborele esențial de escaladare (esență)

1. Orice impact confirmat asupra SLO?

→ Da: atribuiți un IC, declarați un SUV, deschideți o cameră de război.
→ Nu: bilet/observație, nici o pagină.

2. Ai un ACK la timp?

→ Da: continuăm de-a lungul playbook.
→ nr: P2 → IC → DM (scara in timp).

3. Securitate/scurgere/PII?

→ Întotdeauna Securitate IR + Legal, comunicațiile publice sunt coordonate.

4. Furnizor extern?

→ Vendor Owner escaladarea, schimbarea traseului, fix în stare.

5) Roluri și responsabilități de escaladare (scurt)

P1 (Primar): triaj, start playbook, link către IC.
P2 (secundar): backup, acțiuni complexe, retenție contextuală.
IC (Incident Commander): Anunță SUV, decide congela/rollback, păstrează ritmul.
Duty Manager: elimină încuietorile, redistribuie resursele, ia decizii organizaționale.
Comms: status page, actualizări SLA.
Securitate IR: izolare, criminalistică, avize legale.
Furnizor proprietar: furnizori externi, switchover/rezervă.

6) Ghiduri temporare (repere)

: ACK 5 , Declare 10 , Primele Comms 15, Actualizări q = 15-30.

Scară rulantă: P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) →

Securitate: fără întârzieri și „ore liniștite”, actualizări q = 15 m.

7) Rutare și segmentare

Prin serviciu/regiune/chiriaș: cheie de rutare = 'serviciu + regiune + chiriaș'.
Cvorumul sondelor: escaladează numai dacă se confirmă ≥2 surse independente (sintetice din 2 regiuni + RUM/SLI de afaceri).
Dedup: o alertă principală în loc de zeci de simptome (DB „roșu” suprimă zgomotul 5xx).

8) Excepții și moduri speciale

Securitate/Juridic: escaladarea IR de securitate și juridic la rândul său; texte publice numai prin coordonare.
Furnizori: matrice separată OLA/SLA (contacte, fusuri orare, prioritate).
Schimbați Freeze: dacă SEV-1/0 - înghețarea automată a lansărilor și configurațiilor.

9) Măsurători ale maturității matrix

Ack p95 (SEV-1/0) ≤ 5 min.
Timp de declarare (mediană) ≤ 10 min.
Comms SLA Aderență ≥ 95%.
Succesul escaladării (rezolvat la nivel P1/P2) ≥ de 70%.
Escaladări fără ACK ↓ QoQ.
Timpul de răspuns al furnizorilor pentru furnizorii critici din cadrul contractului.

10) Liste de verificare

Online (pentru apel)

  • Impactul SLO și potențialul SEV identificate.
  • ACK făcut și IC atribuit (pentru SEV-1/0).
  • War-cameră deschisă, playbook atașat.
  • Actualizare de stare publicată/planificată de SLA.
  • Freeze activat (dacă este necesar), furnizor/securitate escaladat.

Proces (revizuire săptămânală)

  • Scara de escaladare a funcționat pe SLA?
  • Au existat escaladări inutile înainte de IC?
  • Sunt notificările clienților în timp util și corecte?
  • Au existat blocante (accesări, contacte furnizor, canal silențios)?
  • CAPAs pentru eșecuri de proces sunt, de asemenea, în vigoare.

11) Șabloane

11. 1 Politica de escaladare (ideea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Card de escaladare a timpului (pentru bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Șablon pentru prima actualizare publică


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integrări

Alert-as-Code: Fiecare regulă pagină se referă exact la un playbook și își cunoaște propria matrice de escaladare.
ChatOps: comenzi '/declara sev1 ', '/pagină p2', '/actualizare stare ', auto-cronometre de actualizări.
CMDB/Catalog: serviciul are proprietari, de gardă, matrice, furnizori, canale.
Status page: șabloane pentru SEV-1/0, istoricul actualizărilor, link-uri către RCA.

13) Anti-modele

„Escaladează totul dintr-o dată” → zgomot și responsabilitate neclară.
Nu IC/război-cameră - soluții se strecoară în chat-uri.
Întârzierea primei actualizări - o creștere a plângerilor și a riscurilor de PR.
Fără excepții de securitate - riscuri juridice.
Furnizori externi fără proprietar și contacte.
Scările nu sunt automatizate - totul este „pe frâna de mână”.

14) Foaie de parcurs de implementare (3-5 săptămâni)

1. Ned. 1: fixați criteriile și temporizările SEV; Colecta rol/furnizor de contacte selectați canale.
2. Ned. 2: descrieți politica (YAML), legați de Alert-as-Code, porniți scara în pager/bot.
3. Ned. 3: pilot pe 2-3 servicii critice; depanare SLA Comms și șabloane.
4. Ned. 4-5: Extindeți acoperirea, introduceți săptămânal Escalation Review și măsurătorile de maturitate.

15) Linia de jos

Matricea de escaladare este Constituția operațională a incidentelor: cine, când și cum se conectează. Cu SEV-uri clare, temporizări, canale, excepții de securitate și integrare cu cărți de redare și o pagină de stare, echipa reacționează rapid, coerent și transparent, iar utilizatorii văd actualizări previzibile și recuperare de servicii încrezătoare.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.