GH GambleHub

Matrice di escalation

1) Assegnazione matrice

La matrice delle escalation è una regola comune su chi e quando si connette per far sì che gli incidenti si trasformino rapidamente dal caos al processo gestito. Specifica:
  • I livelli e i criteri della SEC
  • Timing (rilevamento della ack dell'escalation dell'apdate)
  • ruoli/canali per ogni passo
  • eccezioni (senza «orologio silenzioso» per la sicurezza e la compilazione)
  • collegamento con playbook e pagina di stato.

2) Classificazione di gravità (SEC)

SEVImpattoEsempiObiettivi del tempo
SEV-0Totale indisponibilità dei dati/business chiaveDown regionale, perdita di dati Tier-0Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1Grave degrado SLOPagamenti -3% a SLO, p95> 400 mcDeclare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2Degrado parziale/aggiramento è possibileUn provider cade, c'è un folbackDeclare ≤ 20 м; Comms per necessità
SEV-3Impatto basso/internoNessun guasto ai clientNessun apdate pubblico

Specificare i numeri di destinazione per il dominio e il SLO.

3) Matrice di base «chi/quando/dove»

EventoTimingChi avviaChi stiamo scalandoCanale/StrumentoCommento
Rilevamento (Page)T0 → subitoMonitoraggio/P1P1Cercapersone/chat # alerts-svcAllineamento automatico del playbook
ACK Page≤ 5 min (SEC-1/0)P1CercatoreSe non c'è ACK - Escalation automatica
No-ACK5 minCercatoreP2Cercatore/suonoSuccessivo - IC tra 5-10 min
Declare SEV-1/0≤ 10 minIC/P1Duty Manager, Comms# war-room-< svc>, stato-paginaRilasci freeze
First Comms≤ 15 minComms (per IC)Clienti/interni. steakholderStato pagina/posta elettronicaModello Impatto- -Attività-ETA
Security triggerSubitoSecurity IRIC, Legal, Exec#sec-war-roomSenza quiet hours
Provider red5 minuti dopo la confermaVendor OwnerIC, ProductCanale di distribuzione/posta elettronicaAvvia switchover
No update> 30 min (SEC-1/0)BotIC/CommsWar-roomPromemoria degli update SLA

4) L'albero decisivo delle escalation (essenziale)

1. C'è un impatto confermato sulla SLO?

→ Sì: assegnare un IC, dichiarare una SEC, aprire una war room.
No, ticket/osservazione, niente pagelle.

2. Hai l'ACK entro il termine?

Sì, continuiamo con la playbook.
No: P2-IC-DM.

3. Sicurezza/perdita/PII?

→ Sempre Sicurezza IR + Legale, messaggi pubblici sono concordati.

4. Un provider esterno?

→ Escalation di Vendor Owner, Alterazione delle rotte, stato del fix.

5) Ruoli e responsabilità nell'escalation (breve)

P1 - Triage, avvio playbook, collegamento IC.
P2 (Secondary) - Backup, attività complesse, contenimento del contesto.
IC (Invident Comment) - Dichiara la SEC, risolve la freeze/rollback, mantiene il ritmo.
Duty Manager: rimuove i blocchi, riassegna le risorse, adotta le decisioni orali.
Comms: pagina di stato, update SLA.
Sicurezza IR: isolamento, forensica, notifiche legali.
Vendor Owner: provider esterni, switchover/fallback.

6) Gate temporali (punti di riferimento)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
(5 m) IC (10 m) Duty Manager (15 m) Exec on-call (30 m).
Sicurezza: senza ritardi né orologi silenziosi, apdate q = 15 m.

7) Routing e segmentazione

Servizio/regione/tenante: chiave di instradamento = 'service + region + tenant'.
Quorum delle sonde: scalare solo se si confermano le sorgenti indipendenti (synthetic da 2 regioni + RUM/Business SLI).
Deadup: un master alert invece di dozzine di sintomi (il database rosso silenzia il rumore 5xx).

8) Eccezioni e modalità speciali

Sicurezza/Legale: l'escalation di sicurezza IR e Legale fuori dalla coda; testi pubblici solo attraverso la negoziazione.
Provider: matrice singola ola OLA/SLA (contatti, fuso orario, priorità).
Change Freeze - SEV-1/0 - rilascio e configure automatici.

9) Metriche di maturità matrice

Ack p95 (SEC-1/0) 5 minuti

Time to Declare (mediana) 10 minuti

Comms SLA Adherence ≥ 95%.
Escalation Success (deciso a livello P1/P2) è ≥ al 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time sui provider critici all'interno del contratto.

10) Assegno fogli

Online (per on-call)

  • Definito l'impatto su SLO e potenziale SEC.
  • Fatto ACK e assegnato IC (per SEC-1/0).
  • La war-room è aperta e la playbook è attaccata.
  • Stato update pubblicato/pianificato per SLA.
  • freeze attivato (se necessario), provider/protezione scalato.

Processuale (review settimanale)

  • La scala delle scalate ha funzionato con la SLA?
  • Non ci sono state altre escalation per l'IC?
  • Le notifiche dei clienti sono tempestive e precise?
  • C'erano blocker (disponibilità, contatti dei provider, canale muto)?
  • La CAPE per i guasti di processo è in esecuzione.

11) Modelli

11. 1 Criteri di escalation (idea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Scheda di ingrandimento temporale (per bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Modello di primo apdate pubblico


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integrazioni

Alert-as-Code: ogni regola di pagina fa riferimento a un playbook esatto e conosce la propria matrice di escalation.
ChatOps: comandi «/declare sev1 », «/page p2», «/status update », timer auto degli update.
CMDB/Catalogo: il servizio ha proprietari, on-call, matrice, provider, canali.
Status page - Modelli per SEC-1/0, cronologia degli update, collegamenti RCA.

13) Anti-pattern

«Scaliamo tutti allo stesso tempo».
Nessun IC/war-room - Le soluzioni vengono divise in chat.
Il ritardo del primo update è un aumento delle denunce e dei rischi PR.
Nessuna eccezione per la sicurezza - rischi legali.
Provider esterni senza proprietario e contatti.
Le scale non sono automatizzate.

14) Road map di implementazione (3-5 settimane)

1. Ned. 1 - Fissare i criteri e i timing del SEV; Raccogliere i contatti dei ruoli/provider Selezionare i canali.
2. Ned. 2 - Descrivere la politica (YAML), agganciare Alert-as-Code, includere la foresta nel cercapersone/bot.
3. Ned. 3: pilota su 2-3 servizi critici; aggiustare Comms SLA e modelli.
4. Ned. 4-5: estendere la copertura, introdurre l'Escalation Review settimanale e le metriche della maturità.

15) Totale

La matrice delle escalation è la Costituzione operativa degli incidenti. Con un certo tipo di SEC, timing, canali, eccezioni di sicurezza e integrazione con playbook e status page, il team reagisce in modo rapido, coerente e trasparente, mentre gli utenti vedono i prevedibili update e ripristini sicuri del servizio.

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.