Matrice di escalation
1) Assegnazione matrice
La matrice delle escalation è una regola comune su chi e quando si connette per far sì che gli incidenti si trasformino rapidamente dal caos al processo gestito. Specifica:- I livelli e i criteri della SEC
- Timing (rilevamento della ack dell'escalation dell'apdate)
- ruoli/canali per ogni passo
- eccezioni (senza «orologio silenzioso» per la sicurezza e la compilazione)
- collegamento con playbook e pagina di stato.
2) Classificazione di gravità (SEC)
Specificare i numeri di destinazione per il dominio e il SLO.
3) Matrice di base «chi/quando/dove»
4) L'albero decisivo delle escalation (essenziale)
1. C'è un impatto confermato sulla SLO?
→ Sì: assegnare un IC, dichiarare una SEC, aprire una war room.
No, ticket/osservazione, niente pagelle.
2. Hai l'ACK entro il termine?
Sì, continuiamo con la playbook.
No: P2-IC-DM.
3. Sicurezza/perdita/PII?
→ Sempre Sicurezza IR + Legale, messaggi pubblici sono concordati.
4. Un provider esterno?
→ Escalation di Vendor Owner, Alterazione delle rotte, stato del fix.
5) Ruoli e responsabilità nell'escalation (breve)
P1 - Triage, avvio playbook, collegamento IC.
P2 (Secondary) - Backup, attività complesse, contenimento del contesto.
IC (Invident Comment) - Dichiara la SEC, risolve la freeze/rollback, mantiene il ritmo.
Duty Manager: rimuove i blocchi, riassegna le risorse, adotta le decisioni orali.
Comms: pagina di stato, update SLA.
Sicurezza IR: isolamento, forensica, notifiche legali.
Vendor Owner: provider esterni, switchover/fallback.
6) Gate temporali (punti di riferimento)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
(5 m) IC (10 m) Duty Manager (15 m) Exec on-call (30 m).
Sicurezza: senza ritardi né orologi silenziosi, apdate q = 15 m.
7) Routing e segmentazione
Servizio/regione/tenante: chiave di instradamento = 'service + region + tenant'.
Quorum delle sonde: scalare solo se si confermano le sorgenti indipendenti (synthetic da 2 regioni + RUM/Business SLI).
Deadup: un master alert invece di dozzine di sintomi (il database rosso silenzia il rumore 5xx).
8) Eccezioni e modalità speciali
Sicurezza/Legale: l'escalation di sicurezza IR e Legale fuori dalla coda; testi pubblici solo attraverso la negoziazione.
Provider: matrice singola ola OLA/SLA (contatti, fuso orario, priorità).
Change Freeze - SEV-1/0 - rilascio e configure automatici.
9) Metriche di maturità matrice
Ack p95 (SEC-1/0) 5 minuti
Time to Declare (mediana) 10 minuti
Comms SLA Adherence ≥ 95%.
Escalation Success (deciso a livello P1/P2) è ≥ al 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time sui provider critici all'interno del contratto.
10) Assegno fogli
Online (per on-call)
- Definito l'impatto su SLO e potenziale SEC.
- Fatto ACK e assegnato IC (per SEC-1/0).
- La war-room è aperta e la playbook è attaccata.
- Stato update pubblicato/pianificato per SLA.
- freeze attivato (se necessario), provider/protezione scalato.
Processuale (review settimanale)
- La scala delle scalate ha funzionato con la SLA?
- Non ci sono state altre escalation per l'IC?
- Le notifiche dei clienti sono tempestive e precise?
- C'erano blocker (disponibilità, contatti dei provider, canale muto)?
- La CAPE per i guasti di processo è in esecuzione.
11) Modelli
11. 1 Criteri di escalation (idea YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Scheda di ingrandimento temporale (per bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Modello di primo apdate pubblico
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Integrazioni
Alert-as-Code: ogni regola di pagina fa riferimento a un playbook esatto e conosce la propria matrice di escalation.
ChatOps: comandi «/declare sev1 », «/page p2», «/status update », timer auto degli update.
CMDB/Catalogo: il servizio ha proprietari, on-call, matrice, provider, canali.
Status page - Modelli per SEC-1/0, cronologia degli update, collegamenti RCA.
13) Anti-pattern
«Scaliamo tutti allo stesso tempo».
Nessun IC/war-room - Le soluzioni vengono divise in chat.
Il ritardo del primo update è un aumento delle denunce e dei rischi PR.
Nessuna eccezione per la sicurezza - rischi legali.
Provider esterni senza proprietario e contatti.
Le scale non sono automatizzate.
14) Road map di implementazione (3-5 settimane)
1. Ned. 1 - Fissare i criteri e i timing del SEV; Raccogliere i contatti dei ruoli/provider Selezionare i canali.
2. Ned. 2 - Descrivere la politica (YAML), agganciare Alert-as-Code, includere la foresta nel cercapersone/bot.
3. Ned. 3: pilota su 2-3 servizi critici; aggiustare Comms SLA e modelli.
4. Ned. 4-5: estendere la copertura, introdurre l'Escalation Review settimanale e le metriche della maturità.
15) Totale
La matrice delle escalation è la Costituzione operativa degli incidenti. Con un certo tipo di SEC, timing, canali, eccezioni di sicurezza e integrazione con playbook e status page, il team reagisce in modo rapido, coerente e trasparente, mentre gli utenti vedono i prevedibili update e ripristini sicuri del servizio.