Matrice d'escalade
1) Destination de la matrice
La matrice d'escalade est une règle unique qui et quand se connecte pour que les incidents se traduisent rapidement du chaos au processus contrôlé. Elle définit :- les niveaux SEV et leurs critères ;
- timing (détection de → ack → escalade → update) ;
- les rôles/canaux pour chaque étape ;
- les exceptions (sans « heures silencieuses » pour la sécurité et la conformité) ;
- lien avec le pleybuk et la page de statut.
2) Classification par gravité (SEV)
Précisez les nombres cibles pour votre domaine et SLO.
3) Matrice de base « qui/quand/où »
4) Arbre d'escalade décisif (essence)
1. Y a-t-il un impact confirmé sur le SLO ?
→ Oui : assigner un IC, déclarer un SEV, ouvrir une salle de guerre.
→ Non : ticket/observation, pas de page.
2. Avez-vous ACK à temps ?
→ Oui, on continue sur le pleybuk.
→ Non : P2 → IC → DM.
3. Sécurité/fuites/PII ?
→ Toujours Security IR + Legal, les messages publics sont négociés.
4. Fournisseur externe ?
→ Escalade de Vendor Owner, changement d'itinéraire, fix dans l'état.
5) Rôles et responsabilités dans l'escalade (en bref)
P1 (Primaire) : triage, début de Pleybuck, communication avec IC.
P2 (Secondaire) : backup, actions complexes, maintien du contexte.
IC (Incident Commander) : annonce SEV, décide freeze/rollback, maintient le rythme.
Duty Manager : supprime les verrous, redistribue les ressources, prend des décisions.
Comms : page de statut, updates par SLA.
Sécurité IR : isolation, forensisme, mentions légales.
Vendor Owner : fournisseurs externes, switchover/fallback.
6) Hydes temporaires (repères)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Forêt d'escalade : P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Sécurité : pas de retard et « heures silencieuses », apdates q = 15 m.
7) Routage et segmentation
Par service/région/tenant : clé de routage = 'service + région + tenant'.
Le quorum des sondes : эскалировать seulement à la confirmation de ≥2 sources indépendantes (synthetic de 2 régions + RUM/biznes-SLI).
Dedup : un maître alert au lieu de dizaines de symptômes (OBD « rouge » brouillant le bruit 5xx).
8) Exclusions et régimes spéciaux
Security/Legal : escalade de Security IR et Legal en dehors de la file d'attente ; textes publics uniquement par l'harmonisation.
Fournisseurs : une matrice OLA/SLA distincte (contacts, fuseaux horaires, priorité).
Change Freeze : À la SEV-1/0, freeze automatique des versions et des fligs.
9) Métriques de maturité matricielle
Ack p95 (SEV-1/0) ≤ 5 min.
Time to Declare (médiane) ≤ 10 min.
Comms SLA Adherence ≥ 95%.
Escalation Success (résolu au niveau P1/P2) ≥ 70 %.
No-ACK escalations ↓ QoQ.
Vendor Response Time sur les fournisseurs critiques dans les limites du contrat.
10) Chèques-feuilles
En ligne (pour on-call)
- L'impact sur le SLO et le SEV potentiel est défini.
- Fait par ACK et attribué IC (pour SEV-1/0).
- La salle de guerre est ouverte, le playbook est attaché.
- Statut d'apdate publié/planifié sur SLA.
- Inclus freeze (si nécessaire), le fournisseur/la sécurité est escaladé.
Process (revue hebdomadaire)
- L'escalier d'escalade a-t-il fonctionné avec l'ALS ?
- N'y a-t-il pas eu une escalade excessive avant l'IC ?
- Les notifications aux clients sont-elles opportunes et exactes ?
- Y avait-il des bloqueurs (accès, contacts des fournisseurs, canal « muet ») ?
- L'APA pour les défaillances de processus est également en cours.
11) Modèles
11. 1 Politique d'escalade (YAML-idée)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Carte « escalade dans le temps » (pour le bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Modèle du premier Apdate public
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Intégration
Alert-as-Code : Chaque page-règle se réfère à exactement un playbook et connaît sa matrice d'escalade.
ChatOps : commandes '/declare sev1 ', '/page p2', '/status update ', auto-temporisateurs d'update.
CMDB/Catalogue : le service a des propriétaires, on-call, une matrice, des fournisseurs, des canaux.
Page d'état : modèles pour les SEV-1/0, historique des updates, liens vers RCA.
13) Anti-modèles
« Nous escaladons tout le monde à la fois » → le bruit et la responsabilité floue.
Il n'y a pas d'IC/war-room - les solutions se répandent sur les chats.
Le retard du premier update est une augmentation des plaintes et des risques de RP.
L'absence d'exceptions pour la sécurité est un risque juridique.
Fournisseurs externes sans propriétaire et contacts.
L'escalier n'est pas automatisé, c'est sur la main.
14) Feuille de route pour la mise en œuvre (3-5 semaines)
1. Ned. 1 : fixer les critères SEV et les temporisations ; recueillir les contacts des rôles/fournisseurs ; Sélectionnez les canaux.
2. Ned. 2 : décrire la politique (YAML), lier à Alert-as-Code, inclure le bois dans le pager/bot.
3. Ned. 3 : pilote à 2-3 services critiques ; déboguer Comms SLA et les modèles.
4. Ned. 4-5 : élargir la couverture, introduire une revue hebdomadaire d'escalade et des métriques de maturité.
15) Résultat
La matrice d'escalade est la Constitution opérationnelle des incidents : qui, quand et comment se connecte. Avec des SEV clairs, des temporisations, des canaux, des exceptions pour la sécurité et l'intégration avec les playbacks et le statut de la page, l'équipe réagit rapidement, de manière cohérente et transparente, et les utilisateurs voient des mises à jour prévisibles et une restauration sûre du service.