Matrice d'escalade

1) Destination de la matrice

La matrice d'escalade est une règle unique qui et quand se connecte pour que les incidents se traduisent rapidement du chaos au processus contrôlé. Elle définit :

les niveaux SEV et leurs critères ;
timing (détection de → ack → escalade → update) ;
les rôles/canaux pour chaque étape ;
les exceptions (sans « heures silencieuses » pour la sécurité et la conformité) ;
lien avec le pleybuk et la page de statut.

2) Classification par gravité (SEV)

SEV	L'Impact	Exemples	Objectifs du temps
SEV-0	Indisponibilité totale de l'activité clé/des données	Down régional, perte de données Tier-0	Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1	Grave dégradation du SLO	Paiements -3 % à SLO, p95> 400 ms	Declare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2	Dégradation partielle/contournement possible	Un fournisseur tombe, manger folback	Declare ≤ 20 м; Comms par nécessité
SEV-3	Faible impact/intérieur	Défaillances qui n'affectent pas les clients	Pas d'apdates publiques

Précisez les nombres cibles pour votre domaine et SLO.

3) Matrice de base « qui/quand/où »

Événement	Тайминг	Qui initie	Qui avançons	Canal/Outil	Commentaire
Détection (Page)	T0 → tout de suite	Surveillance/P1	П1	Pager/chat # alerts-svc	Impression automatique de Pleybuck
ACK Page	≤ 5 min (SEV-1/0)	П1	—	Pager	S'il n'y a pas ACK - auto-escalade
No-ACK	5 min	Pager	П2	Pager/son	Ensuite - IC dans 5-10 min
Declare SEV-1/0	≤ 10 min	IC/P1	Duty Manager, Comms	# war-room- , status page	Sorties Freeze
First Comms	≤ 15 min	Comms (par IC)	Clients/internes. Steikholders	Page de statut/courrier	Modèle Impact-Diag-Action-ETA
Security trigger	À la fois	Security IR	IC, Legal, Exec	#sec-war-room	Pas de quiet hours
Provider red	≤ 5 min après confirmation	Vendor Owner	IC, Product	Canal vendeur/courrier	Initier le switchover
No update	> 30 min (SEV-1/0)	Bot	IC/Comms	War-room	Rappel de SLA updates

4) Arbre d'escalade décisif (essence)

1. Y a-t-il un impact confirmé sur le SLO ?

→ Oui : assigner un IC, déclarer un SEV, ouvrir une salle de guerre.
→ Non : ticket/observation, pas de page.

2. Avez-vous ACK à temps ?

→ Oui, on continue sur le pleybuk.
→ Non : P2 → IC → DM.

3. Sécurité/fuites/PII ?

→ Toujours Security IR + Legal, les messages publics sont négociés.

4. Fournisseur externe ?

→ Escalade de Vendor Owner, changement d'itinéraire, fix dans l'état.

5) Rôles et responsabilités dans l'escalade (en bref)

P1 (Primaire) : triage, début de Pleybuck, communication avec IC.
P2 (Secondaire) : backup, actions complexes, maintien du contexte.
IC (Incident Commander) : annonce SEV, décide freeze/rollback, maintient le rythme.
Duty Manager : supprime les verrous, redistribue les ressources, prend des décisions.
Comms : page de statut, updates par SLA.
Sécurité IR : isolation, forensisme, mentions légales.
Vendor Owner : fournisseurs externes, switchover/fallback.

6) Hydes temporaires (repères)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Forêt d'escalade : P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Sécurité : pas de retard et « heures silencieuses », apdates q = 15 m.

7) Routage et segmentation

Par service/région/tenant : clé de routage = 'service + région + tenant'.
Le quorum des sondes : эскалировать seulement à la confirmation de ≥2 sources indépendantes (synthetic de 2 régions + RUM/biznes-SLI).
Dedup : un maître alert au lieu de dizaines de symptômes (OBD « rouge » brouillant le bruit 5xx).

8) Exclusions et régimes spéciaux

Security/Legal : escalade de Security IR et Legal en dehors de la file d'attente ; textes publics uniquement par l'harmonisation.
Fournisseurs : une matrice OLA/SLA distincte (contacts, fuseaux horaires, priorité).
Change Freeze : À la SEV-1/0, freeze automatique des versions et des fligs.

9) Métriques de maturité matricielle

Ack p95 (SEV-1/0) ≤ 5 min.
Time to Declare (médiane) ≤ 10 min.
Comms SLA Adherence ≥ 95%.
Escalation Success (résolu au niveau P1/P2) ≥ 70 %.
No-ACK escalations ↓ QoQ.
Vendor Response Time sur les fournisseurs critiques dans les limites du contrat.

10) Chèques-feuilles

En ligne (pour on-call)

L'impact sur le SLO et le SEV potentiel est défini.
Fait par ACK et attribué IC (pour SEV-1/0).
La salle de guerre est ouverte, le playbook est attaché.
Statut d'apdate publié/planifié sur SLA.
Inclus freeze (si nécessaire), le fournisseur/la sécurité est escaladé.

Process (revue hebdomadaire)

L'escalier d'escalade a-t-il fonctionné avec l'ALS ?
N'y a-t-il pas eu une escalade excessive avant l'IC ?
Les notifications aux clients sont-elles opportunes et exactes ?
Y avait-il des bloqueurs (accès, contacts des fournisseurs, canal « muet ») ?
L'APA pour les défaillances de processus est également en cours.

11) Modèles

11. 1 Politique d'escalade (YAML-idée)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Carte « escalade dans le temps » (pour le bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Modèle du premier Apdate public


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Intégration

Alert-as-Code : Chaque page-règle se réfère à exactement un playbook et connaît sa matrice d'escalade.
ChatOps : commandes '/declare sev1 ', '/page p2', '/status update ', auto-temporisateurs d'update.
CMDB/Catalogue : le service a des propriétaires, on-call, une matrice, des fournisseurs, des canaux.
Page d'état : modèles pour les SEV-1/0, historique des updates, liens vers RCA.

13) Anti-modèles

« Nous escaladons tout le monde à la fois » → le bruit et la responsabilité floue.
Il n'y a pas d'IC/war-room - les solutions se répandent sur les chats.
Le retard du premier update est une augmentation des plaintes et des risques de RP.
L'absence d'exceptions pour la sécurité est un risque juridique.
Fournisseurs externes sans propriétaire et contacts.
L'escalier n'est pas automatisé, c'est sur la main.

14) Feuille de route pour la mise en œuvre (3-5 semaines)

1. Ned. 1 : fixer les critères SEV et les temporisations ; recueillir les contacts des rôles/fournisseurs ; Sélectionnez les canaux.
2. Ned. 2 : décrire la politique (YAML), lier à Alert-as-Code, inclure le bois dans le pager/bot.
3. Ned. 3 : pilote à 2-3 services critiques ; déboguer Comms SLA et les modèles.
4. Ned. 4-5 : élargir la couverture, introduire une revue hebdomadaire d'escalade et des métriques de maturité.

15) Résultat

La matrice d'escalade est la Constitution opérationnelle des incidents : qui, quand et comment se connecte. Avec des SEV clairs, des temporisations, des canaux, des exceptions pour la sécurité et l'intégration avec les playbacks et le statut de la page, l'équipe réagit rapidement, de manière cohérente et transparente, et les utilisateurs voient des mises à jour prévisibles et une restauration sûre du service.

Matrice d'escalade

Process (revue hebdomadaire)

Prendre contact

Contact rapide

La vidéo sera bientôt mise à jour

Nous sommes actuellement très occupés par des projets