Matryca eskalacji
1) Przeznaczenie matrycy
Macierz eskalacji to jednolite zasady dotyczące tego, kto łączy i kiedy, dzięki czemu zdarzenia szybko przechodzą z chaosu do procesu zarządzanego. Ustawia:- poziomy SEV i ich kryteria;
- czas (wykrywanie ack → → eskalacja → aktualizacje);
- Role/kanały dla każdego kroku
- Wyjątki (brak cichych godzin dla bezpieczeństwa i zgodności)
- pakiet z odtwarzaczami i stroną statusu.
2) Klasyfikacja według ciężkości (SEV)
Określ numery docelowe domeny i SLO.
3) Podstawowy kto/kiedy/gdzie matryca
4) Kluczowe drzewo eskalacji (istota)
1. Jakiś potwierdzony wpływ na SLO?
→ Tak: przydzielić IC, ogłosić SEV, otworzyć pokój wojenny.
→ Nie: bilet/obserwacja, brak strony.
2. Masz ACK na czas?
→ Tak: kontynuujemy playbook.
→ Nie: P2 → IC → DM (drabina w czasie).
3. Bezpieczeństwo/wyciek/PII?
→ Zawsze bezpieczeństwo IR + Prawne, komunikacja publiczna są skoordynowane.
4. Zewnętrzny dostawca?
→ eskalacja właściciela dostawcy, przełączanie trasy, naprawianie stanu.
5) Role i obowiązki eskalacji (krótkie)
P1 (Primary): triage, playbook start, link to IC.
P2 (wtórne): kopia zapasowa, skomplikowane działania, zatrzymywanie kontekstu.
IC (Incydent Commander): Ogłasza SEV, decyduje o zamrożeniu/przewróceniu, utrzymuje tempo.
Menedżer obowiązków: usuwa zamki, redystrybuuje zasoby, podejmuje decyzje organizacyjne.
Komunikaty: strona stanu, aktualizacje SLA.
IR bezpieczeństwa: izolacja, badania sądowe, zawiadomienia prawne.
Właściciel dostawcy: dostawcy zewnętrzni, przełącznik/awaryjny.
6) Tymczasowe przewodniki (punkty orientacyjne)
SEV-1/0: ACK ≤ 5 „, Deklaracja ≤ 10”, Pierwsze dojazdy ≤ 15 „, Aktualizacje q = 15-30”.
Schodów ruchomych drabinka: P1 → P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec dyżur (30 m).
Bezpieczeństwo: bez opóźnień i „cichych godzin”, aktualizacje q = 15 m.
7) Routing i segmentacja
Według usługi/regionu/najemcy: klucz routingu = 'usługa + region + najemca'.
Kworum sond: escalate tylko wtedy, gdy potwierdzone są ≥ 2 niezależne źródła (syntetyczne z 2 regionów + RUM/business SLI).
Dedup: jeden master alert zamiast dziesiątek objawów (DB „czerwony” tłumi hałas 5xx).
8) Wyjątki i tryby specjalne
Bezpieczeństwo/Prawo: eskalacja IR bezpieczeństwa i legalne z kolei; teksty publiczne tylko poprzez koordynację.
Dostawcy: oddzielna macierz OLA/SLA (kontakty, strefy czasowe, priorytet).
Zmień zamrożenie: jeśli SEV-1/0 - automatyczne zamrażanie wersji i konfiguracji.
9) Mierniki dojrzałości matrycy
Ack p95 (SEV-1/0) ≤ 5 min.
Czas do zadeklarowania (mediana) ≤ 10 min.
SLA SLA Adherence ≥ 95%.
Sukces eskalacji (ustąpił na poziomie P1/P2) ≥ 70%.
Eskalacja no-ACK
Czas odpowiedzi dostawcy dla dostawców krytycznych w ramach umowy.
10) Listy kontrolne
Online (na dyżur)
- Zidentyfikowano wpływ SLO i potencjalne SEV.
- Wykonane ACK i przypisane IC (dla SEV-1/0).
- Wojna-pokój otwarty, playbook dołączony.
- Aktualizacja statusu opublikowana/planowana przez SLA.
- Zamrożenie włączone (w razie potrzeby), dostawca/bezpieczeństwo eskalowane.
Proces (przegląd tygodniowy)
- Czy drabina eskalacyjna działała na SLA?
- Czy przed IC doszło do zbędnej eskalacji?
- Czy powiadomienia klientów są terminowe i dokładne?
- Czy były blokery (dostęp, kontakty dostawcy, cichy kanał)?
- Wprowadzono również CAPA dotyczące awarii procesów.
11) Szablony
11. 1 Polityka eskalacji (idea YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Karta eskalacji czasu (dla bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Szablon pierwszej publicznej aktualizacji
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Integracja
Alert-as-Code: Każda strona odnosi się dokładnie do jednego playbooka i zna własną macierz eskalacji.
ChatOps: polecenia '/declare sev1 ', '/page p2', '/status update ', automatyczne timery aktualizacji.
CMDB/Catalog: usługa posiada właścicieli, dyżurów, macierzy, dostawców, kanałów.
Strona stanu: szablony dla SEV-1/0, historia aktualizacji, linki do RCA.
13) Anty-wzory
„Eskaluj wszystko naraz” → hałas i niewyraźna odpowiedzialność.
Brak IC/pokój wojenny - rozwiązania wkradają się do czatów.
Opóźnienie pierwszej aktualizacji - wzrost skargi i ryzyka PR.
Brak wyjątków od bezpieczeństwa - ryzyko prawne.
Dostawcy zewnętrzni bez właściciela i kontaktów.
Schody nie są zautomatyzowane - wszystko jest „na hamulcu ręcznym”.
14) Plan działania na rzecz realizacji (3-5 tygodni)
1. Ned. 1: ustalić kryteria i terminy SEV; Zbieraj kontakty ról/dostawców wybierz kanały.
2. Ned. 2: opisać zasady (YAML), powiązać z Alert-as-Code, włączyć drabinę w pagerze/bot.
3. Ned. 3: pilot 2-3 służb krytycznych; debug SLA Komunikaty i szablony.
4. Ned. 4-5: Rozszerzyć zasięg, wprowadzić tygodniowy przegląd eskalacji i wskaźniki dojrzałości.
15) Najważniejsze
Macierz eskalacji jest operacyjną Konstytucją incydentów: kto, kiedy i jak się łączy. Dzięki wyraźnym SEV, terminom, kanałom, wyjątkom w zakresie bezpieczeństwa i integracji z odtwarzaczami i stroną statusu zespół reaguje szybko, spójnie i przejrzysto, a użytkownicy widzą przewidywalne aktualizacje i pewne siebie odzyskiwanie usług.