Matryca eskalacji

1) Przeznaczenie matrycy

Macierz eskalacji to jednolite zasady dotyczące tego, kto łączy i kiedy, dzięki czemu zdarzenia szybko przechodzą z chaosu do procesu zarządzanego. Ustawia:

poziomy SEV i ich kryteria;
czas (wykrywanie ack → → eskalacja → aktualizacje);
Role/kanały dla każdego kroku
Wyjątki (brak cichych godzin dla bezpieczeństwa i zgodności)
pakiet z odtwarzaczami i stroną statusu.

2) Klasyfikacja według ciężkości (SEV)

SEV	Wpływ	Przykłady	Cele czasu
SEV-0	Kompletna niedostępność kluczowych danych biznesowych	Regional down, utrata danych Tier-0	Deklaracja ≤ 5 "; Pierwszy Comms ≤ 10 "; MTTR - JAK NAJSZYBCIEJ
SEV-1	Poważna degradacja SLO	Płatności -3% na rzecz SLO, p95> 400 ms	Deklaracja ≤ 10 "; Pierwszy Comms ≤ 15 "; Aktualizacje q = 15-30
SEV-2	Możliwe częściowe rozkład/obejście	Jeden dostawca upada, jest folback	Deklaracja ≤ 20 "; Komunikaty w razie potrzeby
SEV-3	Niski wpływ/wewnętrzny	Niebędący klientem mający wpływ na awarie	Brak publicznych aktualizacji

Określ numery docelowe domeny i SLO.

3) Podstawowy kto/kiedy/gdzie matryca

Zdarzenie	Harmonogram	Kto inicjuje	Kogo wzrastamy	Kanał/narzędzie	Komentarz
Wykrywanie (strona)	T0 → natychmiast	Monitoring/P1	P1	Pager/czat # alerts-svc	Automatyczne dołączanie Playbook
Strona ACK	≤ 5 min (SEV-1/0)	P1	—	Pager	Jeśli nie ma ACK - automatyczna eskalacja
No-ACK	5 min	Pager	P2	Pager/dźwięk	Dalej - IC w 5-10 min
Ogłoszenie SEV-1/0	≤ 10 min	IC/P1	Menedżer obowiązków, komunikatory	# war-room- , strona statusu	Freeze releases
Pierwsze komunikaty	≤ 15 min	Komunikatory (przez IC)	Klienci/Int. zainteresowane strony	Strona statusu/poczta	Szablon Impact-Diag-Actions-ETA
Wyzwalacz zabezpieczeń	Natychmiast	Uprawnienia IR w zakresie bezpieczeństwa	IC, Legal, Exec	# sec-war-room	Bez cichych godzin
Dostawca czerwony	≤ 5 min po potwierdzeniu	Właściciel sprzedawcy	IC, produkt	Kanał sprzedawcy/poczta	Inicjowanie przełączania
Brak aktualizacji	> 30 min (SEV-1/0)	Łódź	IC/Comms	Pokój wojenny	Aktualizacja przypomnienia SLA

4) Kluczowe drzewo eskalacji (istota)

1. Jakiś potwierdzony wpływ na SLO?

→ Tak: przydzielić IC, ogłosić SEV, otworzyć pokój wojenny.
→ Nie: bilet/obserwacja, brak strony.

2. Masz ACK na czas?

→ Tak: kontynuujemy playbook.
→ Nie: P2 → IC → DM (drabina w czasie).

3. Bezpieczeństwo/wyciek/PII?

→ Zawsze bezpieczeństwo IR + Prawne, komunikacja publiczna są skoordynowane.

4. Zewnętrzny dostawca?

→ eskalacja właściciela dostawcy, przełączanie trasy, naprawianie stanu.

5) Role i obowiązki eskalacji (krótkie)

P1 (Primary): triage, playbook start, link to IC.
P2 (wtórne): kopia zapasowa, skomplikowane działania, zatrzymywanie kontekstu.
IC (Incydent Commander): Ogłasza SEV, decyduje o zamrożeniu/przewróceniu, utrzymuje tempo.
Menedżer obowiązków: usuwa zamki, redystrybuuje zasoby, podejmuje decyzje organizacyjne.
Komunikaty: strona stanu, aktualizacje SLA.
IR bezpieczeństwa: izolacja, badania sądowe, zawiadomienia prawne.
Właściciel dostawcy: dostawcy zewnętrzni, przełącznik/awaryjny.

6) Tymczasowe przewodniki (punkty orientacyjne)

SEV-1/0: ACK ≤ 5 „, Deklaracja ≤ 10”, Pierwsze dojazdy ≤ 15 „, Aktualizacje q = 15-30”.
Schodów ruchomych drabinka: P1 → P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec dyżur (30 m).
Bezpieczeństwo: bez opóźnień i „cichych godzin”, aktualizacje q = 15 m.

7) Routing i segmentacja

Według usługi/regionu/najemcy: klucz routingu = 'usługa + region + najemca'.
Kworum sond: escalate tylko wtedy, gdy potwierdzone są ≥ 2 niezależne źródła (syntetyczne z 2 regionów + RUM/business SLI).
Dedup: jeden master alert zamiast dziesiątek objawów (DB „czerwony” tłumi hałas 5xx).

8) Wyjątki i tryby specjalne

Bezpieczeństwo/Prawo: eskalacja IR bezpieczeństwa i legalne z kolei; teksty publiczne tylko poprzez koordynację.
Dostawcy: oddzielna macierz OLA/SLA (kontakty, strefy czasowe, priorytet).
Zmień zamrożenie: jeśli SEV-1/0 - automatyczne zamrażanie wersji i konfiguracji.

9) Mierniki dojrzałości matrycy

Ack p95 (SEV-1/0) ≤ 5 min.
Czas do zadeklarowania (mediana) ≤ 10 min.
SLA SLA Adherence ≥ 95%.
Sukces eskalacji (ustąpił na poziomie P1/P2) ≥ 70%.

Eskalacja no-ACK

Czas odpowiedzi dostawcy dla dostawców krytycznych w ramach umowy.

10) Listy kontrolne

Online (na dyżur)

Zidentyfikowano wpływ SLO i potencjalne SEV.
Wykonane ACK i przypisane IC (dla SEV-1/0).
Wojna-pokój otwarty, playbook dołączony.
Aktualizacja statusu opublikowana/planowana przez SLA.
Zamrożenie włączone (w razie potrzeby), dostawca/bezpieczeństwo eskalowane.

Proces (przegląd tygodniowy)

Czy drabina eskalacyjna działała na SLA?
Czy przed IC doszło do zbędnej eskalacji?
Czy powiadomienia klientów są terminowe i dokładne?
Czy były blokery (dostęp, kontakty dostawcy, cichy kanał)?
Wprowadzono również CAPA dotyczące awarii procesów.

11) Szablony

11. 1 Polityka eskalacji (idea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Karta eskalacji czasu (dla bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Szablon pierwszej publicznej aktualizacji


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integracja

Alert-as-Code: Każda strona odnosi się dokładnie do jednego playbooka i zna własną macierz eskalacji.
ChatOps: polecenia '/declare sev1 ', '/page p2', '/status update ', automatyczne timery aktualizacji.
CMDB/Catalog: usługa posiada właścicieli, dyżurów, macierzy, dostawców, kanałów.
Strona stanu: szablony dla SEV-1/0, historia aktualizacji, linki do RCA.

13) Anty-wzory

„Eskaluj wszystko naraz” → hałas i niewyraźna odpowiedzialność.
Brak IC/pokój wojenny - rozwiązania wkradają się do czatów.
Opóźnienie pierwszej aktualizacji - wzrost skargi i ryzyka PR.
Brak wyjątków od bezpieczeństwa - ryzyko prawne.
Dostawcy zewnętrzni bez właściciela i kontaktów.
Schody nie są zautomatyzowane - wszystko jest „na hamulcu ręcznym”.

14) Plan działania na rzecz realizacji (3-5 tygodni)

1. Ned. 1: ustalić kryteria i terminy SEV; Zbieraj kontakty ról/dostawców wybierz kanały.
2. Ned. 2: opisać zasady (YAML), powiązać z Alert-as-Code, włączyć drabinę w pagerze/bot.
3. Ned. 3: pilot 2-3 służb krytycznych; debug SLA Komunikaty i szablony.
4. Ned. 4-5: Rozszerzyć zasięg, wprowadzić tygodniowy przegląd eskalacji i wskaźniki dojrzałości.

15) Najważniejsze

Macierz eskalacji jest operacyjną Konstytucją incydentów: kto, kiedy i jak się łączy. Dzięki wyraźnym SEV, terminom, kanałom, wyjątkom w zakresie bezpieczeństwa i integracji z odtwarzaczami i stroną statusu zespół reaguje szybko, spójnie i przejrzysto, a użytkownicy widzą przewidywalne aktualizacje i pewne siebie odzyskiwanie usług.

Matryca eskalacji

Proces (przegląd tygodniowy)

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami