GH GambleHub

Matryca eskalacji

1) Przeznaczenie matrycy

Macierz eskalacji to jednolite zasady dotyczące tego, kto łączy i kiedy, dzięki czemu zdarzenia szybko przechodzą z chaosu do procesu zarządzanego. Ustawia:
  • poziomy SEV i ich kryteria;
  • czas (wykrywanie ack → → eskalacja → aktualizacje);
  • Role/kanały dla każdego kroku
  • Wyjątki (brak cichych godzin dla bezpieczeństwa i zgodności)
  • pakiet z odtwarzaczami i stroną statusu.

2) Klasyfikacja według ciężkości (SEV)

SEVWpływPrzykładyCele czasu
SEV-0Kompletna niedostępność kluczowych danych biznesowychRegional down, utrata danych Tier-0Deklaracja ≤ 5 "; Pierwszy Comms ≤ 10 "; MTTR - JAK NAJSZYBCIEJ
SEV-1Poważna degradacja SLOPłatności -3% na rzecz SLO, p95> 400 msDeklaracja ≤ 10 "; Pierwszy Comms ≤ 15 "; Aktualizacje q = 15-30
SEV-2Możliwe częściowe rozkład/obejścieJeden dostawca upada, jest folbackDeklaracja ≤ 20 "; Komunikaty w razie potrzeby
SEV-3Niski wpływ/wewnętrznyNiebędący klientem mający wpływ na awarieBrak publicznych aktualizacji

Określ numery docelowe domeny i SLO.

3) Podstawowy kto/kiedy/gdzie matryca

ZdarzenieHarmonogramKto inicjujeKogo wzrastamyKanał/narzędzieKomentarz
Wykrywanie (strona)T0 → natychmiastMonitoring/P1P1Pager/czat # alerts-svcAutomatyczne dołączanie Playbook
Strona ACK≤ 5 min (SEV-1/0)P1PagerJeśli nie ma ACK - automatyczna eskalacja
No-ACK5 minPagerP2Pager/dźwiękDalej - IC w 5-10 min
Ogłoszenie SEV-1/0≤ 10 minIC/P1Menedżer obowiązków, komunikatory# war-room- , strona statusuFreeze releases
Pierwsze komunikaty≤ 15 minKomunikatory (przez IC)Klienci/Int. zainteresowane stronyStrona statusu/pocztaSzablon Impact-Diag-Actions-ETA
Wyzwalacz zabezpieczeńNatychmiastUprawnienia IR w zakresie bezpieczeństwaIC, Legal, Exec# sec-war-roomBez cichych godzin
Dostawca czerwony≤ 5 min po potwierdzeniuWłaściciel sprzedawcyIC, produktKanał sprzedawcy/pocztaInicjowanie przełączania
Brak aktualizacji> 30 min (SEV-1/0)ŁódźIC/CommsPokój wojennyAktualizacja przypomnienia SLA

4) Kluczowe drzewo eskalacji (istota)

1. Jakiś potwierdzony wpływ na SLO?

→ Tak: przydzielić IC, ogłosić SEV, otworzyć pokój wojenny.
→ Nie: bilet/obserwacja, brak strony.

2. Masz ACK na czas?

→ Tak: kontynuujemy playbook.
→ Nie: P2 → IC → DM (drabina w czasie).

3. Bezpieczeństwo/wyciek/PII?

→ Zawsze bezpieczeństwo IR + Prawne, komunikacja publiczna są skoordynowane.

4. Zewnętrzny dostawca?

→ eskalacja właściciela dostawcy, przełączanie trasy, naprawianie stanu.

5) Role i obowiązki eskalacji (krótkie)

P1 (Primary): triage, playbook start, link to IC.
P2 (wtórne): kopia zapasowa, skomplikowane działania, zatrzymywanie kontekstu.
IC (Incydent Commander): Ogłasza SEV, decyduje o zamrożeniu/przewróceniu, utrzymuje tempo.
Menedżer obowiązków: usuwa zamki, redystrybuuje zasoby, podejmuje decyzje organizacyjne.
Komunikaty: strona stanu, aktualizacje SLA.
IR bezpieczeństwa: izolacja, badania sądowe, zawiadomienia prawne.
Właściciel dostawcy: dostawcy zewnętrzni, przełącznik/awaryjny.

6) Tymczasowe przewodniki (punkty orientacyjne)

SEV-1/0: ACK ≤ 5 „, Deklaracja ≤ 10”, Pierwsze dojazdy ≤ 15 „, Aktualizacje q = 15-30”.
Schodów ruchomych drabinka: P1 → P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec dyżur (30 m).
Bezpieczeństwo: bez opóźnień i „cichych godzin”, aktualizacje q = 15 m.

7) Routing i segmentacja

Według usługi/regionu/najemcy: klucz routingu = 'usługa + region + najemca'.
Kworum sond: escalate tylko wtedy, gdy potwierdzone są ≥ 2 niezależne źródła (syntetyczne z 2 regionów + RUM/business SLI).
Dedup: jeden master alert zamiast dziesiątek objawów (DB „czerwony” tłumi hałas 5xx).

8) Wyjątki i tryby specjalne

Bezpieczeństwo/Prawo: eskalacja IR bezpieczeństwa i legalne z kolei; teksty publiczne tylko poprzez koordynację.
Dostawcy: oddzielna macierz OLA/SLA (kontakty, strefy czasowe, priorytet).
Zmień zamrożenie: jeśli SEV-1/0 - automatyczne zamrażanie wersji i konfiguracji.

9) Mierniki dojrzałości matrycy

Ack p95 (SEV-1/0) ≤ 5 min.
Czas do zadeklarowania (mediana) ≤ 10 min.
SLA SLA Adherence ≥ 95%.
Sukces eskalacji (ustąpił na poziomie P1/P2) ≥ 70%.

Eskalacja no-ACK

Czas odpowiedzi dostawcy dla dostawców krytycznych w ramach umowy.

10) Listy kontrolne

Online (na dyżur)

  • Zidentyfikowano wpływ SLO i potencjalne SEV.
  • Wykonane ACK i przypisane IC (dla SEV-1/0).
  • Wojna-pokój otwarty, playbook dołączony.
  • Aktualizacja statusu opublikowana/planowana przez SLA.
  • Zamrożenie włączone (w razie potrzeby), dostawca/bezpieczeństwo eskalowane.

Proces (przegląd tygodniowy)

  • Czy drabina eskalacyjna działała na SLA?
  • Czy przed IC doszło do zbędnej eskalacji?
  • Czy powiadomienia klientów są terminowe i dokładne?
  • Czy były blokery (dostęp, kontakty dostawcy, cichy kanał)?
  • Wprowadzono również CAPA dotyczące awarii procesów.

11) Szablony

11. 1 Polityka eskalacji (idea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Karta eskalacji czasu (dla bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Szablon pierwszej publicznej aktualizacji


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integracja

Alert-as-Code: Każda strona odnosi się dokładnie do jednego playbooka i zna własną macierz eskalacji.
ChatOps: polecenia '/declare sev1 ', '/page p2', '/status update ', automatyczne timery aktualizacji.
CMDB/Catalog: usługa posiada właścicieli, dyżurów, macierzy, dostawców, kanałów.
Strona stanu: szablony dla SEV-1/0, historia aktualizacji, linki do RCA.

13) Anty-wzory

„Eskaluj wszystko naraz” → hałas i niewyraźna odpowiedzialność.
Brak IC/pokój wojenny - rozwiązania wkradają się do czatów.
Opóźnienie pierwszej aktualizacji - wzrost skargi i ryzyka PR.
Brak wyjątków od bezpieczeństwa - ryzyko prawne.
Dostawcy zewnętrzni bez właściciela i kontaktów.
Schody nie są zautomatyzowane - wszystko jest „na hamulcu ręcznym”.

14) Plan działania na rzecz realizacji (3-5 tygodni)

1. Ned. 1: ustalić kryteria i terminy SEV; Zbieraj kontakty ról/dostawców wybierz kanały.
2. Ned. 2: opisać zasady (YAML), powiązać z Alert-as-Code, włączyć drabinę w pagerze/bot.
3. Ned. 3: pilot 2-3 służb krytycznych; debug SLA Komunikaty i szablony.
4. Ned. 4-5: Rozszerzyć zasięg, wprowadzić tygodniowy przegląd eskalacji i wskaźniki dojrzałości.

15) Najważniejsze

Macierz eskalacji jest operacyjną Konstytucją incydentów: kto, kiedy i jak się łączy. Dzięki wyraźnym SEV, terminom, kanałom, wyjątkom w zakresie bezpieczeństwa i integracji z odtwarzaczami i stroną statusu zespół reaguje szybko, spójnie i przejrzysto, a użytkownicy widzą przewidywalne aktualizacje i pewne siebie odzyskiwanie usług.

Contact

Skontaktuj się z nami

Napisz do nas w każdej sprawie — pytania, wsparcie, konsultacje.Zawsze jesteśmy gotowi pomóc!

Rozpocznij integrację

Email jest wymagany. Telegram lub WhatsApp są opcjonalne.

Twoje imię opcjonalne
Email opcjonalne
Temat opcjonalne
Wiadomość opcjonalne
Telegram opcjonalne
@
Jeśli podasz Telegram — odpowiemy także tam, oprócz emaila.
WhatsApp opcjonalne
Format: kod kraju i numer (np. +48XXXXXXXXX).

Klikając przycisk, wyrażasz zgodę na przetwarzanie swoich danych.