Reakcja na incydent i wypadek

(Sekcja: Operacje i zarządzanie)

1) Definicje i cele

Incydent - zdarzenie, które narusza SLO/bezpieczeństwo/zgodność lub stwarza ryzyko dla klientów, pieniędzy, danych, reputacji.
Cele reakcji: aby szybko przywrócić usługę, zminimalizować uszkodzenia, naprawić dowody, komunikować się w sposób przejrzysty i zapobiec powtarzaniu.

Kluczowe zasady

Bezpieczeństwo po pierwsze: Ochrona osób/danych/pieniędzy nad funkcjami.
Jedno gardło do duszenia: jeden dowódca incydentu (IC) podejmuje decyzje.
Działanie teraz: po każdej hipotezie następuje test/działanie.
Dowody są ważne: wszystko jest rejestrowane, artefakty są podpisywane, linia czasowa jest szczegółowa.

2) Klasyfikacja (dotkliwość i priorytet)

SEV	Znaki	Cel MTTR	Przykłady
P1/ SEV-0	Ogromna niedostępność/utrata pieniędzy/wyciek PII	≤ 60 min	Realizacja transakcji nie powiodła się; wyciek danych osobowych; nieprawidłowe umorzenia
P2/ SEV-1	Ciężka degradacja/częściowy region	≤ 4 h	Lag webhooks, poza cenami synchronizacji; wysokie błędy dostawcy
P3/ SEV-2	Lokalny wzrost degradacji/błędów	≤ 24 h	Przeciążenie kolejki partnerów; splash sygnałów nadużyć finansowych
P4/ SEV-3	Drobne błędy/ryzyko tendencji	Zgodnie z planem	Odchylenia mierników, przestarzałe świadectwa

Wyzwalacz: naruszenie SLO, zasada ostrzegania, raport ręczny, incydent prawny (DPO/CCO).

3) Role i obowiązki (RACI)

Dowódca incydentu (A) - lider incydentu, wyznaczanie zadań, podejmowanie decyzji, zmiany IC w przypadku długich incydentów.
Tech Lead (R) - diagnostyka techniczna/poprawki, SRE/koordynacja inżynieryjna.
Comms Lead (R) - zapisuje aktualizacje stanu (wewnątrz/na zewnątrz), właściciela strony statusu.
Skryba (R) - protokół, linia czasu, zbiór artefaktów.
Bezpieczeństwo/Prawo (C/A w sprawach dotyczących bezpieczeństwa) - ocena ryzyka, obowiązkowe powiadomienia.
Obsługa klienta (C) - szablony odpowiedzi, routing biletów.
Partner Liaison (C) - komunikacja z dostawcami/najemcami.
Zarządzanie (I) - informacje, decyzje biznesowe (pożyczki/rekompensaty).

4) Pierwsze 15 minut (szablon)

1. Przypisz IC i otwórz kartę incydentu (kanał czatu, most wideo, Jira/Tracker).
2. Przypisać SEV i naprawić objaw SLO (co dokładnie jest naruszone).

3. Ustabilizować:

zawiera książki startowe/runy: wyłączniki, przepuszczanie, przełączanie trasy, promo pauzy;
w przypadku kompromisu - funkcje wrażliwe kill-switch.
4. Polecenia: Tech Lead - diagnostyka; Komunikatory - „hold techniczny” (w 10-15 minut - pierwsza aktualizacja).
5. Zidentyfikować hipotezy (trzy maksymalne), przypisać właścicieli, ustawić czasomierze do weryfikacji (5-10 minut).
6. Zbierz artefakty: migawki metryki, konfiguracje, hashes release, logi z 'trace _ id', paragony.

5) Pierwsza godzina (szablon)

Komunikacja v1 (15-20 min): fakt, zasięg, objawy, co robimy, następna aktualizacja. Żadnych spekulacji.
Granice zdarzeń: na które regiony/najemcy/kanały/wersje mają wpływ.
Kontrola uszkodzeń: czasowe zakrętki/ograniczenia, odłączenie „hałaśliwych” integracji, aktywacja trybu degradacji.
Technicy: zamrażać obroty dziennika, chronić artefakty (WORM/podpisy).
Plan naprawy: T + 30/T + 60 z punktami kontrolnymi.

6) Komunikacja i strona statusu

Przedziały wewnętrzne: P1 - co 15 min, P2 - 30-60 min.
Zewnętrzny: strona stanu/najemcy/partnerzy SLA.

Szablon wiadomości:

Co można zobaczyć: „z X: YY UTC, wzrost niepowodzeń w realizacji transakcji w regionie UE (p95> 250 ms)”
Dotknięte: „Operatorzy A/B/C ~ 40% ruchu”
Co robimy: "zawierał alternatywną trasę, throttling promo; współpracujemy z dostawcą" PSP-1
Dane/terminy: „następna aktualizacja za 15 minut”
Rekompensaty: „stosować noty kredytowe według SLA po zamknięciu incydentu”

7) Playbooks (referencje dla iGaming/fintech)

• Niedopasowanie (zaprezentowanie realizacji transakcji): niepełnosprawność cache force, 'fx _ version/tax _ rule _ version' pojednanie, dynamiczne zamrożenie promo, kompensacja rozbieżności w polityce.
WebhookLag (partnerzy/partnerzy): skalowanie pracowników, zwiększanie partii, przekłady priorytetowe, tymczasowe ograniczenie nowych subskrypcji.
Płatności Przerwa/degradacja PSP: przejście na kopię zapasową PSP, zmniejszenie czasu klienta, ręczne rozliczanie kolejek, szare transakcje w kwarantannie.
RTP Drift: bonus pause, paytable/version check, monitoring window extension, RTP profile rollback.
Oszustwo Spike: zaostrzyć prędkość/limity, obejmują dodatkowe sprawdzanie KYC, izolować podejrzane kohorty, ręcznie sprawdzać wysokie wygrane.
Dane/Ekspozycja PII: izolacja systemu, DPO/Powiadomienie prawne, spis danych, powiadomienia regulacyjne według harmonogramu.

8) Narzędzia i runy (automatyczne działania)

Кновка: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Szyny ochronne: ochrona przed „siodełkowaniem” - rolki są ograniczone, logi są podpisywane, każda akcja „IC/Scribe”.
Provability: podpisy DSSE, hashes migawki, plastry logów Merkle.

9) Koniec incydentu

Kryteria: przywrócono SLO, zrealizowano kolejkę, uzgodniono dane/pieniądze, zamknięto ryzyko, wysłano komunikaty.
Rytuał zamknięcia: aktualizacja stanu końcowego, ustalona linia czasu, lista wpływów, wstępne hipotezy przyczyn, przypisana data pośmiertna.

10) Pośmiertnie (bez opłat)

Termin: P1 - w ciągu 3 dni roboczych; P2 - 5 dni roboczych.
Treść: fakty/linia czasu, przyczyny root (5 Whys/FRAM), wpływ (SLO, finanse, klienci), co działało/nie, pozycje akcji (właściciel, termin, wymierny efekt).
Kontrola skuteczności: po 30-60 dniach - przegląd wydajności i mierników (powtarzalność, MTTR, hałas alarmowy).

11) Wskaźniki zarządzania incydentami i SLO

MTTD/MTTA/MTTR, zmiana wskaźnika awarii, czas do Comms v1,% automatycznie dozwolone (runy).
Alert Noise: odsetek nieistotnych sygnałów, stron na dyżur.
Powtarzane zdarzenia: Odsetek powtórzeń w ciągu 90 dni.
pośmiertny SLA: odsetek ukończonych/zamkniętych na czas.
reakcje SLO: P1 - pierwsza komunikacja ≤ 15 min; MTTR ≤ 60 min; artefakt kompletność = 100%.

12) Prawo/Zgodność/Prywatność

Informacje prawne: terminowość lokalnych organów regulacyjnych w odniesieniu do wycieków/incydentów.
Minimalizacja PII: dostęp do podstawowej tylko poprzez zatwierdzone jabs; tokenizacja/maskowanie.
Przechowywanie artefaktów: dzienniki WORM, okres przechowywania według jurysdykcji; kontrola dostępu (RBAC/ABAC, JIT).
Kontrahenci: umowne SLA, proces eskalacji, wpływy z postępowań.

13) Organizacja obowiązków i eskalacja

24 × 7 dyżurów: obrót według roli (SRE, Aplikacja, Dane, Bezpieczeństwo, Płatności).
Macierz eskalacji: kto dla regionów/produktów/dostawców; zduplikowane kontakty (czat/głos/SMS).
Ćwiczenia (GameDays): symulacje - spadek PSP, lawina retray, niedokonanie cen, kluczowy kompromis, awaria regionu.

14) Deski rozdzielcze incydentów

Ciepło (teraz): status SLO, p95/p99, mapa regionów/najemców, kolejka zadań, artefakty zebrane/nie.
Historia: trendy według rodzaju incydentu, wydajność biegów, powodowanie nawrotu.
Kontrola jakości: kompletność linii czasowej, „pokrycie” pośmiertnych kredytów hipotecznych, komunikacja SLA.

15) Lista kontrolna wdrażania

Zatwierdzenie skali SEV i wyzwalaczy SLO.
Przypisywanie ról (IC/Tech/Comms/Scribe/Sec/Legal) i rotacji 24 × 7.
Uruchom szablon karty incydentu i stronę stanu.
Opisz playbooks (Wad/WebhookLag/Payments/RTP/Fraud/PII).
Wdrożyć działa z audytem i czerwonym przyciskiem.
Włącz WORM/Signatures/Artifact Collection.
Procedura łączności (wewnętrzna/zewnętrzna), aktualizacje SLA.
Proces i szablony pośmiertne; KPI realizacji elementów działania.
GameDays miesięcznie; kwartalny przegląd tendencji incydentów.
Mierniki IR deski rozdzielczej (MTTA/MTTR/Noise/Repeat/Comms SLA).

16) FAQ

Dlaczego „sam IC”?
Pojedynczy punkt decyzji usuwa chaos i przyspiesza reakcje.

Kiedy ogłosić publicznie?
Jak tylko zostanie potwierdzony fakt i plan stabilizacji. Ocena terminów regulacyjnych.

Co jest ważniejsze - poprawka lub raport?
Po pierwsze, odzyskanie i bezpieczeństwo. Równolegle - kolekcja artefaktów. Raport - po stabilizacji.

Czy można wszystko zautomatyzować?
Nie, ale działa blisko „częste i proste” kroki. Reszta to czyste playbooki i treningi.

Podsumowanie: Silna reakcja incydentu nie jest tylko o PagerDuty i kanał czatu. Jest to dyscyplina ról, szybkie pierwsze 15 minut, kontrolowane biegi, przejrzysta komunikacja, kryminalistyka z provability i obowiązkowe pośmiertne. Dzięki temu obwodowi zmniejszasz MTTR, chronisz pieniądze i dane oraz zwiększasz zaufanie klientów i regulatorów.

Reakcja na incydent i wypadek

Kluczowe zasady

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami