Reakcja na incydent i wypadek
(Sekcja: Operacje i zarządzanie)
1) Definicje i cele
Incydent - zdarzenie, które narusza SLO/bezpieczeństwo/zgodność lub stwarza ryzyko dla klientów, pieniędzy, danych, reputacji.
Cele reakcji: aby szybko przywrócić usługę, zminimalizować uszkodzenia, naprawić dowody, komunikować się w sposób przejrzysty i zapobiec powtarzaniu.
Kluczowe zasady
Bezpieczeństwo po pierwsze: Ochrona osób/danych/pieniędzy nad funkcjami.
Jedno gardło do duszenia: jeden dowódca incydentu (IC) podejmuje decyzje.
Działanie teraz: po każdej hipotezie następuje test/działanie.
Dowody są ważne: wszystko jest rejestrowane, artefakty są podpisywane, linia czasowa jest szczegółowa.
2) Klasyfikacja (dotkliwość i priorytet)
Wyzwalacz: naruszenie SLO, zasada ostrzegania, raport ręczny, incydent prawny (DPO/CCO).
3) Role i obowiązki (RACI)
Dowódca incydentu (A) - lider incydentu, wyznaczanie zadań, podejmowanie decyzji, zmiany IC w przypadku długich incydentów.
Tech Lead (R) - diagnostyka techniczna/poprawki, SRE/koordynacja inżynieryjna.
Comms Lead (R) - zapisuje aktualizacje stanu (wewnątrz/na zewnątrz), właściciela strony statusu.
Skryba (R) - protokół, linia czasu, zbiór artefaktów.
Bezpieczeństwo/Prawo (C/A w sprawach dotyczących bezpieczeństwa) - ocena ryzyka, obowiązkowe powiadomienia.
Obsługa klienta (C) - szablony odpowiedzi, routing biletów.
Partner Liaison (C) - komunikacja z dostawcami/najemcami.
Zarządzanie (I) - informacje, decyzje biznesowe (pożyczki/rekompensaty).
4) Pierwsze 15 minut (szablon)
1. Przypisz IC i otwórz kartę incydentu (kanał czatu, most wideo, Jira/Tracker).
2. Przypisać SEV i naprawić objaw SLO (co dokładnie jest naruszone).
- zawiera książki startowe/runy: wyłączniki, przepuszczanie, przełączanie trasy, promo pauzy;
- w przypadku kompromisu - funkcje wrażliwe kill-switch.
- 4. Polecenia: Tech Lead - diagnostyka; Komunikatory - „hold techniczny” (w 10-15 minut - pierwsza aktualizacja).
- 5. Zidentyfikować hipotezy (trzy maksymalne), przypisać właścicieli, ustawić czasomierze do weryfikacji (5-10 minut).
- 6. Zbierz artefakty: migawki metryki, konfiguracje, hashes release, logi z 'trace _ id', paragony.
5) Pierwsza godzina (szablon)
Komunikacja v1 (15-20 min): fakt, zasięg, objawy, co robimy, następna aktualizacja. Żadnych spekulacji.
Granice zdarzeń: na które regiony/najemcy/kanały/wersje mają wpływ.
Kontrola uszkodzeń: czasowe zakrętki/ograniczenia, odłączenie „hałaśliwych” integracji, aktywacja trybu degradacji.
Technicy: zamrażać obroty dziennika, chronić artefakty (WORM/podpisy).
Plan naprawy: T + 30/T + 60 z punktami kontrolnymi.
6) Komunikacja i strona statusu
Przedziały wewnętrzne: P1 - co 15 min, P2 - 30-60 min.
Zewnętrzny: strona stanu/najemcy/partnerzy SLA.
- Co można zobaczyć: „z X: YY UTC, wzrost niepowodzeń w realizacji transakcji w regionie UE (p95> 250 ms)”
- Dotknięte: „Operatorzy A/B/C ~ 40% ruchu”
- Co robimy: "zawierał alternatywną trasę, throttling promo; współpracujemy z dostawcą" PSP-1
- Dane/terminy: „następna aktualizacja za 15 minut”
- Rekompensaty: „stosować noty kredytowe według SLA po zamknięciu incydentu”
7) Playbooks (referencje dla iGaming/fintech)
• Niedopasowanie (zaprezentowanie realizacji transakcji): niepełnosprawność cache force, 'fx _ version/tax _ rule _ version' pojednanie, dynamiczne zamrożenie promo, kompensacja rozbieżności w polityce.
WebhookLag (partnerzy/partnerzy): skalowanie pracowników, zwiększanie partii, przekłady priorytetowe, tymczasowe ograniczenie nowych subskrypcji.
Płatności Przerwa/degradacja PSP: przejście na kopię zapasową PSP, zmniejszenie czasu klienta, ręczne rozliczanie kolejek, szare transakcje w kwarantannie.
RTP Drift: bonus pause, paytable/version check, monitoring window extension, RTP profile rollback.
Oszustwo Spike: zaostrzyć prędkość/limity, obejmują dodatkowe sprawdzanie KYC, izolować podejrzane kohorty, ręcznie sprawdzać wysokie wygrane.
Dane/Ekspozycja PII: izolacja systemu, DPO/Powiadomienie prawne, spis danych, powiadomienia regulacyjne według harmonogramu.
8) Narzędzia i runy (automatyczne działania)
Кновка: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Szyny ochronne: ochrona przed „siodełkowaniem” - rolki są ograniczone, logi są podpisywane, każda akcja „IC/Scribe”.
Provability: podpisy DSSE, hashes migawki, plastry logów Merkle.
9) Koniec incydentu
Kryteria: przywrócono SLO, zrealizowano kolejkę, uzgodniono dane/pieniądze, zamknięto ryzyko, wysłano komunikaty.
Rytuał zamknięcia: aktualizacja stanu końcowego, ustalona linia czasu, lista wpływów, wstępne hipotezy przyczyn, przypisana data pośmiertna.
10) Pośmiertnie (bez opłat)
Termin: P1 - w ciągu 3 dni roboczych; P2 - 5 dni roboczych.
Treść: fakty/linia czasu, przyczyny root (5 Whys/FRAM), wpływ (SLO, finanse, klienci), co działało/nie, pozycje akcji (właściciel, termin, wymierny efekt).
Kontrola skuteczności: po 30-60 dniach - przegląd wydajności i mierników (powtarzalność, MTTR, hałas alarmowy).
11) Wskaźniki zarządzania incydentami i SLO
MTTD/MTTA/MTTR, zmiana wskaźnika awarii, czas do Comms v1,% automatycznie dozwolone (runy).
Alert Noise: odsetek nieistotnych sygnałów, stron na dyżur.
Powtarzane zdarzenia: Odsetek powtórzeń w ciągu 90 dni.
pośmiertny SLA: odsetek ukończonych/zamkniętych na czas.
reakcje SLO: P1 - pierwsza komunikacja ≤ 15 min; MTTR ≤ 60 min; artefakt kompletność = 100%.
12) Prawo/Zgodność/Prywatność
Informacje prawne: terminowość lokalnych organów regulacyjnych w odniesieniu do wycieków/incydentów.
Minimalizacja PII: dostęp do podstawowej tylko poprzez zatwierdzone jabs; tokenizacja/maskowanie.
Przechowywanie artefaktów: dzienniki WORM, okres przechowywania według jurysdykcji; kontrola dostępu (RBAC/ABAC, JIT).
Kontrahenci: umowne SLA, proces eskalacji, wpływy z postępowań.
13) Organizacja obowiązków i eskalacja
24 × 7 dyżurów: obrót według roli (SRE, Aplikacja, Dane, Bezpieczeństwo, Płatności).
Macierz eskalacji: kto dla regionów/produktów/dostawców; zduplikowane kontakty (czat/głos/SMS).
Ćwiczenia (GameDays): symulacje - spadek PSP, lawina retray, niedokonanie cen, kluczowy kompromis, awaria regionu.
14) Deski rozdzielcze incydentów
Ciepło (teraz): status SLO, p95/p99, mapa regionów/najemców, kolejka zadań, artefakty zebrane/nie.
Historia: trendy według rodzaju incydentu, wydajność biegów, powodowanie nawrotu.
Kontrola jakości: kompletność linii czasowej, „pokrycie” pośmiertnych kredytów hipotecznych, komunikacja SLA.
15) Lista kontrolna wdrażania
- Zatwierdzenie skali SEV i wyzwalaczy SLO.
- Przypisywanie ról (IC/Tech/Comms/Scribe/Sec/Legal) i rotacji 24 × 7.
- Uruchom szablon karty incydentu i stronę stanu.
- Opisz playbooks (Wad/WebhookLag/Payments/RTP/Fraud/PII).
- Wdrożyć działa z audytem i czerwonym przyciskiem.
- Włącz WORM/Signatures/Artifact Collection.
- Procedura łączności (wewnętrzna/zewnętrzna), aktualizacje SLA.
- Proces i szablony pośmiertne; KPI realizacji elementów działania.
- GameDays miesięcznie; kwartalny przegląd tendencji incydentów.
- Mierniki IR deski rozdzielczej (MTTA/MTTR/Noise/Repeat/Comms SLA).
16) FAQ
Dlaczego „sam IC”?
Pojedynczy punkt decyzji usuwa chaos i przyspiesza reakcje.
Kiedy ogłosić publicznie?
Jak tylko zostanie potwierdzony fakt i plan stabilizacji. Ocena terminów regulacyjnych.
Co jest ważniejsze - poprawka lub raport?
Po pierwsze, odzyskanie i bezpieczeństwo. Równolegle - kolekcja artefaktów. Raport - po stabilizacji.
Czy można wszystko zautomatyzować?
Nie, ale działa blisko „częste i proste” kroki. Reszta to czyste playbooki i treningi.
Podsumowanie: Silna reakcja incydentu nie jest tylko o PagerDuty i kanał czatu. Jest to dyscyplina ról, szybkie pierwsze 15 minut, kontrolowane biegi, przejrzysta komunikacja, kryminalistyka z provability i obowiązkowe pośmiertne. Dzięki temu obwodowi zmniejszasz MTTR, chronisz pieniądze i dane oraz zwiększasz zaufanie klientów i regulatorów.