Plan ciągłości działania
1) Cel, zakres i zasady
Cel: zapewnienie kontynuacji usług krytycznych (depozyty, zakłady/gry, wnioski, KYC/AML, wsparcie) w przypadku awarii i szybkiego odzyskania bez naruszania licencji i umów.
Obszar: platforma internetowa, pętla płatnicza, zwalczanie oszustw/CUS, DWH/BI, wsparcie, funkcje operacyjne i prawne, dostawcy kluczy (PSP/KYC/cloud/CDN/studios/aggregators).
Zasady: najpierw bezpieczeństwo, najpierw gracz, poprawność regulacji, minimalizacja RTO/RPO, proste tryby degradacji, provability i regularne ćwiczenia.
2) BIA - analiza wpływu na biznes
Identyfikacja kluczowych procesów, wejść/wyjść, zależności, ręcznych alternatyw i docelowych RTO/RPO.
Przykład fragmentu BIA (YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Ryzyko → wpływ → Odpowiedź
Te: katastrofa w chmurze, awaria bazy danych, utrata klastra, ataki DDoS, awaria CDN.
Sprzedawcy: degradacja PSP/KYC, zerwanie z agregatorem gier, niedostępność kontroli przed oszustwami/sankcjami.
Cyber: Konto/kluczowy kompromis, ransomware, wyciek PII.
Procesy/Ludzie: Strajki/Choroby, Kluczowe odejścia specjalistów, Błąd zwolnienia.
Geo/siła wyższa: komunikacja/przerwy w dostawach energii, zagrożenia wojskowe/sankcje, domeny/blokady ruchu.
Dla każdego: wyzwalacze, próg eskalacji, środki kontroli, degradacja usług i szablony komunikacji.
4) Architektura i strategie zrównoważonego rozwoju
region aktywny/aktywny w gotowości; infrastruktura jako kod szybkiego wznoszenia.
Tryby degradacji: prezentacje tylko do odczytu, odłączenie dostawców gier innych niż krytyczne, limity płatności, „tylko depozyty” z odroczonymi gotówkami (jeśli jest to dopuszczalne zgodnie z prawem), niższa częstotliwość analityczna/ETL.
Zarządzanie ruchem: Anycast CDN, geo-balancing, kontrola zdrowia, kanaryjski-routing.
Dane: kopie zapasowe PITR, dzienniki zmian, replikacja międzyregionalna, integralność kryptograficzna (hashes/WORM).
Klucze/sekrety: niezależny KMS per-region, „break-glass” z rejestrowaniem.
PSP/KYC multi-homing: automatyczne awaryjne, SLA/latency routing.
5) System dowodzenia incydentami
Dowódca incydentu (IC) - jeden punkt decyzji.
Ops Lead (SRE/Platform) - stabilizacja techniczna, feilover, metryki.
Prowadzenie ciągłości działania - koordynacja procesów/procedur ręcznych.
Comms Lead - powiadomienia zewnętrzne/wewnętrzne (gracze, partnerzy, regulatorzy).
Bezpieczeństwo/DPO - cybernetyczne incydenty/prywatność, okna regulacyjne.
Płatności/KYC Leads - scenariusze PSP/KYC.
Liaisons: Legal, Support, VIP/CRM, Data/BI.
Zasada: jeden IC na incydent, jasne kanały i dzienniki decyzji.
6) Plan komunikacji
Kanały: pokój wojenny (czat/most), połączenia kopii zapasowych (telefon/radio/alt-messenger), wstępnie sprawdzone kontakty PSP/KYC/bank.
Zewnętrzne szablony wiadomości: strona stanu, sieci społecznościowe, e-mail/push; ton - fakty, czas, kolejne kroki.
Organy regulacyjne i partnerzy: wstępne adresy, powiadomienia SLA; uzgodnione brzmienie.
Gracze: przejrzyste ETA, odszkodowania/premie (w stosownych przypadkach), często zadawane pytania dotyczące okresu degradacji.
7) Plany operacyjne (książki startowe)
Przykłady fragmentów:7. 1 Feilover do innego regionu
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 Degradacja PSP
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC dostawca niedostępny
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) Odzyskiwanie danych i IT (DR)
Kategorie systemów: Tier-1 (platforma/płatności/CCM), Tier-2 (gry/analizy), Tier-3 (wewnętrzne).
Procedura podnoszenia: zestaw → sekret/KMS → BD → kesh → API → front/CDN → integratsii → analika.
Kontrola integralności - czeki, weryfikacja dziennika/replikacji, uzgodnienie transakcji.
badania DR: roczne pełne (przełączanie), kwartalne częściowe; Commit actual RTO/RPO
9) Ludzie, biura i logistyka
Zdalnie gotowe: nadmiarowe laptopy/modemy, dostęp poprzez SSO/MFA, dostęp „czerwony” dla IC.
Alternatywne lokalizacje: biura zamienne/miejsca coworkingowe, listy przebiegów, plan ewakuacji.
Rotacja zmian: macierz kompetencji, powielanie ról kluczowych, plan wymiany.
Krytyczne źródła komunikacji/energii: kontakty, SLA, generatory/UPS (w stosownych przypadkach).
10) Sprzedawcy i łańcuch dostaw
Wymogi BCP/DR w umowach: RTO/RPO, obowiązkowe testy, prawa audytu i wspólne ćwiczenia.
Rejestr podwykonawców: kontakty, plany przerw, potwierdzenie usunięcia/wywozu danych podczas offboardingu.
Kwartalne recenzje Tier-1: incydenty, protokoły DR, status certyfikacji, SLA.
11) Szkolenia, ćwiczenia i badania
Tabletop raz na kwartał: PSP/KYC/chmura/scenariusze cybernetyczne.
Ćwiczenia techniczne: DR częściowe/pełne; przełączanie DDoS/CDN; Dostawcy SDK „kill-switch”.
Wiertła komunikacyjne: komunikat prasowy/aktualizacje stanu/pisma regulacyjne.
Retrospektywy: linia czasu, RCA, CAPA, aktualizacja książek startowych i BIA.
12) Wskaźniki (KPI/KRI)
RTO/RPO rzeczywiste (zgodnie z Tier-1): osiągnąć cele ≥ 95%.
MTTD/MTTR: tendencja spadkowa; MTTR zdarzeń krytycznych ≤ ukierunkowanych.
Sukces Feilovera: bez utraty danych/zamówień/szybkości, ≤ X minut degradacji.
Ćwiczenia zasięgu: ≥ 2 pełne badania DR/rok + 4 tabletki.
Komunikacja: czas do pierwszej aktualizacji ≤ 15 minut, częstotliwość aktualizacji zgodnie z polityką.
Odporność dostawcy: udział Tier-1 z potwierdzonymi testami DR w ciągu 12 miesięcy wynosi 100%.
13) RACI (rozszerzony)
14) Listy kontrolne
14. 1 Gotowe do awarii
- Bieżące kontakty IC/Sprzedawca/Regulator
- Zdrowie replikacji, regularne tworzenie kopii zapasowych PITR
- SDK/Webhook kill-switch zweryfikowany
- Kierownik ruchu (GSLB/CDN) z zatwierdzonymi kontrolami zdrowotnymi
- Szablony statusu/listów i prawa do publikacji
- Miesięcznie przeglądane książki startowe i dostęp (SSO/MFA)
14. 2 W trakcie incydentu
- Przypisane IC, otwarta sala wojenna, rozpoczęcie dzienników decyzji
- Klasyfikacja (P1/P2), wybór scenariuszy i degradacja
- Działania techniczne (feilover/limity/odłączenia)
- Pierwsza aktualizacja publiczna ≤ 15 minut
- Notyfikacje regulacyjne/partnerskie SLA
- Wychwytywanie artefaktów pośmiertnie
14. 3 Po zdarzeniu
- Pośmiertnie z RCA i CAPA
- Zaktualizowane BIA/progi/procedury
- Poprawki szkoleniowe/powtórne, sprawozdanie zarządu
- Finansowe/pojednanie
15) Szablony (fragmenty)
15. 1 Karta skryptowa
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Wiadomość do strony statusu
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Zarządzanie dokumentami i wersjami
Wersioning BCP/Runbooks w repozytorium, log zmian, właściciel dokumentów.
Okres rewizji (kwartał dla Tier-1), kontrola dostępności kopii offline.
Przechowywanie artefaktów wiertła/incydentu i wskaźników wydajności.
17) Plan działania na rzecz realizacji (6-8 tygodni)
Tygodnie 1-2: BIA i procesy krytyczne, cele RTO/RPO, lista scenariuszy i właścicieli.
Tygodnie 3-4: architektura trybów stabilności i degradacji, książki startowe, szablony komunikacyjne, kontakty.
Tygodnie 5-6: integracja sprzedawcy (PSP/KYC/chmura), ćwiczenia pilotażowe (tablet + częściowy DR), korekty.
Tygodnie 7-8: pełne badanie DR (jeśli to możliwe), rozpoczęcie kwartalnego cyklu ćwiczeń, sprawozdanie zarządu i pakiet regulacyjny (jeśli jest to wymagane).
18) Powiązane sekcje wiki
Rejestr ryzyka, incydenty i przecieki, badania DR/BCP, TPRM i SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Log Policy/WORM - dla pojedynczej pętli solidność i wytrzymałość.
TL; DR
Skuteczne BCP = BIA → RTO/RPO → stsenarii i degradatsii → multi-vendor/multi-region + clear Incident Command, communications and exercises. Utrzymać dokument przy życiu, regularnie testować - a nawet duży wypadek nie zatrzyma biznesu lub uderzyć licencje.