Operacje i → Zarządzanie Ciągłość działalności
Ciągłość działania (BCP)
1) Co to jest BCP i dlaczego jest potrzebne
BCP (Business Continuity Planning) to systematyczne podejście do zapewnienia stabilności procesów biznesowych w przypadku awarii: od braku centrum danych do kryzysu dostawcy, wycieku danych lub nagłego wzrostu obciążenia.
W produktach o wysokim obciążeniu (iGaming, fintech, marketplaces) chodzi nie tylko o infrastrukturę - chodzi o utrzymanie zaufania, przestrzeganie obowiązków regulacyjnych i ochronę dochodów.
- Utrzymanie dostępności kluczowych usług i danych.
- Zminimalizować czas odzyskiwania (RTO) i utratę danych (RPO).
- Zapewnienie operacyjności zespołów, komunikacji i partnerów zewnętrznych znajdujących się w kryzysie.
- Standaryzacja reakcji i szkolenia personelu.
2) Główne składniki BCP
1. BIA (Business Impact Analysis) - ocena wpływu awarii na procesy i biznes.
2. Zagrożenia i scenariusze stanowią macierz zagrożeń (infrastruktura, zewnętrzne, ludzkie).
3. Cel RTO/RPO - Cele w zakresie odzyskiwania i strat.
4. Plan naprawy (DRP) - Szczegółowe kroki w celu ponownego uruchomienia systemów i procesów.
5. Komunikacja - kanały wewnętrzne i zewnętrzne, szablony powiadomień.
6. Testowanie i rewizja - regularne kontrole, ćwiczenia, post-analiza.
7. Dokumentacja i kontrola wersji - scentralizowany dostęp i znaczenie.
3) Analiza wpływu (BIA)
BIA określa, które procesy są krytyczne i jak szybko powinny zostać przywrócone.
Metoda:1. Lista wszystkich procesów biznesowych (Płatności, Zakłady, Gry, KYC, Wsparcie).
2. Zdefiniowanie zależności (usługi, dane, dostawcy, pracownicy).
3. Ocena skutków awarii: finansowa, prawna, reputacyjna, operacyjna.
4. Ustaw RTO/RPO dla każdego procesu.
5. Priorytety: „Musiał”, „Powinien mieć”, „Miło mieć”.
Przykład:4) Matryca ryzyka
5) Poziomy RTO, RPO i krytyki
Cel czasu odzyskiwania (RTO) - ile czasu jest dozwolony przed odzyskaniem.
Cel punktu odzyskiwania (RPO) - ile danych można stracić.
6) DRP (Plan naprawy klęsk żywiołowych)
Celem jest zapewnienie szybkiego i spójnego odzyskiwania systemu.
Kroki:1. Określić scenariusze (katastrofa centrum danych, awaria PSP, kompromis kluczowy, utrata sieci).
2. Dla każdego skryptu - gotowy odtwarzacz krok po kroku.
3. Obsługa infrastruktury DR: klastry kopii zapasowych, repliki baz danych, CDN/krawędź.
4. Regularnie testować RTO/RPO i procedury awaryjne.
5. Przechowywać wszystkie instrukcje w jednym repozytorium sterowanym wersją.
Przykład szablonu DR:
Scenario: EU region falls
RTO: 30 min RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking
7) Organizacja zespołów i ról
Koordynator BCP: właściciel programu, organizuje audyty i testy.
DR lead: odpowiedzialny za techniczną realizację planów DR.
Właściciele domeny: zapewniają ciągłość swoich procesów (płatności, gry, KYC).
Zespół ds. komunikacji: odpowiedzialny za wewnętrzne/zewnętrzne powiadomienia i platformy statusu.
HR/Admin: BCP dla personelu (zdalny, komunikacyjny, dostęp).
Prawne/Zgodność: Zawiadomienia regulacyjne i działania prawne.
8) Komunikacja w kryzysie
Zasady:- Jasne kanały i zbędne kontakty.
- Pierwsza aktualizacja jest w ciągu 15 minut od zdarzenia.
- Ujednolicony ton komunikacji, faktów i ETA.
- Aktualizuje co N minut do zamknięcia incydentu.
- Po odzyskaniu - raport i pośmiertnie.
[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.
9) Badania i wiertła
Techniczne: testy awaryjne, odzyskiwanie bazy danych, symulacje DDoS.
Sale operacyjne: zespoły przekazania/zmiany roli.
Pełne ćwiczenia BCP: scenariusz „blackout” lub niedostępność dostawcy.
- badania DR - co kwartał;
- BCP-pełna skala ćwiczeń - 1-2 razy w roku.
- Dokumentacja: wyniki, odchylenia od RTO/RPO, działania usprawniające.
10) Wskaźniki i KPI
Zgodność z RTO:% przywróconych procesów ≤ cel.
Zgodność z RPO:% procesów bez utraty danych> cel.
Wskaźnik sukcesu badań DR: udane testy procedur odzyskiwania.
Zasięg BCP: odsetek procesów z aktualnymi planami (> 90%).
Komunikaty SLA: pierwsze podsumowanie ≤ 15 min, aktualizacje ETA.
Postmortem SLA: 100% zdarzenia krytyczne z 72 h ≤ analiza
11) Zarządzanie dokumentacją i wiedzą
Pojedyncza pamięć BCP (wersje, właściciele, daty rewizji).
Kontrola wersji: zmiana co najmniej raz na 6 miesięcy.
Dostępność: kopie offline i kopie zapasowe kanałów komunikacyjnych (w tym komunikatory telekomunikacyjne/błyskawiczne).
Integracja: odniesienie do BCP w jednostkach SOP, procesach incydentów i deskach operacyjnych.
Synchronizacja z rejestrem ryzyka i polityką bezpieczeństwa.
12) 30/60/90 - plan realizacji
30 dni:- Identyfikacja właściciela BCP i procesów krytycznych.
- Wykonaj podstawowe BIA i klasyfikację (RTO/RPO).
- Utwórz macierz ryzyka i katalog scenariuszy incydentów.
- Rozwiń szablon DRP i pierwszą wersję dla usług priorytetowych.
- Przeprowadzenie pilotażowego badania DR (awaria, odzyskiwanie bazy danych).
- Przygotuj szablony komunikacyjne i dystrybucję ról.
- Utwórz jedno repozytorium dokumentów BCP i integracji SOP.
- Rozpocząć szkolenia zespołów i personelu dyżurnego.
- Przeprowadzenie ćwiczeń międzybranżowych BCP.
- Kontrola zgodności metryk RTO/RPO i KPI.
- Sfinalizuj plan zmiany i automatyzacji procesów BCP.
- Zawierać BCP w kwartalnych OKR i wewnętrznych przeglądów bezpieczeństwa.
13) Anty-wzory
„BCP tylko na pokaz”: brak prawdziwych testów i brak właścicieli.
Przestarzałe instrukcje DR, które nie pasują do obecnych architektur.
Niezweryfikowane kanały komunikacyjne i kontakty.
Niezauważone zależności (PSP, CDN, dostawcy KYC).
Brak pośmiertnych ofiar po niepowodzeniach.
Nie ma dostępu do BCP w trybie offline, gdy sieć przestanie działać.
14) Przykład struktury dokumentu BCP
1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history
15) Integracja z innymi sekcjami
Analiza operacyjna: zagłówek i degradacja metryki incydentów.
System powiadamiania i ostrzegania: wczesne sygnały uruchamiające procedury BCP.
Etyka zarządzania: przejrzyste sprawozdania i uczciwe testy.
Asystenci AI: automatyczne przygotowanie podsumowań BCP i list kontrolnych DR.
Kultura odpowiedzialności: szkolenia, „dni gry”, retrospektywy.
16) FAQ
P: W jaki sposób BCP różni się od DRP?
A: BCP - szerszy: obejmuje ludzi, procesy, komunikację, partnerów i infrastrukturę. DRP - plan techniczny odzysku systemu IT.
P: Jak często aktualizuję BCP?
Odp.: Po każdej głównej zmianie architektury, incydencie lub co najmniej 1 co 6 miesięcy.
P: Czy muszę uwzględniać partnerów?
Odp.: Tak. PSP, KYC i studia - część łańcucha ciągłości, muszą mieć swoje umowy OLA i BCP.