Business Continuity Plan

1) Zweck, Bereich und Grundsätze

Ziel: Sicherstellung der Fortsetzung kritischer Dienste (Einzahlungen, Wetten/Spiele, Schlussfolgerungen, KYC/AML, Sapport) bei Störungen und schnelle Wiederherstellung ohne Verletzung von Lizenzen und Verträgen.
Bereich: Online-Plattform, Zahlungsverkehr, Betrugsbekämpfung/CUS, DWH/BI, Saport, Betriebs- und Rechtsfunktionen, Schlüsselanbieter (PSP/KYC/Cloud/CDN/Studios/Aggregatoren).
Prinzipien: safety first, player first, regulatorische Korrektheit, RTO/RPO-Minimierung, einfache Degradationsmodi, Nachweisbarkeit und regelmäßige Übungen.

2) BIA - Business Impact Analysis

Identifizieren Sie kritische Prozesse, I/Os, Abhängigkeiten, „manuelle“ Alternativen und gezielte RTOs/RPOs.

Beispiel für ein BIA-Fragment (YAML):

yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]

3) Risiko → Wirkung → Reaktion

Dazu gehören: Fall der Cloud-Region, DB-Ausfall, Cluster-Verlust, DDoS-Angriffe, CDN-Ausfall.
Anbieter: PSP/KYC Degradation, Bruch mit dem Spiele-Aggregator, Nichtverfügbarkeit von Anti-Fraud/Sanktionsscreening.
Cyber: Konto-/Schlüsselkompromittierung, Ransomware, PII-Leak.
Prozesse/Personen: Streiks/Krankheiten, Ausscheiden von Schlüsselspezialisten, Freigabefehler.
Geo/höhere Gewalt: Kommunikations-/Energieausfälle, militärische/Sanktionsrisiken, Domain-/Verkehrssperren.

Für jeden: Auslöser, Eskalationsschwelle, Kontrollmaßnahmen, Dienstdegradierung und Kommunikationsmuster.

4) Architektur der Nachhaltigkeit und Strategie

Aktiv-Aktiv/Aktiv-Standby nach Region; Infrastruktur als Code für einen schnellen Aufstieg.
Degradierende Modi: Read-only-Showcases, Herunterfahren von nicht-kritischen Spieleanbietern, Auszahlungslimits, „nur Einzahlungen“ mit verzögerten Kassen (wenn rechtlich zulässig), Reduzierung der Analytik/ETL-Frequenz.
Traffic Management: Anycast CDN, Geo-Balancing, Health-Checks, Canary-Routing.
Daten: PITR-Backups, Änderungsprotokolle, interregionale Replikation, kryptographische Integrität (Hashes/WORM).
Schlüssel/Geheimnisse: unabhängige KMS pro Region, „break-glass“ mit Logging.
PSP/KYC Multi-Homing: Automatischer Failover, Routing über SLA/Latenz.

5) Befehlsstruktur (Incident Command System)

Der Incident Commander (IC) ist ein zentraler Entscheidungspunkt.
Ops Lead (SRE/Platform) - Techstabilisierung, Failover, Metriken.
Business Continuity Lead - Koordination von Prozessen/manuellen Abläufen.
Comms Lead - externe/interne Benachrichtigungen (Spieler, Partner, Aufsichtsbehörden).
Sicherheit/DSB - Cyber-Vorfälle/Privatsphäre, regulatorische Fenster.
Zahlungen/KYC-Leads - PSP/KYC-Szenarien.
Liaisons: Legal, Support, VIP/CRM, Data/BI.

Regel: ein IC pro Vorfall, klare Kanäle und Entscheidungsprotokolle.

6) Kommunikationsplan

Kanäle: Kriegsraum (Chat/Bridge), Backup-Verbindungen (Telefon/Radio/Alt-Messenger), PSP/KYC/Banken vorab verifizierte Kontakte.
Vorlagen für externe Nachrichten: Status-Seite, soziale Netzwerke, E-Mail/Push; Ton - Fakten, Termine, nächste Schritte.
Regulierungsbehörden und Partner: voreingestellte Adressen, Benachrichtigungs-SLAs; die vereinbarte Formulierung.
Spieler: transparente ETAs, Vergütungen/Boni (falls zutreffend), FAQs für den Zeitraum der Degradierung.

7) Betriebspläne (Runbooks)

Beispiele für Fragmente:

7. 1 Failover in eine andere Region

yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"

7. 2 PSP Degradation

yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter

7. 3 KYC-Anbieter nicht verfügbar

yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch

8) Wiederherstellung von IT und Daten (DR)

Systemkategorien: Tier-1 (Plattform/Zahlungen/CUS), Tier-2 (Spiele/Analysen), Tier-3 (intern).
Reihenfolge des Aufstiegs: set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika.
Integritätsprüfungen: Prüfsummen, Verifizierung von Protokollen/Replikation, Transaktionsabgleich (Reconciliation).
DR-Tests: jährlich vollständig (Switch-over), vierteljährlich teilweise; Festlegung der tatsächlichen RTOs/RPOs.

9) Menschen, Büros und Logistik

Remote-ready: redundante Notebooks/Modems, Zugriff über SSO/MFA, „roter“ Zugriff für ICs.
Alternative Standorte: Ersatzbüros/Coworking Spaces, Passlisten, Evakuierungsplan.
Schichtrotation: Kompetenzmatrix, Duplizierung von Schlüsselrollen, Ersatzplan.
Kritische Kommunikations-/Energieanbieter: Kontakte, SLAs, Generatoren/USVs (falls relevant).

10) Lieferanten und Lieferkette

BCP/DR-Anforderungen in Verträgen: RTO/RPO, obligatorische Tests, Prüfungsrecht und gemeinsame Übungen.
Register der Unterverarbeiter: Kontakte, Pläne für Outage, Bestätigungen für das Löschen/Exportieren von Daten beim Offboarding.
Tier-1 vierteljährliche Reviews: Vorfälle, DR-Protokolle, Status von Zertifikaten, SLAs.

11) Training, Übungen und Tests

Tabletop einmal pro Quartal: PSP/KYC/Cloud/Cyber-Szenarien.
Tech-Übungen: DR teilweise/vollständig; DDoS/CDN-Umschaltung; „kill-switch“ SDK der Anbieter.
Kommunikationsübungen: Pressemitteilung/Status-Updates/regulatorische Schreiben.
Retrospektiven: Timeline, RCA, CAPA, Runbooks Update und BIA.

12) Metriken (KPI/KRI)

RTO/RPO Fakt (nach Tier-1): Entspricht den Zielen ≥ 95%.
MTTD/MTTR: Abwärtstrend; MTTR kritische Vorfälle ≤ Ziel.
Failover-Erfolg: kein Datenverlust/Aufträge/Gebote, ≤ X Minen Degradation.
Coverage-Übungen: ≥ 2 komplette DR-Tests/Jahr + 4 Tabletop.
Kommunikation: Die Zeit bis zum ersten Update ≤ 15 Minuten, die Häufigkeit der Updates gemäß der Richtlinie.
Vendor resilience: Tier-1-Anteil mit bestätigten DR-Tests in 12 Monaten - 100%.

13) RACI (vergrößert)

Aktivität	IC	SRE/Platform	Security/DPO	Payments	Risk/KYC	Product	Support/CRM	Legal/Compliance	Comms/PR	Data/BI
Ankündigung des Vorfalls	A/R	R	R	R	R	C	C	C	C	C
Techstabilisierung/Failover	C	A/R	C	C	C	C	I	I	I	C
PSP/KYC-Routing	C	C	I	A/R	A/R	C	I	I	I	I
Kommunikationen	A	I	C	C	C	C	C	C	R	I
Regulatorische Hinweise	I	I	A/R	C	C	I	I	R	I	I
Post-mortem/SARA	A/R	R	R	R	R	R	R	C	C	R

14) Checklisten

14. 1 Ready-to-Failover

Aktuelle IC/Vendor/Regulator Kontakte
Replikationsgesundheit, regelmäßige PITR-Sicherung
Verifizierter „Kill-Switch“ für SDK/Webhooks
Traffic Manager (GSLB/CDN) mit validierten Gesundheitschecks
Status-/Briefvorlagen und Veröffentlichungsrechte
Runbooks und Zugriffe (SSO/MFA) monatlich geprüft

14. 2 Während des Vorfalls

IC zugewiesen, Kriegsraum geöffnet, Entscheidungslogs starten
Klassifizierung (P1/P2), Szenarioauswahl und Degradation
Technische Aktionen (Failover/Limits/Blackouts)
Erstes öffentliches Update ≤ 15 Minuten
Regulatorische/Affiliate-Mitteilungen zu SLAs
Erfassung von Artefakten für Post-Mortem

14. 3 Nach dem Vorfall

Post-Mortem mit RCA und CAPA
Aktualisierte BIA/Schwellenwerte/Routineverfahren
Training/Retest Fixes, Bericht an das Board
Finanzielle/gegebene Überleitung (Reconciliation)

15) Muster (Fragmente)

15. 1 Skriptkarte

yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]

15. 2 Nachricht an die Status-Seite


[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.

16) Dokumenten- und Versionsverwaltung

BCP/Runbooks im Repository versionieren, Änderungsprotokoll, Dokumentbesitzer.
Zeitpunkt der Überarbeitung (vierteljährlich für Tier-1), Kontrolle der Verfügbarkeit von Offline-Kopien.
Speicherung von Übungsartefakten/Incidents und Leistungsmetriken.

17) Umsetzungsfahrplan (6-8 Wochen)

Wochen 1-2: BIA und kritische Prozesse, RTO/RPO-Ziele, Liste der Szenarien und Eigentümer.
Woche 3-4: Architektur der Resilienz und Degradierung, Runbooks, Kommunikationsmuster, Kontakte.
Woche 5-6: Vendor Integration (PSP/KYC/Cloud), Pilotübungen (Tabletop + partielle DR), Anpassungen.
Woche 7-8: vollständiger DR-Test (wenn möglich), Start des vierteljährlichen Übungszyklus, Bordbericht und regulatorisches Paket (falls erforderlich).

18) Verwandte Wiki-Abschnitte

Risikoregister, Vorfälle und Lecks, DR/BCP-Tests, TPRM und SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Log Policy/WORM - für einen einheitlichen Nachhaltigkeits- und Nachweiskreis.

TL; DR

Effektive BCP = BIA→RTO/RPO→stsenarii und degradatsii→multi -vender/Multi-Region + klare Incident Command, Kommunikation und Lehre. Halten Sie das Dokument am Leben, testen Sie es regelmäßig - und selbst ein großer Ausfall wird das Geschäft nicht stoppen oder die Lizenzen treffen.

Business Continuity Plan

TL; DR

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet