Biznes Davamlılıq Planı
1) Məqsəd, sahə və prinsiplər
Məqsəd: uğursuzluqlar zamanı kritik xidmətlərin (depozitlər, bahislər/oyunlar, nəticələr, KYC/AML, sapport) davam etməsini və lisenziyaların və müqavilələrin pozulmadan sürətli bərpasını təmin etmək.
Sahə: onlayn platforma, ödəniş konturu, anti-frod/KUS, DWH/BI, Cupport, əməliyyat və hüquqi funksiyalar, əsas satıcılar (PSP/KYC/bulud/CDN/studiyalar/aqreqatorlar).
Prinsipləri: safety first, oyunçu ilk növbədə, tənzimləyici düzgünlük, RTO/RPO minimallaşdırılması, sadə deqradasiya rejimləri, sübut oluna bilən və müntəzəm təlimlər.
2) BİA - biznesə təsir analizi
Kritik prosesləri, giriş/çıxışları, asılılıqları, «əl» alternativlərini və hədəf RTO/RPO-ları müəyyən edin.
BIA (YAML) fraqmentinin nümunəsi:yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Ssenarilər/təhdidlər (Risk → Impact → Response)
Tech: bulud bölgəsinin düşməsi, DD uğursuzluğu, klaster itkisi, DDoS hücumları, CDN uğursuzluğu.
Satıcılar: PSP/KYC deqradasiyası, oyun aqreqatoru ilə fasilə, antifrod/sanksiya skrininqinin əlçatmazlığı.
Kiber: hesablar/açarlar, ransomware, PII sızması.
Proseslər/insanlar: tətillər/xəstəliklər, əsas mütəxəssislərin qayğısı, buraxılış səhvləri.
Geo/fors-major: rabitə/enerji kəsilməsi, hərbi/sanksiya riskləri, domen/trafik kilidi.
Hər biri üçün: tetikləyicilər, eskalasiya həddi, nəzarət tədbirləri, xidmətin deqradasiyası və kommunikasiya şablonları.
4) Dayanıqlılıq və strategiya arxitekturası
Regionlar üzrə Active-active/active-standby; sürətli yüksəliş üçün kod kimi infrastructure.
Deqradasiya rejimləri: read-only vitrinlər, kritik olmayan oyun provayderlərinin bağlanması, ödəniş limitləri, təxirə salınmış kassaut ilə «yalnız depozitlər» (qanuni olaraq icazə verilirsə), analitik/ETL tezliyinin azaldılması.
Traffic management: Anycast CDN, geo-balans, health-checks, canary-marşrutlaşdırma.
Məlumatlar: PITR backup, dəyişiklik jurnalları, regionlararası replikasiya, kriptoqrafik bütövlük (hash/WORM).
Açarları/sirləri: müstəqil KMS per-region, jurnallaşdırma ilə «break-glass».
PSP/KYC multi-homing: avtomatik feylover, SLA/gizli marşrutlaşdırma.
5) Komanda strukturu (Incident Command System)
Incident Commander (IC) - qərar qəbul etmək üçün vahid nöqtədir.
Ops Lead (SRE/Platform) - texniki sabitləşdirmə, feylover, metrika.
Business Continuity Lead - proseslərin/əl prosedurlarının əlaqələndirilməsi.
Comms Lead - xarici/daxili bildirişlər (oyunçular, tərəfdaşlar, tənzimləyicilər).
Security/DPO - kiber hadisələr/gizlilik, tənzimləyici pəncərələr.
Payments/KYC Leads - PSP/KYC ssenariləri.
Liaisons: Legal, Support, VIP/CRM, Data/BI.
Qayda: hadisə, aydın kanallar və log həllər bir IC.
6) Kommunikasiya planı
Kanallar: war-room (söhbət/körpü), ehtiyat rabitə (telefon/radio/alt messencer), əvvəlcədən təsdiqlənmiş əlaqə PSP/KYC/banklar.
Xarici mesaj şablonları: status-səhifə, sosial şəbəkələr, email/push; ton - faktlar, şərtlər, növbəti addımlar.
Tənzimləyicilər və tərəfdaşlar: əvvəlcədən quraşdırılmış ünvanlar, SLA bildirişləri; razılaşdırılmış formulalar.
Oyunçular: şəffaf ETA, kompensasiya/bonuslar (mümkünsə), deqradasiya dövrü üçün FAQ.
7) Əməliyyat planları (Runbooks)
Fraqmentlərin nümunələri:7. 1 Feylover üçün digər region
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 PSP deqradasiyası
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC provayderi mövcud deyil
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) İT və məlumatların bərpası (DR)
Sistem kateqoriyaları: Tier-1 (platforma/ödənişlər/KUS), Tier-2 (oyunlar/analitika), Tier-3 (daxili).
Qaldırma qaydası: şəbəkə → sirləri/KMS → DB → cache → API → ön/CDN → inteqrasiya → analitika.
Bütövlük yoxlamaları: nəzarət məbləğləri, jurnalların/replikasiyaların yoxlanılması, əməliyyatların yoxlanılması (reconciliation).
DR testləri: hər il tam (switch-over), rüblük qismən; faktiki RTO/RPO fiksasiya.
9) İnsanlar, ofislər və logistika
Remote-ready: ehtiyat noutbuklar/modemlər, SSO/MFA vasitəsilə giriş, IC üçün «qırmızı» giriş.
Alternativ yerlər: ehtiyat ofislər/iş yerləri, keçid siyahıları, evakuasiya planı.
Növbələrin rotasiyası: kompetensiya matrisi, əsas rolların təkrarlanması, əvəzetmə planı.
Kritik rabitə/enerji provayderləri: əlaqə, SLA, generatorlar/UPS (müvafiq olduqda).
10) Satıcılar və təchizat zənciri
Müqavilələrdə BCP/DR tələbləri: RTO/RPO, məcburi testlər, audit hüququ və birgə təlimlər.
Subprosessor reyestri: kontaktlar, outage planları, offboarding zamanı məlumatların silinməsi/ixracının təsdiqlənməsi.
Rüblük review Tier-1: insidentlər, DR protokolları, sertifikatların vəziyyəti, SLA.
11) Təlim, təlimlər və test
Hər rübdə bir Tabletop: PSP/KYC/bulud/kiber ssenarilər.
Texniki təlimlər: DR qismən/tam; DDoS/CDN keçid; «kill-switch» SDK provayderləri.
Kommunikasiya təlimləri: press-reliz/status-updates/tənzimləyici məktublar.
Retrospektivlər: time line, RCA, CAPA, runbooks yeniləmə və BIA.
12) Metriklər (KPI/KRI)
RTO/RPO fakt (Tier-1 üzrə): 95% ≥ hədəflərinə uyğun gəlir.
MTTD/MTTR: azalma trendi; MTTR kritik hadisələr hədəf ≤.
Fayloverin müvəffəqiyyəti: məlumat/sifariş/bahis itkisi olmadan, ≤ X min deqradasiya.
Coverage təlimləri: ≥ 2 tam DR test/il + 4 tabletop.
Kommunikasiya: ilk yeniləmə vaxtı ≤ 15 dəq, yeniləmə tezliyi siyasətə uyğun olaraq.
Vendor resilience: 12 ay ərzində təsdiqlənmiş DR testləri ilə Tier-1-in payı 100% -dir.
13) RACI (böyük)
14) Çek vərəqləri
14. 1 Ready-to-Failover
- Cari əlaqə IC/satıcılar/tənzimləyicilər
- Sağlamlıq replikasiya, mütəmadi PITR backup
- SDK/vebhuk üçün «kill-switch» təsdiqləndi
- Təsdiqlənmiş sağlamlıq yoxlamaları ilə trafik meneceri (GSLB/CDN)
- Status/E-poçt şablonları və yayım hüquqları
- Runbooks və Access (SSO/MFA) aylıq yoxlanılır
14. 2 Hadisə zamanı
- IC təyin, açıq war-room, başlanğıc log həllər
- Təsnifat (P1/P2), ssenari seçimi və deqradasiya
- Texniki fəaliyyət (feylover/limitlər/bağlantılar)
- İlk ictimai yeniləmə ≤ 15 dəqiqə
- SLA tənzimləyici/tərəfdaş bildirişlər
- Post-mortem üçün artefaktların tutulması
14. 3 Hadisədən sonra
- RCA və CAPA ilə post-mortem
- Yenilənmiş BIA/eşik/rutin prosedurlar
- Training/retest fiks, bord hesabat
- Maliyyə/Verilmiş müqayisə (reconciliation)
15) Şablonlar (fraqmentlər)
15. 1 Ssenari kartı
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Status səhifəsinə mesaj
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Sənədlərin və versiyaların idarə edilməsi
BCP/Runbooks versiyasını anbarda, change-log, sənəd sahibi.
Reviziya şərtləri (Tier-1 üçün rüblük), oflayn nüsxələrin mövcudluğuna nəzarət.
Təlimlərin/hadisələrin artefaktlarının və effektivlik metriklərinin saxlanması.
17) Tətbiqi yol xəritəsi (6-8 həftə)
Həftələr 1-2: BİA və kritik proseslər, RTO/RPO hədəfləri, ssenarilərin və sahiblərinin siyahısı.
Həftələr 3-4: sabitlik və deqradasiya rejimləri arxitekturası, runbooks, kommunikasiya şablonları, əlaqə.
Həftələr 5-6: satıcılarla inteqrasiya (PSP/KYC/bulud), pilot təlimlər (tabletop + qismən DR), düzəlişlər.
Həftələr 7-8: Tam DR testi (mümkünsə), rüblük təlimlərin başlaması, bord hesabatı və tənzimləyici paket (tələb olunarsa).
18) Əlaqəli wiki bölmələri
Risk Reyestri, Insidentlər və Sızmalar, DR/BCP Testlər, TPRM və SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Log Siyasəti/WORM - sabitlik və sübuta yetirilebilirlik üçün.
TL; DR
Effektiv BCP = BIA → RTO/RPO → ssenari və deqradasiya → multi-satıcı/multi-region + aydın Incident Command, rabitə və təlimlər. Sənədinizi canlı saxlayın, mütəmadi olaraq test edin - və hətta böyük bir uğursuzluq biznesi dayandırmayacaq və lisenziyalara zərbə vurmayacaq.