Biznes uzluksizligi rejasi
1) Maqsad, soha va prinsiplar
Maqsad: uzilishlar yuz berganda muhim servislarni (depozitlar, stavkalar/o’yinlar, xulosalar, KYC/AML, sapport) davom ettirishni va litsenziya va shartnomalarni buzmasdan tezda tiklashni ta’minlash.
Soha: onlayn platforma, toʻlov konturi, antifrod/KS, DWH/BI, sapport, operatsion va yuridik funksiyalar, asosiy vendorlar (PSP/KYC/bulut/CDN/studiyalar/agregatorlar).
Tamoyillari: safety first, oʻyinchi, eng avvalo, tartibga soluvchi toʻgʻrilik, RTO/RPOni minimallashtirish, oddiy degradatsion rejimlar, isbotlanuvchanlik va muntazam mashqlar.
2) BIA - biznesga ta’sirini tahlil qilish
Tanqidiy jarayonlar, kirish/chiqish, qaramlik, «qo’lda» muqobil va maqsadli RTO/RPOlarni aniqlang.
BIA (YAML) namunasi:yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Stsenariylar/tahdidlar (Risk → Impact → Response)
Texnik: bulut mintaqasining qulashi, ma’lumotlar bazasining buzilishi, klaster yo’qolishi, DDoS hujumlari, CDN nosozligi.
Vendorlar: PSP/KYC degradatsiyasi, o’yin agregatori bilan uzilish, antifrod/sanksiya skriningining mavjud emasligi.
Kiber: hisoblar/kalitlarni buzish, ransomware, PII sizib chiqishi.
Jarayonlar/odamlar: ish tashlashlar/kasalliklar, asosiy mutaxassislarning ketishi, reliz xatosi.
Geo/fors-major: aloqa/energiya uzilishi, harbiy/sanksiya xavfi, domenlar/trafikni blokirovka qilish.
Har biri uchun: triggerlar, eskalatsiya chegarasi, nazorat choralari, servis degradatsiyasi va kommunikatsiya shablonlari.
4) Barqarorlik arxitekturasi va strategiyasi
hududlar bo’yicha Active-active/active-standby; infucture as code.
Degradatsiya rejimlari: read-only vitrinalar, tanqidiy bo’lmagan o’yin provayderlarini uzib qo’yish, to’lov limitlari, kechiktirilgan kassautli «faqat depozitlar» (agar yuridik yo’l qo’yilsa), tahlil/ETL chastotasining pasayishi.
Traffic management: Anycast CDN, geo-balanslash, health-checks, canary-marshrutlash.
Ma’lumotlar: PITR-bekaplar, o’zgartirish jurnallari, mintaqalararo replikatsiya, kriptografik yaxlitlik (xeshlar/WORM).
Kalitlar/sirlar: mustaqil KMS per-region, jurnallash bilan «break-glass».
PSP/KYC multi-homing: avtomatik feylover, SLA/latentlik yo’nalishi.
5) Buyruq tuzilmasi (Incident Command System)
Incident Commander (IC) - qaror qabul qilishning yagona nuqtasi.
Ops Lead (SRE/Platform) - texnik barqarorlashtirish, feylover, metrika.
Business Continuity Lead - jarayonlar/qo’l tartib-taomillarini muvofiqlashtirish.
Comms Lead - tashqi/ichki bildirishnomalar (o’yinchilar, sheriklar, regulyatorlar).
Security/DPO - kiber hodisalar/maxfiylik, tartibga soluvchi derazalar.
Payments/KYC Leads - PSP/KYC stsenariylari.
Liaisons: Legal, Support, VIP/CRM, Data/BI.
Qoida: hodisaga bitta IC, aniq kanallar va yechimlar loglari.
6) Kommunikatsiyalar rejasi
Kanallar: war-room (chat/koʻprik), zaxira aloqalar (telefon/radio/alt-messenjer), PSP/KYC/banklarning oldindan tekshirilgan aloqalari.
Tashqi xabarlar namunalari: status-sahifa, ijtimoiy tarmoqlar, email/push; ohang - faktlar, muddatlar, keyingi qadamlar.
Regulyatorlar va sheriklar: oldindan o’rnatilgan manzillar, bildirishnomalarning SLA; kelishilgan formulalar.
O’yinchilar: shaffof ETA, kompensatsiyalar/bonuslar (agar qo’llash mumkin bo’lsa), degradatsiya davri uchun FAQ.
7) Operatsion rejalar (Runbooks)
Parcha namunalari:7. 1 Feylover boshqa mintaqaga
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 PSP degradatsiyasi
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC provayderi mavjud emas
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) IT va ma’lumotlarni tiklash (DR)
Tizimlar toifalari: Tier-1 (platforma/to’lovlar/KTS), Tier-2 (o’yinlar/tahlillar), Tier-3 (ichki).
Ko’tarilish tartibi: tarmoq → sirlar/KMS → DB → kesh → API → front/CDN → integratsiya → tahlil.
Tekshirish yaxlitligi: nazorat summalari, jurnallarni/replikatsiyalarni tekshirish, tranzaksiyalarni solishtirish (reconciliation).
DR testlari: har yili to’liq (switch-over), har chorakda qisman; haqiqiy RTO/RPOni qayd etish.
9) Odamlar, ofislar va logistika
Remote-ready: zaxira noutbuklar/modemlar, SSO/MFA orqali kirish, IC uchun «qizil» kirish.
Muqobil joylar: zaxira ofislar/kovorkinglar, ruxsatnomalar ro’yxati, evakuatsiya qilish rejasi.
Smenalarni rotatsiya qilish: kompetensiyalar matritsasi, asosiy rollarni takrorlash, almashtirish rejasi.
Muhim aloqa/energiya provayderlari: kontaktlar, SLA, generatorlar/UPS (agar tegishli bo’lsa).
10) Vendorlar va yetkazib berish zanjiri
BCP/DR-shartnomalardagi talablar: RTO/RPO, majburiy testlar, audit huquqi va qo’shma mashg’ulotlar.
Subprotsessorlar reyestri: kontaktlar, outage rejalari, offboarding’da ma’lumotlarni olib tashlash/eksport qilishni tasdiqlash.
Har choraklik revyu Tier-1: hodisalar, DR-protokollar, sertifikat maqomi, SLA.
11) O’qitish, o’quv mashg’ulotlari va test sinovlari
Tabletop har chorakda bir marta: PSP/KYC/bulut/kiber ssenariylar.
Texnik mashqlar: DR qisman/to’liq; DDoS/CDN almashtirish; «kill-switch» SDK provayderlari.
Kommunikatsiya mashqlari: press-reliz/status-yangilanishlar/tartibga soluvchi xatlar.
Retrospektivlar: taymline, RCA, CAPA, runbooks va BIA yangilanishlari.
12) Metrika (KPI/KRI)
RTO/RPO fakt (Tier-1 bo’yicha): maqsadlarga mos keladi ≥ 95%.
MTTD/MTTR: pasayish tendentsiyasi; MTTR muhim hodisalar ≤ maqsadli.
Feyloverning muvaffaqiyati: ma’lumotlar/buyurtmalar/stavkalarni yo’qotmasdan, ≤ X min degradatsiyadan.
Coverage mashqlari: ≥ 2 ta to’liq DR-test/yil + 4 ta tabletop.
Kommunikatsiyalar: birinchi apdeytgacha bo’lgan vaqt ≤ 15 daqiqa, yangilanishlar chastotasi siyosatga muvofiq.
Vendor resilience: 12 oy davomida tasdiqlangan DR-testlar bilan Tier-1 ulushi - 100%.
13) RACI (yiriklashtirilgan holda)
14) Chek-varaqlar
14. 1 Ready-to-Failover
- IC/vendor/regulyatorlarning dolzarb aloqalari
- Replikatsiya salomatligi, muntazam PITR-backup
- SDK/vebxuklar uchun «kill-switch» tekshirildi
- Tasdiqlangan health-checks bilan trafik boshqaruvchisi (GSLB/CDN)
- Maqom/xat namunalari va nashr etish huquqi
- Runbooks va kirish (SSO/MFA) oylik tekshirildi
14. 2 Hodisa paytida
- IC tayinlangan, war-room ochilgan, yechimlar log boshlanishi
- Tasniflash (P1/P2), stsenariy va degradatsiyani tanlash
- Texnik harakatlar (feylover/limitlar/uzib qo’yish)
- Birinchi ommaviy yangilanish ≤ 15 daqiqa
- SLA bo’yicha tartibga soluvchi/sheriklik bildirishnomalari
- Post-mortem uchun artefaktlarni tortib olish
14. 3 Hodisadan keyin
- RCA va CAPA bilan post-mortem
- Yangilangan BIA/chegaralar/muntazam tartib-qoidalar
- Trening/retest fix, hisobot bordu
- Moliyaviy/berilgan solishtirma (reconciliation)
15) Shablonlar (parchalar)
15. 1 Stsenariy kartochkasi
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Status-sahifaga xabar
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Hujjatlar va versiyalarni boshqarish
BCP/Runbooks versiyasini saqlash, change-log, hujjat egasi.
Qayta ko’rib chiqish muddatlari (har chorakda Tier-1 uchun), oflayn nusxalardan foydalanish imkoniyatini nazorat qilish.
Mashqlar/hodisalar artefaktlarini va samaradorlik metrikalarini saqlash.
17) Joriy etish yo’l xaritasi (6-8 hafta)
1-2 haftalar: BIA va tanqidiy jarayonlar, RTO/RPO maqsadlari, ssenariylar va egalar ro’yxati.
3-4 haftalar: barqarorlik va degradatsiya rejimlari arxitekturasi, runbooks, kommunikatsiya shablonlari, aloqalar.
5-6 hafta: vendorlar bilan integratsiya (PSP/KYC/bulut), pilot mashqlar (tabletop + qisman DR), tuzatishlar.
7-8 haftalar: to’liq DR-test (iloji bo’lsa), choraklik mashg’ulotlar siklini boshlash, bord hisoboti va tartibga solish paketi (agar talab qilinsa).
18) wiki bilan bog’liq bo’limlar
Xavflar reyestri, Hodisalar va oqishlar, DR/BCP testlari, TPRM va SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Loglar siyosati/WORM - barqarorlik va isbotlanuvchanlikning yagona konturi uchun.
TL; DR
Samarali BCP = BIA → RTO/RPO → ssenariylar va degradatsiyalar → multi-vendor/multi-region + aniq Incident Command, kommunikatsiyalar va mashqlar. Hujjatni tirik saqlang, muntazam ravishda sinab ko’ring va hatto katta nosozlik biznesni to’xtatmaydi va litsenziyalarga ta’sir qilmaydi.