Бизнестин үзгүлтүксүздүгү планы
1) Максаты, чөйрөсү жана принциптери
Максаты: маанилүү кызматтарды (депозиттер, коюмдар/оюндар, корутундулар, KYC/AML, саппорт) лицензияларды жана келишимдерди бузбастан ийгиликсиз жана тез калыбына келтирүүнү камсыз кылуу.
Область: онлайн платформа, төлөм контур, антифрод/CUS, DWH/BI, порт, операциялык жана юридикалык функциялар, негизги сатуучулар (PSP/KYC/булут/CDN/студиялар/агрегаторлор).
Принциптер: safety first, оюнчу биринчи кезекте, жөнгө салуучу тууралык, RTO/RPO минималдаштыруу, жөнөкөй деградациялык режимдер, далилдүүлүк жана үзгүлтүксүз машыгуулар.
2) BIA - бизнеске таасирин талдоо
Маанилүү процесстерди, кириштерди/чыгууларды, көз карандылыктарды, "кол менен" альтернативаларды жана максаттуу RTO/RPO аныктаңыз.
BIA (YAML) үзүндүсүнүн мисалы:yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Сценарийлер/коркунучтар (Risk → Impact → Response)
Алар: булут аймагынын кулашы, DD бузулушу, кластердин жоголушу, DDoS чабуулдары, CDN иштебей калышы.
Сатуучулар: PSP/KYC деградация, оюн агрегатору менен ажырым, антифроддун/санкциялык скринингдин жеткиликсиздиги.
Cyber: эсептер/ачкычтар, ransomware, PII агып.
Процесстер/адамдар: иш таштоо/оорулар, негизги адистердин камкордугу, бошотуу катасы.
Гео/форс-мажор: байланышты/энергияны өчүрүү, аскердик/санкциялык тобокелдиктер, домендерди/трафикти бөгөттөө.
Ар бир үчүн: триггерлер, эскалация босогосу, контролдук чаралар, кызматтын деградациясы жана байланыш шаблондору.
4) Туруктуулук архитектурасы жана стратегиясы
региондор боюнча Active-active/active-standby; тез көтөрүү үчүн code as infrastructure.
Деградациялык режимдер: read-only витриналар, маанилүү эмес оюн провайдерлерин өчүрүү, төлөм лимиттери, кечиктирилген кассауттар менен "депозиттер гана" (эгерде мыйзамдуу жол берилсе), аналитиканын/ETL жыштыгын төмөндөтүү.
Traffic management: Anycast CDN, гео-балансташтыруу, ден соолук-текшерүү, canary-багыттоо.
Маалыматтар: PITR-backup, өзгөртүү журналдары, аймактар аралык репликация, крипто бүтүндүгү (хэш/WORM).
Ачкычтар/сырлар: көз карандысыз KMS per-region, "break-glass" журналы менен.
PSP/KYC multi-homing: автоматтык Feylover, SLA/жашыруун багыттоо.
5) Command түзүмү (Incident Command System)
Incident Commander (IC) - чечим кабыл алуунун бир чекити.
Ops Lead (SRE/Platform) - техникалык турукташтыруу, фейловер, метрика.
Business Continuity Lead - процесстерди/кол менен жол-жоболорду координациялоо.
Comms Lead - тышкы/ички билдирүүлөр (оюнчулар, өнөктөштөр, жөнгө салуучулар).
Security/DPO - кибер/купуялык, жөнгө салуучу терезелер.
Payments/KYC лидерлери - PSP/KYC жагдайлар.
Liaisons: Legal, Support, VIP/CRM, Data/BI.
Эреже: окуя боюнча бир IC, так каналдар жана чечимдердин логдору.
6) Коммуникация планы
Каналдар: war-room (чат/көпүрө), резервдик байланыштар (телефон/радио/alto-мессенджер), алдын ала текшерилген байланыштар PSP/KYC/банктар.
Тышкы билдирүүлөрдүн шаблондору: статус-бет, социалдык тармактар, email/push; обон - фактылар, мөөнөттөр, кийинки кадамдар.
Жөнгө салуучу жана өнөктөштөр: алдын ала белгиленген даректер, SLA билдирүүлөр; макулдашылган формулировкалар.
Оюнчулар: ачык ETA, компенсация/бонустар (эгер колдонулса), деградация мезгили үчүн FAQ.
7) Операциялык пландар (Runbooks)
Фрагменттердин мисалдары:7. 1 башка аймакка Feylover
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 PSP деградация
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC провайдер жеткиликтүү эмес
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) IT жана маалыматтарды калыбына келтирүү (DR)
Системалардын категориялары: Tier-1 (платформа/төлөмдөр/KUS), Tier-2 (оюндар/аналитика), Tier-3 (ички).
көтөрүү тартиби: тармак → Secrets/KMS → DD → кэш → API → фронт/CDN → интеграция → аналитика.
Бүтүндүгүн текшерүү: контролдук суммалар, журналдарды/репликацияларды текшерүү, транзакцияларды салыштыруу (reconciliation).
DR тесттер: жыл сайын толук (switch-over), чейрек жарым-жартылай; иш жүзүндө RTO/RPO бекитүү.
9) Адамдар, кеңселер жана логистика
Remote-ready: резервдик ноутбуктар/модемдер, SSO/MFA аркылуу кирүү, IC үчүн "кызыл" кирүү.
Башка жайгашкан: запастык кеңселер/коворкингдер, өтмөктөрдүн тизмелери, эвакуация планы.
Сменаларды ротациялоо: компетенттүүлүк матрицасы, негизги ролдорду кайталоо, алмаштыруу планы.
Маанилүү байланыш/энергия провайдерлери: байланыштар, SLA, генераторлор/UPS (тиешелүү болсо).
10) Сатуучулар жана жеткирүү чынжыр
Келишимдерде BCP/DR талаптары: RTO/RPO, милдеттүү тесттер, аудит укугу жана биргелешкен машыгуулар.
Субпроцессорлордун реестри: байланыштар, outage пландары, offboarding учурунда маалыматтарды алып салууну/экспорттоону ырастоо.
Чейректик review Tier-1: окуялар, DR-протоколдор, күбөлүк статусу, SLA.
11) Окутуу, машыгуу жана тестирлөө
Tabletop чейрек сайын: PSP/KYC/булут/кибер скрипт.
Техникалык көнүгүүлөр: DR жарым-жартылай/толук; DDoS/CDN которуу; "kill-switch" SDK провайдерлер.
Коммуникациялык машыгуулар: пресс-релиз/статус-жаңыртуулар/жөнгө салуучу каттар.
Ретроспективалар: таймлайн, RCA, CAPA, runbooks жана BIA жаңыртуу.
12) Метрика (KPI/KRI)
RTO/RPO чындык (Tier-1 боюнча): максаттарына ылайык ≥ 95%.
MTTD/MTTR: төмөндөө тенденциясы; MTTR маанилүү окуялар максаттуу ≤.
Фейловердин ийгилиги: маалыматтарды/буйрутмаларды/коюмдарды жоготпостон, ≤ X min деградация.
Coverage көнүгүүлөр: ≥ 2 толук DR тест/жыл + 4 tabletop.
Байланыш: биринчи күнү чейин убакыт ≤ 15 мин, саясатка ылайык тактоо жыштыгы.
Vendor resilience: 12 ай үчүн тастыкталган DR тесттер менен Tier-1 үлүшү - 100%.
13) RACI (кеңейтилген)
14) Чек-баракчалар
14. 1 Ready-to-Failover
- Учурдагы байланыштар IC/сатуучулар/жөнгө салуучу
- Ден соолук репликация, үзгүлтүксүз PITR-backup
- SDK/Webhook үчүн "kill-switch" текшерилген
- Traffic Manager (GSLB/CDN) текшерилген ден соолук-текшерүү менен
- Статус/кат үлгүлөрү жана жарыялоо укугу
- Runbooks жана жетүү (SSO/MFA) ай сайын текшерилет
14. 2 окуя учурунда
- Дайындалган IC, ачык war-room, башталышы Logs Solutions
- Классификация (P1/P2), сценарий тандоо жана деградация
- Иш-аракеттер (Feylover/чеги/өчүрүү)
- Биринчи коомдук жаңылоо ≤ 15 мүнөт
- SLA боюнча жөнгө салуучу/өнөктөш билдирүүлөр
- Постмортем үчүн экспонаттарды басып алуу
14. 3 окуядан кийин
- RCA жана CAPA менен Post-Мортем
- Жаңыланган BIA/босоголор/күнүмдүк жол-жоболор
- Training/Retest Ficks, отчет борду
- Каржылык/берилген салыштыруу (reconciliation)
15) Үлгүлөр (үзүндүлөр)
15. 1 Card Script
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Статус-бетке билдирүү
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Документтерди жана версияларды башкаруу
BCP/Runbooks репозиторийде версиялоо, change-log, документтин ээси.
Кайра карап чыгуу мөөнөтү (Tier-1 үчүн чейрек сайын), оффлайн көчүрмөлөрдүн жеткиликтүүлүгүн көзөмөлдөө.
Машыгуулардын/инциденттердин экспонаттарын жана натыйжалуулуктун метрикасын сактоо.
17) Жол картасы киргизүү (6-8 жума)
Жумалар 1-2: BIA жана оор процесстер, RTO/RPO максаттары, сценарийлердин жана ээлеринин тизмеси.
Жумалар 3-4: туруктуулук жана деградация режимдеринин архитектурасы, runbooks, байланыш шаблондору, байланыштар.
Жума 5-6: сатуучулар менен бириктирүү (PSP/KYC/булут), пилоттук машыгуу (tabletop + жарым-жартылай DR), түзөтүүлөр.
Жумалар 7-8: Толук DR-тест (мүмкүн болсо), чейректик машыгуу циклин баштоо, тактанын отчету жана жөнгө салуучу пакет (талап кылынса).
18) Байланыштуу wiki бөлүмдөрү
Тобокелдик реестри, Инциденттер жана агып чыгуулар, DR/BCP тесттер, TPRM жана SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Логин саясаты/WORM - туруктуулуктун жана далилдөөнүн бирдиктүү контуру үчүн.
TL; DR
Эффективдүү BCP = BIA → RTO/RPO → сценарийлер жана деградациялар → көп сатуучу/көп аймак + ачык Incident Command, байланыш жана машыгуулар. Документти тирүү кармаңыз, үзгүлтүксүз тестирлеңиз - ал тургай чоң ката бизнести токтотпойт жана лицензияларга сокку урбайт.