План безперервності бізнесу

1) Мета, область і принципи

Мета: забезпечити продовження критичних сервісів (депозити, ставки/ігри, висновки, KYC/AML, саппорт) при збоях і швидке відновлення без порушення ліцензій і договорів.
Область: онлайн-платформа, платіжний контур, антифрод/КУС, DWH/BI, саппорт, операційна та юридична функції, ключові вендори (PSP/KYC/хмара/CDN/студії/агрегатори).
Принципи: safety first, гравець перш за все, регуляторна коректність, мінімізація RTO/RPO, прості деградаційні режими, доказовість і регулярні навчання.

2) BIA - аналіз впливу на бізнес

Визначте критичні процеси, входи/виходи, залежності, «ручні» альтернативи і цільові RTO/RPO.

Приклад фрагмента BIA (YAML):

yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]

3) Сценарії/загрози (Risk → Impact → Response)

Тих: падіння регіону хмари, збій БД, втрата кластера, атаки DDoS, відмова CDN.
Вендори: PSP/KYC деградація, розрив з агрегатором ігор, недоступність антифрода/санкційного скринінгу.
Кібер: компрометація обліків/ключів, ransomware, витік PII.
Процеси/люди: страйки/хвороби, догляд ключових фахівців, помилка релізу.
Гео/форс-мажор: відключення зв'язку/енергії, військові/санкційні ризики, блокування доменів/трафіку.

Для кожного: тригери, поріг ескалації, контрольні заходи, деградація сервісу і шаблони комунікацій.

4) Архітектура стійкості та стратегії

Active-active/active-standby по регіонах; infrastructure as code для швидкого підйому.
Деградаційні режими: read-only вітрини, відключення не-критичних провайдерів ігор, ліміти виплат, «тільки депозити» з відкладеними касаутами (якщо юридично допустимо), зниження частоти аналітики/ETL.
Traffic management: Anycast CDN, гео-балансування, health-checks, canary-маршрутизація.
Дані: PITR-бекапи, журнали змін, реплікація міжрегіону, криптографічна цілісність (хеші/WORM).
Ключі/секрети: незалежні KMS per-region, «break-glass» з журналюванням.
PSP/KYC multi-homing: автоматичний фейловер, маршрутизація по SLA/латентності.

5) Командна структура (Incident Command System)

Incident Commander (IC) - єдина точка прийняття рішень.
Ops Lead (SRE/Platform) - техстабілізація, фейловер, метрики.
Business Continuity Lead - координація процесів/ручних процедур.
Comms Lead - зовнішні/внутрішні повідомлення (гравці, партнери, регулятори).
Security/DPO - кіберінциденти/приватність, регуляторні вікна.
Payments/KYC Leads - PSP/KYC сценарії.
Liaisons: Legal, Support, VIP/CRM, Data/BI.

Правило: один IC на інцидент, чіткі канали і логи рішень.

6) План комунікацій

Канали: war-room (чат/міст), резервні зв'язки (телефон/радіо/альт-месенджер), заздалегідь перевірені контакти PSP/KYC/банків.
Шаблони зовнішніх повідомлень: статус-сторінка, соцмережі, email/push; тон - факти, терміни, наступні кроки.
Регулятори та партнери: попередньо встановлені адреси, SLA повідомлень; узгоджені формулювання.
Гравці: прозорі ETA, компенсації/бонуси (якщо застосовується), FAQ на період деградації.

7) Операційні плани (Runbooks)

Приклади фрагментів:

7. 1 Фейловер в інший регіон

yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"

7. 2 PSP деградація

yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter

7. 3 KYC провайдер недоступний

yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch

8) Відновлення IT і даних (DR)

Категорії систем: Tier-1 (платформа/платежі/КУС), Tier-2 (ігри/аналітика), Tier-3 (внутрішні).
Порядок підйому: set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika.
Перевірки цілісності: контрольні суми, верифікація журналів/реплікації, звірка транзакцій (reconciliation).
Тести DR: щорічно повний (switch-over), щоквартально частковий; фіксація фактичних RTO/RPO.

9) Люди, офіси та логістика

Remote-ready: резервні ноутбуки/модеми, доступ через SSO/MFA, «червоний» доступ для IC.
Альтернативні локації: запасні офіси/коворкінги, списки перепусток, план на випадок евакуації.
Ротація змін: матриця компетенцій, дублювання ключових ролей, план заміщення.
Критичні провайдери зв'язку/енергії: контакти, SLA, генератори/UPS (якщо релевантно).

10) Вендори і ланцюжок поставок

BCP/DR-вимоги в договорах: RTO/RPO, обов'язкові тести, право аудиту та спільні навчання.
Реєстр субпроцесорів: контакти, плани на outage, підтвердження видалення/експорту даних при offboarding.
Щоквартальні рев'ю Tier-1: інциденти, DR-протоколи, статус сертифікатів, SLA.

11) Навчання, навчання та тестування

Tabletop раз на квартал: PSP/KYC/хмара/кібер-сценарії.
Тех-вчення: DR часткові/повні; DDoS/перемикання CDN; «kill-switch» SDK провайдерів.
Комунікаційні навчання: прес-реліз/статус-оновлення/регуляторні листи.
Ретроспективи: таймлайн, RCA, CAPA, оновлення runbooks і BIA.

12) Метрики (KPI/KRI)

RTO/RPO факт (по Tier-1): відповідають цілям ≥ 95%.
MTTD/MTTR: тренд на зниження; MTTR критичних інцидентів ≤ цільового.
Успішність фейловера: без втрати даних/замовлень/ставок, ≤ X хв деградації.
Coverage навчаннями: ≥ 2 повних DR-тесту/рік + 4 tabletop.
Комунікації: час до першого апдейту ≤ 15 хв, частота оновлень відповідно до політики.
Vendor resilience: частка Tier-1 з підтвердженими DR-тестами за 12 міс - 100%.

13) RACI (укрупнено)

Активність	IC	SRE/Platform	Security/DPO	Payments	Risk/KYC	Product	Support/CRM	Legal/Compliance	Comms/PR	Data/BI
Оголошення інциденту	A/R	R	R	R	R	C	C	C	C	C
Техстабілізація/фейловер	C	A/R	C	C	C	C	I	I	I	C
PSP/KYC маршрутизація	C	C	I	A/R	A/R	C	I	I	I	I
Комунікації	A	I	C	C	C	C	C	C	R	I
Регуляторні повідомлення	I	I	A/R	C	C	I	I	R	I	I
Пост-мортем/САРА	A/R	R	R	R	R	R	R	C	C	R

14) Чек-листи

14. 1 Ready-to-Failover

Актуальні контакти IC/вендорів/регуляторів
Здоров'я реплікації, регулярний PITR-бекап
Перевірені «kill-switch» для SDK/вебхуків
Трафік-менеджер (GSLB/CDN) з перевіреними health-checks
Шаблони статусу/листів і права публікації
Runbooks і доступи (SSO/MFA) перевірені щомісяця

14. 2 Під час інциденту

Призначений IC, відкритий war-room, старт логів рішень
Класифікація (P1/P2), вибір сценарію і деградації
Техдіяння (фейловер/ліміти/відключення)
Перший публічний апдейт ≤ 15 хвилин
Регуляторні/партнерські повідомлення по SLA
Захоплення артефактів для пост-мортема

14. 3 Після інциденту

Пост-мортем з RCA і CAPA
Оновлені BIA/пороги/рутинні процедури
Тренування/ретест фіксів, звіт борду
Фінансова/дана звірка (reconciliation)

15) Шаблони (фрагменти)

15. 1 Картка сценарію

yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]

15. 2 Повідомлення на статус-сторінку


[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.

16) Управління документами та версіями

Версіонування BCP/Runbooks в репозиторії, change-log, власник документа.
Терміни перегляду (щокварталу для Tier-1), контроль доступності офлайн-копій.
Зберігання артефактів навчань/інцидентів і метрик ефективності.

17) Дорожня карта впровадження (6-8 тижнів)

Тижні 1-2: BIA і критичні процеси, цілі RTO/RPO, список сценаріїв і власників.
Тижні 3-4: архітектура стійкості і деградаційних режимів, runbooks, комунікаційні шаблони, контакти.
Тижні 5-6: інтеграція з вендорами (PSP/KYC/хмара), пілотні навчання (tabletop + частковий DR), коригування.
Тижні 7-8: повний DR-тест (по можливості), запуск квартального циклу навчань, звіт борду і регуляторний пакет (якщо потрібно).

18) Пов'язані розділи wiki

Реєстр ризиків, Інциденти та витоки, DR/BCP тести, TPRM і SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Політика логів/WORM - для єдиного контуру стійкості і доказовості.

TL; DR

Ефективний BCP = BIA→RTO/RPO→stsenarii і degradatsii→multi -вендор/мульти-регіон + ясний Incident Command, комунікації та навчання. Підтримуйте документ живим, тестуйте регулярно - і навіть великий збій не зупинить бізнес і не вдарить по ліцензіях.

План безперервності бізнесу

TL; DR

Зв’яжіться з нами

Швидкий зв’язок

Відео скоро буде оновлено

Зараз ми дуже завантажені проєктами