План непрерывности бизнеса

1) Цель, область и принципы

Цель: обеспечить продолжение критичных сервисов (депозиты, ставки/игры, выводы, KYC/AML, саппорт) при сбоях и быстрое восстановление без нарушения лицензий и договоров.
Область: онлайн-платформа, платежный контур, антифрод/KYC, DWH/BI, саппорт, операционная и юридическая функции, ключевые вендоры (PSP/KYC/облако/CDN/студии/агрегаторы).
Принципы: safety first, игрок прежде всего, регуляторная корректность, минимизация RTO/RPO, простые деградационные режимы, доказуемость и регулярные учения.

2) BIA — анализ влияния на бизнес

Определите критичные процессы, входы/выходы, зависимости, «ручные» альтернативы и целевые RTO/RPO.

Пример фрагмента BIA (YAML):

yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]

3) Сценарии/угрозы (Risk → Impact → Response)

Тех: падение региона облака, сбой БД, потеря кластера, атаки DDoS, отказ CDN.
Вендоры: PSP/KYC деградация, разрыв с агрегатором игр, недоступность антифрода/санкционного скрининга.
Кибер: компрометация учеток/ключей, ransomware, утечка PII.
Процессы/люди: забастовки/болезни, уход ключевых специалистов, ошибка релиза.
Гео/форс-мажор: отключения связи/энергии, военные/санкционные риски, блокировки доменов/трафика.

Для каждого: триггеры, порог эскалации, контрольные меры, деградация сервиса и шаблоны коммуникаций.

4) Архитектура устойчивости и стратегии

Active-active/active-standby по регионам; infrastructure as code для быстрого подъема.
Деградационные режимы: read-only витрины, отключение не-критичных провайдеров игр, лимиты выплат, «только депозиты» с отложенными кассаутами (если юридически допустимо), понижение частоты аналитики/ETL.
Traffic management: Anycast CDN, гео-балансировка, health-checks, canary-маршрутизация.
Данные: PITR-бэкапы, журналы изменений, репликация межрегиона, криптографическая целостность (хэши/WORM).
Ключи/секреты: независимые KMS per-region, «break-glass» с журналированием.
PSP/KYC multi-homing: автоматический фейловер, маршрутизация по SLA/латентности.

5) Командная структура (Incident Command System)

Incident Commander (IC) — единая точка принятия решений.
Ops Lead (SRE/Platform) — техстабилизация, фейловер, метрики.
Business Continuity Lead — координация процессов/ручных процедур.
Comms Lead — внешние/внутренние уведомления (игроки, партнеры, регуляторы).
Security/DPO — киберинциденты/приватность, регуляторные окна.
Payments/KYC Leads — PSP/KYC сценарии.
Liaisons: Legal, Support, VIP/CRM, Data/BI.

Правило: один IC на инцидент, четкие каналы и логи решений.

6) План коммуникаций

Каналы: war-room (чат/мост), резервные связи (телефон/радио/альт-мессенджер), заранее проверенные контакты PSP/KYC/банков.
Шаблоны внешних сообщений: статус-страница, соцсети, email/push; тон — факты, сроки, следующие шаги.
Регуляторы и партнеры: предустановленные адреса, SLA уведомлений; согласованные формулировки.
Игроки: прозрачные ETA, компенсации/бонусы (если применимо), FAQ на период деградации.

7) Операционные планы (Runbooks)

Примеры фрагментов:

7.1 Фейловер в другой регион

yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"

7.2 PSP деградация

yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter

7.3 KYC провайдер недоступен

yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch

8) Восстановление IT и данных (DR)

Категории систем: Tier-1 (платформа/платежи/KYC), Tier-2 (игры/аналитика), Tier-3 (внутренние).
Порядок подъема: сеть→секреты/KMS→БД→кеш→API→фронт/CDN→интеграции→аналитика.
Проверки целостности: контрольные суммы, верификация журналов/репликации, сверка транзакций (reconciliation).
Тесты DR: ежегодно полный (switch-over), ежеквартально частичный; фиксация фактических RTO/RPO.

9) Люди, офисы и логистика

Remote-ready: резервные ноутбуки/модемы, доступ через SSO/MFA, «красный» доступ для IC.
Альтернативные локации: запасные офисы/коворкинги, списки пропусков, план на случай эвакуации.
Ротация смен: матрица компетенций, дублирование ключевых ролей, план замещения.
Критичные провайдеры связи/энергии: контакты, SLA, генераторы/UPS (если релевантно).

10) Вендоры и цепочка поставок

BCP/DR-требования в договорах: RTO/RPO, обязательные тесты, право аудита и совместные учения.
Реестр субпроцессоров: контакты, планы на outage, подтверждения удаления/экспорта данных при offboarding.
Ежеквартальные ревью Tier-1: инциденты, DR-протоколы, статус сертификатов, SLA.

11) Обучение, учения и тестирование

Tabletop раз в квартал: PSP/KYC/облако/кибер-сценарии.
Тех-учения: DR частичные/полные; DDoS/переключение CDN; «kill-switch» SDK провайдеров.
Коммуникационные учения: пресс-релиз/статус-обновления/регуляторные письма.
Ретроспективы: таймлайн, RCA, CAPA, обновление runbooks и BIA.

12) Метрики (KPI/KRI)

RTO/RPO факт (по Tier-1): соответствуют целям ≥ 95%.
MTTD/MTTR: тренд на снижение; MTTR критичных инцидентов ≤ целевого.
Успешность фейловера: без потери данных/заказов/ставок, ≤ X мин деградации.
Coverage учениями: ≥ 2 полных DR-теста/год + 4 tabletop.
Коммуникации: время до первого апдейта ≤ 15 мин, частота обновлений согласно политики.
Vendor resilience: доля Tier-1 с подтвержденными DR-тестами за 12 мес — 100%.

13) RACI (укрупненно)

Активность	IC	SRE/Platform	Security/DPO	Payments	Risk/KYC	Product	Support/CRM	Legal/Compliance	Comms/PR	Data/BI
Объявление инцидента	A/R	R	R	R	R	C	C	C	C	C
Техстабилизация/фейловер	C	A/R	C	C	C	C	I	I	I	C
PSP/KYC маршрутизация	C	C	I	A/R	A/R	C	I	I	I	I
Коммуникации	A	I	C	C	C	C	C	C	R	I
Регуляторные уведомления	I	I	A/R	C	C	I	I	R	I	I
Пост-мортем/CAPA	A/R	R	R	R	R	R	R	C	C	R

14) Чек-листы

14.1 Ready-to-Failover

Актуальные контакты IC/вендоров/регуляторов
Здоровье репликации, регулярный PITR-бэкап
Проверены «kill-switch» для SDK/вебхуков
Трафик-менеджер (GSLB/CDN) с проверенными health-checks
Шаблоны статуса/писем и права публикации
Runbooks и доступы (SSO/MFA) проверены ежемесячно

14.2 Во время инцидента

Назначен IC, открыт war-room, старт логов решений
Классификация (P1/P2), выбор сценария и деградации
Техдействия (фейловер/лимиты/отключения)
Первый публичный апдейт ≤ 15 минут
Регуляторные/партнерские уведомления по SLA
Захват артефактов для пост-мортема

14.3 После инцидента

Пост-мортем с RCA и CAPA
Обновлены BIA/пороги/рутинные процедуры
Тренировка/ретест фиксов, отчет борду
Финансовая/данная сверка (reconciliation)

15) Шаблоны (фрагменты)

15.1 Карточка сценария

yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]

15.2 Сообщение на статус-страницу


[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.

16) Управление документами и версиями

Версионирование BCP/Runbooks в репозитории, change-log, владелец документа.
Сроки пересмотра (ежеквартально для Tier-1), контроль доступности офлайн-копий.
Хранение артефактов учений/инцидентов и метрик эффективности.

17) Дорожная карта внедрения (6–8 недель)

Недели 1–2: BIA и критичные процессы, цели RTO/RPO, список сценариев и владельцев.
Недели 3–4: архитектура устойчивости и деградационных режимов, runbooks, коммуникационные шаблоны, контакты.
Недели 5–6: интеграция с вендорами (PSP/KYC/облако), пилотные учения (tabletop + частичный DR), корректировки.
Недели 7–8: полный DR-тест (по возможности), запуск квартального цикла учений, отчет борду и регуляторный пакет (если требуется).

18) Связанные разделы wiki

Реестр рисков, Инциденты и утечки, DR/BCP тесты, TPRM и SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, Политика логов/WORM — для единого контура устойчивости и доказуемости.

TL;DR

Эффективный BCP = BIA→RTO/RPO→сценарии и деградации→мульти-вендор/мульти-регион + ясный Incident Command, коммуникации и учения. Поддерживайте документ живым, тестируйте регулярно — и даже большой сбой не остановит бизнес и не ударит по лицензиям.

План непрерывности бизнеса

TL;DR

Свяжитесь с нами

Быстрая связь

Видео скоро обновится

Мы сейчас очень загружены проектами