Оценка рисков
1) Цели и принципы
Цель: раннее обнаружение и приоритизация угроз, влияющих на SLO, выручку, регуляторное соответствие и репутацию.
Принципы: системность, измеримость, повторяемость, привязка к бизнес-ценности, SLO-first.
Результат: прозрачный портфель рисков с понятными владельцами, мерами и дедлайнами.
2) Термины
Риск: вероятность × влияние нежелательного события.
Риск-аппетит: уровень остаточного риска, приемлемый для организации.
Уязвимость / воздействие / контроль: слабое место, триггер и существующие меры.
KRI (Key Risk Indicators): опережающие индикаторы (например, рост p99-латентности, consumer-lag, отклонение конверсии платежей).
3) Классификация рисков для iGaming
Операционные: перегрузка, сбои релизов, очереди, деградация БД/кэшей, инциденты в ЦОД/AZ/регионах.
Технологические/безопасность: DDoS, уязвимости, утечки, ошибки конфигураций, зависимость от ключевых библиотек.
Платежные/финансовые: падение авторизаций, рост chargeback, недоступность провайдера, FX-волнения, фрод.
Зависимости/экосистема: сбои у провайдеров игр, CDN/WAF, KYC/AML, SMS/e-mail шлюзов.
Комплаенс/регуляторика: нарушение требований лицензий, KYC/AML, ответственной игры, хранения данных.
Продукт/маркетинг: непредсказуемые пики трафика (турниры, матчи, промо), промахи сегментации бонусов.
Репутационные: негатив в медиа/соцсетях из-за инцидентов или несоблюдения требований.
4) Процесс оценки рисков (рамка)
1. Установление контекста: цели, SLO, регуляторные требования, архитектурные границы, цепочка ценности.
2. Идентификация: сбор событий-кандидатов: ретроспективы инцидентов, аудит зависимостей, мозговые штурмы, контрольные листы.
3. Анализ: качественный (сценарии, Bow-Tie) и количественный (частоты/распределения).
4. Оценка: сравнение с риск-аппетитом, ранжирование, утверждение приоритетов.
5. Обработка: предотвращение, снижение, передача (страхование/контракты), принятие (осознанное).
6. Мониторинг и пересмотр: KRI, проверки эффективности контролей, обновление реестра, тесты готовности.
5) Качественные техники
Матрица вероятности/влияния: шкалы 1–5 (Very Low…Very High). Влияние считать отдельно по осям: SLA/выручка/регуляторика/репутация.
Bow-Tie Analysis: причины → событие → последствия; для каждой стороны — превентивные и смягчающие контроли.
FTA (Fault Tree Analysis): логические деревья отказов для критичных сервисов (депозит, ставка, вывод).
HAZOP/What-If: систематический опрос “что если?” по интерфейсам и процедурам.
6) Количественные техники
ALE (Annualized Loss Expectancy): ALE = SLE × ARO (ожидаемый годовой ущерб).
VaR/CVaR: риск-капитал при заданном уровне доверия (для кассовых разрывов/платежных провайдеров).
Monte-Carlo: моделирование пиков трафика/отказов провайдеров/конверсий платежей с доверительными интервалами.
FMEA: оценка тяжести (S), частоты (O), обнаружимости (D) → RPN = S×O×D, приоритизация исправлений.
Reliability math: headroom, MTTF/MTTR, burn-rate бюджета ошибок, вероятности совместных отказов (AZ+провайдер).
7) Риск-аппетит и пороги
Определите категории (высокий/средний/низкий) для SLA-потерь, штрафов, потери выручки за час/день.
Установите пороги эскалации: когда инцидент/риск переходит между уровнями, кто обязан собирать вар-рум.
Пропишите исключения (временное принятие риска) с датой пересмотра и планом закрытия.
8) KRI и раннее предупреждение
Примеры KRI:- Производительность: p95/p99 ↑, рост таймаутов, глубина очередей, падение cache-hit, replication lag.
- Платежи: авторизации ↓ в конкретном GEO/банке, рост soft-decline, аномалии AOV.
- Безопасность: всплески 4xx/5xx по критичным эндпоинтам, рост WAF-срабатываний, новые CVE в зависимостях.
- Комплаенс: превышение лимитов хранения, задержки KYC, доля самоисключений без обработки.
- Для каждого KRI — владелец, метрика, пороги, источники, авто-алерты.
9) Оценка влияния (многоосевая)
SLA/SLO: мин/часы вне цели, влияние на бонусы SLA партнерам.
Финансы: прямые потери (невыполненные транзакции, chargeback), косвенные (churn, штрафы).
Регуляторика: риск санкций/приостановки лицензии/обязательных уведомлений.
Репутация: NPS/CSAT, волна негативных упоминаний, влияние на партнеров и стримеров.
10) Обработка рисков (каталог мер)
Предотвращение: отказ от рискованных фич/паттернов, ограничение blast-radius (тенант-изоляция, rate-limit).
Снижение: шардирование БД, кэширование, пул/квоты, мульти-провайдер платежей, канареечные релизы.
Передача: страхование кибер-рисков, SLA-компенсации в контрактах, escrow.
Принятие: документированное решение при контролируемом остаточном риске, с KRI и планом выхода.
11) Роли и RACI
Responsible: Risk/Ops/SRE/Payments/SecOps владельцы доменов.
Accountable: Head of Ops/CTO/CRO.
Consulted: Product, Data/DS, Legal/Compliance, Finance.
Informed: Support, Marketing, Partner Management.
12) Артефакты и шаблоны
Risk Register (реестр рисков): ID, описание, категория, причины, вероятность, влияние по осям, существующие контроли, KRI, план обработки, владелец, срок.
Risk Heatmap: агрегированная карта по подразделениям/сервисам.
Dependency Map: критичные внешние и внутренние зависимости, уровни резервирования, контактные данные.
Runbooks/Playbooks: конкретные шаги при срабатывании KRI/инциденте, kill-switches, деградации.
Quarterly Risk Review: свод изменений, закрытые/новые риски, тренды KRI, эффективность контролей.
13) Интеграция с SLO/инцидент-менеджментом
Риски конвертируются в SLO-мишени (latency, error-rate, доступность) и бюджет ошибок.
KRI → алерт-политики (быстрые/медленные burn-rate).
В post-mortem обязательно фиксировать обновление оценки риска и корректировки контролей.
14) Инструменты и данные
Мониторинг/обсервабилити: метрики, логи, трассировки; панели “риск-видов”.
Каталоги и CMDB: сервисы, владельцы, зависимые компоненты.
GRC/Task-трекер: хранение реестра рисков, статусов, аудита действий.
Data/ML: модели аномалий, прогнозирование нагрузки/отказов, симуляции Monte-Carlo.
15) Дорожная карта внедрения (8–10 недель)
Нед. 1–2: контекст и рамка; список критичных сервисов и зависимостей; определение риск-аппетита.
Нед. 3–4: первичная идентификация рисков (воркшопы, ретро), заполнение реестра, черновая heatmap.
Нед. 5–6: настройка KRI и алертов, привязка к SLO; запуск Bow-Tie/FTA для топ-5 рисков.
Нед. 7–8: количественная оценка (ALE/VaR/Monte-Carlo) для финансово значимых сценариев; утверждение планов обработки.
Нед. 9–10: тестирование готовности (game day, failover), коррекция порогов, запуск ежеквартальных обзоров.
16) Примеры оцененных рисков (iGaming)
1. Провал авторизаций у PSP-1 в прайм-тайм
Вероятность: Средняя; Влияние: Высокое (выручка, SLA).
KRI: конверсия авторизаций по банку/ГЕО, рост soft-decline.
Меры: мульти-провайдер, роутинг по health&fee, ретраи с джиттером, лимиты пауз.
2. Перегрузка БД ставок в сутки матча ЛЧ
Вероятность: Средняя; Влияние: Высокое (SLO).
KRI: lag репликации, p99 запросов, рост lock-wait.
Меры: кэш/CQRS, шардирование, предзагрузка линий, read-only режим части фич.
3. DDoS на публичные API
Вероятность: Низкая–Средняя; Влияние: Высокое (доступность, репутация).
KRI: всплеск SYN/HTTP, WAF-триггеры.
Меры: CDN/WAF, rate-limit, токены, капчи, изоляция трафика ботов.
4. Регуляторное несоответствие по KYC хранению
Вероятность: Низкая; Влияние: Очень высокое (штраф/лицензия).
KRI: задержка проверок > SLA, превышение retention.
Меры: policy-as-code, автоматические TTL, аудит и тесты на прод-данных.
17) Антипаттерны
Оценка “на глаз” без реестра и KRI.
Матрицы без связи с деньгами и SLO → неверные приоритеты.
Редкие обзоры (реестр не обновляется после инцидентов).
“Обработка” только документацией без реализованных контролей/тестов.
Игнор внешних зависимостей и контрактных SLA.
18) Отчетность и коммуникация
Exec-сводка: топ-10 рисков, тренды KRI, остаточный риск vs аппетит, план закрытия.
Тех-отчеты: эффективность контролей, результаты game day, изменения порогов.
Регулярность: ежемесячные обзоры + ежеквартальная глубокая переоценка.
Итог
Оценка рисков — это не статичный документ, а живой цикл: выявили → посчитали → согласовали риск-аппетит → выбрали и внедрили меры → проверили данными и учениями → обновили реестр. Такой контур связывает операционные решения с бизнес-ценностью и снижает частоту/масштаб инцидентов при устойчивом соблюдении SLO и требований регуляторов.