Оцінка ризиків
1) Цілі та принципи
Мета: раннє виявлення і пріоритизація загроз, що впливають на SLO, виручку, регуляторну відповідність і репутацію.
Принципи: системність, вимірюваність, повторюваність, прив'язка до бізнес-цінності, SLO-first.
Результат: прозорий портфель ризиків зі зрозумілими власниками, заходами і дедлайнами.
2) Терміни
Ризик: ймовірність × вплив небажаної події.
Ризик-апетит: рівень залишкового ризику, прийнятний для організації.
Вразливість/вплив/контроль: слабке місце, тригер і існуючі заходи.
KRI (Key Risk Indicators): випереджаючі індикатори (наприклад, зростання p99-латентності, consumer-lag, відхилення конверсії платежів).
3) Класифікація ризиків для iGaming
Операційні: перевантаження, збої релізів, черги, деградація БД/кешів, інциденти в ЦОД/AZ/регіонах.
Технологічні/безпека: DDoS, вразливості, витоки, помилки конфігурацій, залежність від ключових бібліотек.
Платіжні/фінансові: падіння авторизацій, зростання chargeback, недоступність провайдера, FX-хвилювання, фрод.
Залежності/екосистема: збої у провайдерів ігор, CDN/WAF, KYC/AML, SMS/e-mail шлюзів.
Комплаєнс/регуляторика: порушення вимог ліцензій, KYC/AML, відповідальної гри, зберігання даних.
Продукт/маркетинг: непередбачувані піки трафіку (турніри, матчі, промо), промахи сегментації бонусів.
Репутаційні: негатив в медіа/соцмережах через інциденти або недотримання вимог.
4) Процес оцінки ризиків (рамка)
1. Встановлення контексту: цілі, SLO, регуляторні вимоги, архітектурні межі, ланцюжок цінності.
2. Ідентифікація: збір подій-кандидатів: ретроспективи інцидентів, аудит залежностей, мозкові штурми, контрольні листи.
3. Аналіз: якісний (сценарії, Bow-Tie) і кількісний (частоти/розподілу).
4. Оцінка: порівняння з ризик-апетитом, ранжування, затвердження пріоритетів.
5. Обробка: запобігання, зниження, передача (страхування/контракти), прийняття (усвідомлене).
6. Моніторинг та перегляд: KRI, перевірки ефективності контролів, оновлення реєстру, тести готовності.
5) Якісні техніки
Матриця ймовірності/впливу: шкали 1-5 (Very Low... Very High). Вплив рахувати окремо по осях: SLA/виручка/регуляторика/репутація.
Bow-Tie Analysis: причини → подія → наслідки; для кожної сторони - превентивні і пом'якшувальні контролі.
FTA (Fault Tree Analysis): логічні дерева відмов для критичних сервісів (депозит, ставка, висновок).
HAZOP/What-If: систематичне опитування «що якщо?» за інтерфейсами і процедурами.
6) Кількісні техніки
ALE (Annualized Loss Expectancy): ALE = SLE × ARO (очікуваний річний збиток).
VaR/CVaR: ризик-капітал при заданому рівні довіри (для касових розривів/платіжних провайдерів).
Monte-Carlo: моделювання піків трафіку/відмов провайдерів/конверсій платежів з довірчими інтервалами.
FMEA: оцінка тяжкості (S), частоти (O), виявленості (D) → RPN = S × O × D, пріоритизація виправлень.
Reliability math: headroom, MTTF/MTTR, burn-rate бюджету помилок, ймовірності спільних відмов (AZ + провайдер).
7) Ризик-апетит і пороги
Визначте категорії (високий/середній/низький) для SLA-втрат, штрафів, втрати виручки за годину/день.
Встановіть пороги ескалації: коли інцидент/ризик переходить між рівнями, хто зобов'язаний збирати вар-рум.
Пропишіть виключення (тимчасове прийняття ризику) з датою перегляду і планом закриття.
8) KRI і раннє попередження
Приклади KRI:- Продуктивність: p95/p99 ↑, зростання таймаутів, глибина черг, падіння cache-hit, replication lag.
- Платежі: авторизації ↓ в конкретному GEO/банку, зростання soft-decline, аномалії AOV.
- Безпека: сплески 4xx/5xx по критичних ендпоінтах, зростання WAF-спрацьовувань, нові CVE в залежностях.
- Комплаєнс: перевищення лімітів зберігання, затримки KYC, частка самовиключень без обробки.
- Для кожного KRI - власник, метрика, пороги, джерела, авто-алерти.
9) Оцінка впливу (багатооосьова)
SLA/SLO: хв/годинник поза метою, вплив на бонуси SLA партнерам.
Фінанси: прямі втрати (невиконані транзакції, chargeback), непрямі (churn, штрафи).
Регуляторика: ризик санкцій/призупинення ліцензії/обов'язкових повідомлень.
Репутація: NPS/CSAT, хвиля негативних згадок, вплив на партнерів і стримерів.
10) Обробка ризиків (каталог заходів)
Запобігання: відмова від ризикованих фіч/патернів, обмеження blast-radius (тенант-ізоляція, rate-limit).
Зниження: шардування БД, кешування, пул/квоти, мульти-провайдер платежів, канарські релізи.
Передача: страхування кібер-ризиків, SLA-компенсації в контрактах, escrow.
Прийняття: документоване рішення при контрольованому залишковому ризику, з KRI і планом виходу.
11) Ролі та RACI
Responsible: Risk/Ops/SRE/Payments/SecOps власники доменів.
Accountable: Head of Ops/CTO/CRO.
Consulted: Product, Data/DS, Legal/Compliance, Finance.
Informed: Support, Marketing, Partner Management.
12) Артефакти та шаблони
Risk Register (реєстр ризиків): ID, опис, категорія, причини, ймовірність, вплив по осях, існуючі контролі, KRI, план обробки, власник, термін.
Risk Heatmap: агрегована карта по підрозділах/сервісах.
Dependency Map: критичні зовнішні та внутрішні залежності, рівні резервування, контактні дані.
Runbooks/Playbooks: конкретні кроки при спрацьовуванні KRI/інциденті, kill-switches, деградації.
Quarterly Risk Review: звід змін, закриті/нові ризики, тренди KRI, ефективність контролів.
13) Інтеграція з SLO/інцидент-менеджментом
Ризики конвертуються в SLO-мішені (latency, error-rate, доступність) і бюджет помилок.
KRI → алерт-політики (швидкі/повільні burn-rate).
У post-mortem обов'язково фіксувати оновлення оцінки ризику і коригування контролів.
14) Інструменти та дані
Моніторинг/обсервабіліті: метрики, логи, трасування; панелі «ризик-видів».
Каталоги та CMDB: сервіси, власники, залежні компоненти.
GRC/Task-трекер: зберігання реєстру ризиків, статусів, аудиту дій.
Data/ML: моделі аномалій, прогнозування навантаження/відмов, симуляції Monte-Carlo.
15) Дорожня карта впровадження (8-10 тижнів)
Нед. 1–2: контекст і рамка; список критичних сервісів і залежностей; визначення ризик-апетиту.
Нед. 3–4: первинна ідентифікація ризиків (воркшопи, ретро), заповнення реєстру, чорнова heatmap.
Нед. 5–6: налаштування KRI і алертів, прив'язка до SLO; запуск Bow-Tie/FTA для топ-5 ризиків.
Нед. 7–8: кількісна оцінка (ALE/VaR/Monte-Carlo) для фінансово значущих сценаріїв; затвердження планів обробки.
Нед. 9–10: тестування готовності (game day, failover), корекція порогів, запуск щоквартальних оглядів.
16) Приклади оцінених ризиків (iGaming)
1. Провал авторизацій у PSP-1 в прайм-тайм
Ймовірність: Середня; Вплив: Висока (виручка, SLA).
KRI: конверсія авторизацій по банку/ГЕО, зростання soft-decline.
Заходи: мульти-провайдер, роутинг по health & fee, ретраї з джиттером, ліміти пауз.
2. Перевантаження БД ставок в добу матчу ЛЧ
Ймовірність: Середня; Вплив: Висока (SLO).
KRI: lag реплікації, p99 запитів, зростання lock-wait.
Заходи: кеш/CQRS, шардування, передзавантаження ліній, read-only режим частини фіч.
3. DDoS на публічні API
Ймовірність: Низька-Середня; Вплив: Висока (доступність, репутація).
KRI: сплеск SYN/HTTP, WAF-тригери.
Заходи: CDN/WAF, rate-limit, токени, капчі, ізоляція трафіку ботів.
4. Регуляторна невідповідність по KYC зберіганню
Ймовірність: Низька; Вплив: Дуже висока (штраф/ліцензія).
KRI: затримка перевірок> SLA, перевищення retention.
Заходи: policy-as-code, автоматичні TTL, аудит і тести на прод-даних.
17) Антипатерни
Оцінка «на око» без реєстру і KRI.
Матриці без зв'язку з грошима і SLO → невірні пріоритети.
Рідкісні огляди (реєстр не оновлюється після інцидентів).
«Обробка» тільки документацією без реалізованих контролів/тестів.
Ігнор зовнішніх залежностей і контрактних SLA.
18) Звітність і комунікація
Exec-зведення: топ-10 ризиків, тренди KRI, залишковий ризик vs апетит, план закриття.
Тех-звіти: ефективність контролів, результати game day, зміни порогів.
Регулярність: щомісячні огляди + щоквартальна глибока переоцінка.
Підсумок
Оцінка ризиків - це не статичний документ, а живий цикл: виявили → порахували → узгодили ризик-апетит → обрали та впровадили заходи → перевірили даними та навчаннями → оновили реєстр. Такий контур пов'язує операційні рішення з бізнес-цінністю і знижує частоту/масштаб інцидентів при стійкому дотриманні SLO і вимог регуляторів.