Стратегії зниження ризиків
1) Цілі та принципи
Мета: зменшити ймовірність інцидентів, обмежити їх «blast radius», скоротити MTTR і фінансові/регуляторні наслідки.
Принципи: prevent > detect > contain > recover; SLO-first; сегментація та ізоляція; автоматизація; перевірність (навчання і тести); cost-aware.
2) Таксономія ризиків (на що діємо)
Навантажувальні та продуктивні: перевантаження, черги, хвости латентності.
Технологічні/інфраструктурні: збої AZ/регіону, деградація БД/кешів, уразливості, DDoS.
Залежності: PSP/KYC/AML, провайдери ігор, CDN/WAF, поштові/SMS-шлюзи.
Платіжні/фінансові: падіння авторизацій, зростання фроду/chargeback, касові розриви.
Комплаєнс/регуляторика: зберігання даних, відповідальна гра, ліцензії.
Процесні/людські: помилки релізів, ручні операції, невірні конфігурації.
Репутаційні/маркетингові: промо-піки, негатив у публічному полі.
3) Стратегії запобігання (зменшуємо ймовірність)
1. Архітектурна ізоляція
Багатотенантність з лімітами на трафік/квоти за тенантами.
Розділення критичних шляхів: депозит/ставка/виведення в окремих доменах.
Мережеві політики zero-trust, least privilege, секрети і ротація ключів.
2. Типова продуктивність
CQRS, денормалізація, кешування гарячих ключів, ідемпотентність.
Правильні пули з'єднань, backpressure, таймаути і джиттер-ретраї.
Граничні розміри запитів/сторінок, захист від N + 1.
3. Мульти-все для критичних залежностей
Платежі: 2-3 PSP з health- і fee-aware маршрутизацією.
Сховища: репліки/шардинг, різні класи зберігання, контроль lag.
Комунікації: резервний e-mail/SMS провайдер, fallback-канали.
4. Комплаєнс by-design
Політики зберігання (TTL), шифрування at-rest/in-transit, аудит.
Контроль гео-маршрутизації даних і доступів за ролями.
5. Безпека
WAF/CDN, rate-limits, bot-mitigation, підпис запитів і HMAC-вебхуків.
SCA/DAST/SAST в CI/CD, SBOM, фіксація залежностей і оновлення.
6. Процеси та релізи
Канарні/blue-green, dark-launch, feature-flags, обов'язкові чек-листи.
Чітка RACI і подвійний контроль для небезпечних змін.
4) Стратегії виявлення (ранні індикатори та аномалії)
KRI/SLI: p95/p99, error-rate, queue-lag, cache-hit, replication-lag, авторизації PSP по GEO/банку.
Аномалія-детекція: STL/IQR/потокові детектори для сплесків і провалів.
Burn-rate алерти: швидкі (1ч) і повільні (6-24ч) вікна за бюджетами помилок.
Кореляція подій: релізи/фічефлаги/кампанії ↔ деградації метрик.
Чекер залежностей: активний health-пінг PSP/KYC/CDN, моніторинг SLA-контрактів.
5) Стратегії локалізації та обмеження збитку (containment)
Circuit Breakers / Bulkheads: ізоляція клієнтських пулів, стоп поширення таймаутів.
Rate-limit & Quotas: на клієнта/тенанта/ендпоінт, особливо для write-шляхів.
Graceful Degradation: читання з кеша/статик, відключення не-критичних фіч кнопками kill-switch.
Fail-open/Fail-closed по доменах: приклад - для аналітики fail-open, для платежів fail-closed.
Повідомлення користувачеві: доброзичливі статуси, черги очікування, «ми зберегли вашу ставку».
6) Стратегії пом'якшення (mitigation) і відновлення (recovery)
Автоскейлінг за прогнозом/lag: HPA/KEDA з передбаченням піків.
Переїзд трафіку: гео-рулінг, евакуація з гарячого регіону, зміна PSP в реальному часі.
Runbooks & Playbooks: готові покрокові інструкції (депозит застопорився; зростання 5xx у ставок; lag реплікації).
Резервні сценарії даних: point-in-time restore, cold-standby/active-active, plan RPO/RTO.
Комунікація: внутрішній war-room + шаблони зовнішніх повідомлень/статус-сторінка.
7) Стратегії трансферу і прийняття (risk transfer & acceptance)
Контракти і SLA: штрафи/кредити при недоступності провайдерів, escrow для критичних сервісів.
Страхування: кіберризики, відповідальність за витоки, перерви в бізнесі.
Усвідомлене прийняття: документуємо залишковий ризик, власника, KRI і дату перегляду.
8) Патерни зниження ризиків по шарах
8. 1 Інфраструктура та мережа
Multi-AZ/регіон, антирегіональні залежності, контроль egress.
Підмережі per-домени, security-групи, політика за вихідними.
Канарка-перевірка нових версій ядра/бекенду.
8. 2 Дані, БД і кеші
Read-replica і поділ read/write, обмеження довгих транзакцій.
Гарячі індекси та матеріалізовані агрегати; TTL/архів.
Кеш-warmup до піків, захист від stampede (single-flight).
8. 3 Черги та асинхронщина
Дід-letter і retry-топіки з експонентою і джиттером.
Контроль consumer-lag, партіонування по ключах, ідемпотентні консюмери.
8. 4 Платежі та фінанси
PSP-router: health × fee × conversion score.
3-D Secure/повторні спроби → вище конверсія, менше ретраїв.
Антифрод: ризик-скоринг, velocity-правила, ліміти на висновки.
Управління ліквідністю: моніторинг касових залишків і VaR по провайдерам.
8. 5 Безпека та комплаєнс
Політики зберігання, шифрування, регулярні tabletop-навчання щодо інцидентів.
Data lineage та аудит доступу; секрети - в менеджері секретів.
Відповідальна гра: тригери самовиключень, ліміти, SLA обробки.
8. 6 Продукт і фронт
Feature-flags з безпечною деградацією; A/B-охоронні рейки.
Кешування на краю, захист від сплесків (queue-page, waiting room).
Idempotent UI-повтори, збереження чернеток транзакцій.
9) Процеси, люди, навчання
SRE-ритуали: тижневі огляди KRI/SLO, пост-інцидентні ретро з action items.
Change-management: обов'язковий canary + rollback-план; «подвійний ключ» для небезпечних дій.
Навчання операторів: тренування з плейбуків, імітація піків/відмов (game day).
Резерв кадру: on-call ротації, дублювання знань (runbooks, архітектурні карти).
10) Дашборди та комунікація
Exec-дашборд: топ-ризики (heatmap), залишковий ризик vs апетит, burn-rate, фінансовий вплив.
Тех-дашборд: p95/p99, error-rate, consumer-lag, cache-hit, replication-lag, PSP-convert, DDoS-сигналы.
Статус-сторінка: аптайм доменів, інциденти, ETAs, історія.
Комм-шаблони: внутрішня/зовнішня комунікація при інцидентах і регресах.
11) KPI ефективності зниження ризиків
Частота і масштаб інцидентів (per місяць/квартал).
MTTA/MTTR,% періодів в SLO, burn-rate бюджету помилок.
Відновлена виручка/втрати, конверсія платежів в піке.
Виконання навчань (coverage) і частка автоматизованих реакцій.
Частка успішно відпрацьованих failover/canary/rollback сценаріїв.
12) Дорожня карта впровадження (8-12 тижнів)
Нед. 1–2: карта критичних шляхів (депозит/ставка/виведення), поточні KRI/SLO, інвентаризація залежностей.
Нед. 3–4: швидкі containment-заходи: rate-limits, circuit-breakers, kill-switches, базові плейбуки.
Нед. 5–6: мульти-PSP роутинг, кеш-warmup, read-replica, TTL/архів логів і трасувань.
Нед. 7–8: аномалія-детекція, burn-rate алерти, вчення game day + відпрацювання rollback.
Нед. 9–10: гео-фейловер, авто-скейл за прогнозом/lag, резервні комунікації (e-mail/SMS).
Нед. 11–12: комплаєнс-аудит (TTL/шифрування), фінальні runbooks, запуск щоквартальних risk-review.
13) Шаблони артефактів
Playbook Degrade: три рівні деградації, які фічі відключати, критерії повернення.
Failover Plan: хто і як перемикає регіон/PSP, контрольні метрики, кроки відкату.
PSP Routing Policy: правила здоров'я/комісій/конверсії, ліміти, тест-маршрути.
Change Checklist: до/під час/після релізу, observability-гейт, canary-критерії.
Risk Heatmap & Register: формат оновлення, власники, терміни, KRI/пороги.
14) Антипатерни
«Сподіватися на масштаб» замість ізоляції та лімітів.
Покладатися на одного провайдера для критичного домену.
Плейбуки «на папері» без навчань та автоматизації.
Нескінченні ретраї без джиттера → шторму і каскади.
Економія на логах/моніторингу, що робить інциденти «сліпими».
Підсумок
Ефективне зниження ризиків - це комбінація архітектурної ізоляції, передбачуваних процесних практик і автоматизованих реакцій, підкріплених вимірюваними KRI/SLO і регулярними навчаннями. Такий контур мінімізує ймовірність і масштаб інцидентів, прискорює відновлення і захищає виручку і репутацію платформи.