Тәуекелдерді бағалау
1) Мақсаттар мен қағидаттар
Мақсаты: SLO-ға, түсімге, реттеушілік сәйкестікке және беделге әсер ететін қатерлерді ерте анықтау және басымдық беру.
Қағидаттары: жүйелілігі, өлшенуі, қайталануы, бизнес құндылықтарына байланысы, SLO-first.
Нәтижесі: түсінікті иелері, шаралары және мерзімі ұзартылған тәуекелдердің ашық портфелі.
2) Терминдер
Тәуекел: ықтималдық × жағымсыз оқиғаның әсері.
Тәуекел-тәбет: ұйымға қолайлы қалдық тәуекел деңгейі.
Осалдығы/әсері/бақылауы: әлсіз жері, триггері және қолданыстағы шаралары.
KRI (Key Risk Indicators): озыңқы индикаторлар (мысалы, p99-латенттіліктің өсуі, consumer-lag, төлемдер конверсиясының ауытқуы).
3) iGaming үшін тәуекелдерді жіктеу
Операциялық: артық жүктеме, релиздердің, кезектердің істен шығуы, ДБ/кэштің тозуы, ЦОД/AZ/аймақтардағы инциденттер.
Технологиялық/қауіпсіздік: DDoS, осалдықтар, ағулар, конфигурация қателері, негізгі кітапханаларға тәуелділік.
Төлем/қаржы: авторизацияның құлдырауы, chargeback өсуі, провайдердің қолжетімсіздігі, FX-толқулар, фрод.
Тәуелділік/экожүйе: ойын провайдерлеріндегі, CDN/WAF, KYC/AML, SMS/e-mail шлюздеріндегі іркілістер.
Комплаенс/реттеуіш: лицензия, KYC/AML, жауапты ойын, деректерді сақтау талаптарының бұзылуы.
Өнім/маркетинг: трафиктің болжанбайтын пиктері (турнирлер, матчтар, промо), бонустарды саралаудың қателіктері.
Беделi: медиа/әлеуметтiк желiлердегi тосын оқиғаларға немесе талаптарды сақтамауға байланысты жағымсыз.
4) Тәуекелдерді бағалау процесі (шеңбер)
1. Контексті белгілеу: мақсаттар, SLO, реттеуші талаптар, архитектуралық шекаралар, құндылықтар тізбегі.
2. Сәйкестендіру: кандидат оқиғаларды жинау: инциденттердің ретроспективалары, тәуелділік аудиті, ми шабуылдары, бақылау парақтары.
3. Талдау: сапалық (сценарийлер, Bow-Tie) және сандық (жиілік/бөлу).
4. Бағалау: тәуекел-тәбетпен салыстыру, саралау, басымдықтарды бекіту.
5. Өңдеу: алдын алу, төмендету, беру (сақтандыру/келісімшарттар), қабылдау (саналы түрде).
6. Мониторинг және қайта қарау: KRI, бақылаулардың тиімділігін тексеру, тізілімді жаңарту, әзірлік тестілері.
5) Сапалы техникалар
Ықтималдық/әсер матрицасы: 1-5 шкаласы (Very Low... Very High). Әсер осьтер бойынша жеке есептеледі: SLA/түсім/реттеуші/бедел.
Bow-Tie Analysis: себептері → оқиға → салдары; әрбір тарап үшін - алдын алу және жұмсарту бақылаулары.
FTA (Fault Tree Analysis): сындарлы сервистер үшін қисынды бас тарту ағаштары (депозит, мөлшерлеме, шығару).
HAZOP/What-If: жүйелік сауалнама «егер не?» интерфейстер мен рәсімдер бойынша.
6) Сандық техника
ALE (Annualized Loss Expectancy): ALE = SLE × ARO (күтілетін жылдық залал).
VaR/CVaR: берілген сенім деңгейіндегі тәуекел-капитал (кассалық алшақтықтар/төлем провайдерлері үшін).
Monte-Carlo: трафик пиктерін/провайдерлердің істен шығуын/сенімді аралықтармен төлем конверсияларын модельдеу.
FMEA: ауырлықты (S), жиілікті (O), анықтауды (D) бағалау → RPN = S × O × D, түзетулерге басымдық беру.
Reliability math: headroom, MTTF/MTTR, burn-rate бюджет қателері, бірлескен бас тарту ықтималдығы (AZ + провайдер).
7) Тәуекел-тәбет және табалдырықтар
SLA-шығындар, айыппұлдар, сағат/күн үшін түсім шығындары үшін санаттарды (жоғары/орташа/төмен) анықтаңыз.
Эскалация шегін белгілеңіз: инцидент/тәуекел варрум жинауға міндетті деңгейлер арасында өткенде.
Қайта қарау күні және жабу жоспары бар ерекшеліктерді (тәуекелді уақытша қабылдау) жазыңыз.
8) KRI және ерте ескерту
KRI мысалдары:- Өнімділігі: p95/p99 ↑, таймауттардың өсуі, кезектердің тереңдігі, cache-hit құлауы, replication lag.
- Төлемдер: авторизация ↓ нақты GEO/банкте, өсу soft-decline, ауытқулар AOV.
- Қауіпсіздік: критикалық эндпоинттер бойынша 4xx/5xx жарылыстары, WAF-іске қосылулардың өсуі, тәуелділіктегі жаңа CVE.
- Комплаенс: сақтау лимиттерінің артуы, KYC кідірісі, өңдеусіз өздігінен алып тастау үлесі.
- Әрбір KRI үшін - иесі, метрика, табалдырықтар, көздер, авто-алерта.
9) Әсерді бағалау (көп осьтік)
SLA/SLO: мақсаттан тыс мин/сағат, әріптестерге SLA бонустарына әсері.
Қаржы: тікелей шығындар (орындалмаған транзакциялар, chargeback), жанама (churn, айыппұлдар).
Реттеуші: санкциялар/лицензияны тоқтата тұру/міндетті хабарламалар тәуекелі.
Беделі: NPS/CSAT, теріс ескертулер толқыны, серіктестерге және стримерлерге әсері.
10) Тәуекелдерді өңдеу (шаралар каталогы)
Болдырмау: қауіпті фич/паттерндерден бас тарту, blast-radius (тенант-оқшаулау, rate-limit) шектеу.
Төмендеуі: ДБ шардарлау, кэширлеу, пул/квота, төлемдердің мульти-провайдері, канареялық релиздер.
Беру: кибер-тәуекелдерді сақтандыру, келісімшарттардағы SLA-өтемақылар, escrow.
Қабылдау: KRI және шығу жоспары бар бақыланатын қалдық тәуекел кезінде құжатталған шешім.
11) Рөлдер және RACI
Responsible: Risk/Ops/SRE/Payments/SecOps домен иелері.
Accountable: Head of Ops/CTO/CRO.
Consulted: Product, Data/DS, Legal/Compliance, Finance.
Informed: Support, Marketing, Partner Management.
12) Артефактілер мен шаблондар
Risk Register (тәуекелдер тізілімі): ID, сипаттамасы, санаты, себептері, ықтималдығы, біліктер бойынша әсері, қолданыстағы бақылаулар, KRI, өңдеу жоспары, иесі, мерзімі.
Risk Heatmap: бөлімшелер/сервистер бойынша біріктірілген карта.
Dependency Map: күрделі сыртқы және ішкі тәуелділіктер, резервтеу деңгейлері, байланыс деректері.
Runbooks/Playbooks: KRI/инцидент, kill-switches, деградация кезінде нақты қадамдар.
Quarterly Risk Review: өзгерістер жиынтығы, жабық/жаңа тәуекелдер, KRI трендтері, бақылау тиімділігі.
13) SLO/инцидент менеджментімен интеграциялау
Тәуекелдер SLO-нысаналарына (latency, error-rate, қолжетімділік) және қателер бюджетіне айырбасталады.
KRI → алерт-саясат (жылдам/баяу burn-rate).
Post-mortem міндетті түрде тәуекелді бағалауды жаңартуды және бақылауды түзетуді белгілейді.
14) Құралдар мен деректер
Мониторинг/обсервабилити: метрика, логи, трассировка; «тәуекел түрлері» тақтасы.
Каталогтар және CMDB: сервистер, иелері, тәуелді компоненттер.
GRC/Task-трекер: тәуекелдер, мәртебелер тізілімін, іс-әрекеттер аудитін сақтау.
Data/ML: аномалия модельдері, жүктемені/істен шығуды болжау, Monte-Carlo симуляциясы.
15) Енгізудің жол картасы (8-10 апта)
Нед. 1-2: контекст және жақтау; күрделі сервистер мен тәуелділіктердің тізімі; тәуекел-тәбетті анықтау.
Нед. 3-4: қауіптерді бастапқы сәйкестендіру (воркшоптар, ретро), тізілімді толтыру, бастапқы heatmap.
Нед. 5-6: KRI және алгоритмдерді баптау, SLO-ға байланыстыру; топ-5 тәуекелдер үшін Bow-Tie/FTA іске қосу.
Нед. 7-8: қаржылық маңызы бар сценарийлер үшін сандық бағалау (ALE/VaR/Monte-Carlo); өңдеу жоспарларын бекіту.
Нед. 9-10: әзірлікті тестілеу (game day, failover), шекті түзету, тоқсан сайынғы шолуларды іске қосу.
16) Бағаланған тәуекелдер мысалдары (iGaming)
1. Прайм-таймда PSP-1 авторизациялаудың сәтсіздігі
Ықтималдық: Орташа; Әсері: Жоғары (түсім, SLA).
KRI: банк/ГЕО бойынша авторизацияның конверсиясы, soft-decline өсуі.
Шаралар: мульти-провайдер, health & fee бойынша роутинг, джиттермен ретра, үзіліс лимиттері.
2. МБ матчының тәулігіне ставкалардың ДБ жүктемесі
Ықтималдық: Орташа; Әсері: Жоғары (SLO).
KRI: lag репликалау, p99 сұраулар, lock-wait өсуі.
Шаралар: кэш/CQRS, шардалау, желілерді алдын ала жүктеу, фич бөлігінің режимі read-only.
3. DDoS жария API
Ықтималдық: Төмен-Орташа; Әсері: Жоғары (қол жетімділік, бедел).
KRI: SYN/HTTP, WAF триггерлері.
Шаралар: CDN/WAF, rate-limit, токендер, капчалар, боттардың трафигін оқшаулау.
4. KYC сақтау бойынша реттеушілік сәйкессіздік
Ықтималдық: Төмен; Әсері: Өте жоғары (айыппұл/лицензия).
KRI: тексерудің кідіруі> SLA, retention асып кетуі.
Шаралар: policy-as-code, автоматты TTL, аудит және прод-деректер тестілері.
17) Антипаттерндер
Тізілімсіз және KRI-сыз «көзбен» бағалау.
Ақшамен байланыссыз матрицалар және SLO → қате басымдықтар.
Сирек шолулар (тізілім инциденттерден кейін жаңартылмайды).
«Өңдеу» тек іске асырылған бақылаусыз/тестерсіз құжаттамамен ғана.
Сыртқы тәуелділіктер мен келісімшарттық SLA игноры.
18) Есептілік және коммуникация
Exec-сводка: топ-10 тәуекелдер, KRI трендтері, қалдық тәуекел vs тәбет, жабу жоспары.
Техникалық есептер: бақылау тиімділігі, game day нәтижелері, шекті өзгерістер.
Тұрақтылығы: ай сайынғы шолулар + тоқсан сайынғы терең қайта бағалау.
Жиынтығы
Тәуекелдерді бағалау - бұл статикалық құжат емес, тірі цикл: анықтады → санады → тәуекел-тәбетті келісті → таңдады және шараларды енгізді → деректермен және жаттығулармен тексерді → тізілімді жаңартты. Мұндай контур операциялық шешімдерді бизнес-құндылықпен байланыстырады және SLO мен реттеуіштер талаптарын тұрақты сақтай отырып, оқыс оқиғалардың жиілігін/ауқымын төмендетеді.