Hodisalar va avariyalarga munosabat
(Bo’lim: Operatsiyalar va Boshqaruv)
1) Ta’riflar va maqsadlar
Hodisa - SLO/xavfsizlik/komplayensni buzadigan yoki mijozlar, pul, ma’lumotlar, obro’uchun xavf tug’diradigan hodisa.
Munosabat maqsadlari: xizmatni tezda tiklash, zararni kamaytirish, dalillarni qayd etish, shaffof aloqa qilish va takrorlanishiga yo’l qo’ymaslik.
Asosiy tamoyillar
Safety first: odamlarni/ma’lumotlarni/pulni himoya qilish funktsiyalardan muhimroqdir.
One throat to choke: yagona Incident Commander (IC) qarorlar qabul qiladi.
Actionable now: har bir faraz tekshirish/harakat bilan birga keladi.
Evidence matters: hamma narsa mantiqiy, artefaktlar imzolanadi, taymline - batafsil.
2) Tasniflash (severity & ustuvorlik)
Trigger: SLO buzilishi, alert qoidasi, qo’lda report, yuridik hodisa (DPO/CCO).
3) Rollar va javobgarlik (RACI)
Incident Commander (A) - hodisa yetakchisi, vazifalar qoʻyish, qarorlar qabul qilish, uzoq hodisalarda IC almashtirish.
Tech Lead (R) - texnik diagnostika/fikslar, SRE/injiniringni muvofiqlashtirish.
Comms Lead (R) - status-yangilanishlarni yozadi (ichki/tashqi), status-sahifa egasi.
Scribe (R) - protokol, taymline, artefaktlarni yig’ish.
Security/Legal (C/A sekuriti-holatlar uchun) - tavakkalchiliklarni baholash, majburiy bildirishnomalar.
Customer Support (C) - javob shablonlari, chiptalarni yoʻnaltirish.
Partner Liaison (C) - provayderlar/tenantlar bilan aloqa.
Management (I) - axborot berish, biznes yechimlar (kreditlar/kompensatsiyalar).
4) Dastlabki 15 daqiqa (shablon)
1. IC belgilash va hodisa kartasini ochish (chat kanali, videomost, Jira/Tracker).
2. SEVni tayinlash va SLO-simptomini qayd etish (aynan nima buzilgan).
- runbooks/runni yoqish: circuit-breakers, trottling, yo’nalishni o’zgartirish, promo pauza;
- buzilganda - sezgir funksiyalar kill-switch.
- 4. Tech Lead - diagnostika; Comms - «texnik xold» (10-15 daqiqadan so’ng - birinchi yangilanish).
- 5. Gipotezalarni aniqlash (eng ko’pi bilan uchta), egalarini tayinlash, taymerlarni tekshirishga qo’yish (5-10 daqiqa).
- 6. Metrik snapshotlar, konfiglar, relizlar xeshlari,’trace _ id’loglari, kvitansiyalarni toʻplash.
5) Birinchi soat (shablon)
Kommunikatsiya v1 (15-20 daqiqa): fakt, qamrov, nima qilayotganimizning alomatlari, keyingi yangilanish. Mish-mishlarsiz.
Hodisa chegaralari: qaysi hududlar/tenantlar/kanallar/versiyalar ta’sir ko’rsatdi.
Zararni nazorat qilish: vaqtinchalik kaplar/cheklovlar, shovqinli integratsiyalarni uzib qo’yish, degradatsiya rejimini yoqish.
Forenzika: log aylanishini muzlatish, artefaktlarni himoya qilish (WORM/imzolar).
Tiklashning yo’l xaritasi: T + 30/T + 60 chek pointlari bilan.
6) Kommunikatsiyalar va maqom-sahifa
Ichki oraliqlar: P1 - har 15 daqiqada, P2 - 30-60 daqiqada.
Tashqi: status-sahifa/tenantlar/SLA hamkorlari.
- Ko’rinib turibdiki: «X: YY UTC bilan EU mintaqasida checkout nosozliklarining o’sishi (p95> 250 ms)»
- Kimga ta’sir qiladi: «A/B/C operatorlari, 40% trafikdan ~»
- Biz nima qilamiz: "muqobil yo’nalish, trottling promo; PSP-1 provayderi bilan ishlaymiz"
- Ma’lumotlar/muddatlar: «keyingi yangilanish 15 daqiqada»
- Kompensatsiyalar: «hodisa yopilgandan keyin SLAga muvofiq kredit-notalarni qo’llaymiz»
7) Pleybuklar (iGaming/fintech uchun referensiyalar)
PriceMismatch (vitrina ≠ checkout): keshning fors-nogironligi, solishtirish’fx _ version/tax _ rule _ version’, dinamik promolarni muzlatish, siyosat bo’yicha tafovutlarni qoplash.
WebhookLag (hamkorlar/affiliates): vorkerlarni kattalashtirish, batchni koʻpaytirish, retraylarning ustuvorligi, yangi obunalar uchun vaqtinchalik kapka.
Payments Outage/PSP-degradatsiya: zaxira PSPga o’tish, mijozlar vaqtini qisqartirish, navbatni qo’lda kliring qilish, karantinga «kulrang» tranzaksiyalar.
RTP Drift: bonuslar pauzasi, toʻlov/versiya jadvallarini tekshirish, kuzatuv oynasini kengaytirish, RTP profilini qaytarish.
Fraud Spike: velocity/limitlarni kuchaytirish, qo’shimcha KYC tekshiruvini o’z ichiga olish, shubhali kogortalarni izolyatsiya qilish, yuqori yutuqlarni qo’lda yig’lash.
Data/PII Exposure: tizimlarni izolyatsiya qilish, DPO/Legal xabarnomasi, ta’sir ko’rsatilgan yozuvlarni xatlovdan o’tkazish, muddatlari bo’yicha tartibga soluvchi xabarnomalar.
8) Asboblar va runalar (auto-actions)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Gvard-raylar: «sedlaniya» dan himoya qilish - cheklangan orqaga qaytish, jurnallar imzolangan, har bir IC/Scribe harakati.
Isbotlanishi mumkin: DSSE imzolari, snapshot xeshlari, log kesmalari.
9) Hodisani tugatish
Mezonlar: SLOlar tiklandi, navbat qaytarildi, ma’lumotlar/pullar solishtirildi, xavflar yopildi, kommunikatsiyalar jo’natildi.
Yopilish marosimi: statusning yakuniy yangilanishi, qayd etilgan taymline, ta’sirlar ro’yxati, sabablarning dastlabki farazlari, post-mortema sanasi belgilangan.
10) Post-mortem (ayblovlarsiz)
Muddati: P1 - 3 ish kuni mobaynida; P2 - 5 ish kuni.
Mazmuni: faktlar/taymline, asosiy sabablari (5 Whys/FRAM), ta’siri (SLO, moliya, mijozlar), nima ishladi/ishlamadi, action items (owner, muddat, o’lchanadigan effekt).
Samaradorlikni tekshirish: 30-60 kundan keyin - bajarish revyusi va metrik (takrorlanuvchanlik, MTTR, alert shovqini).
11) Hodisa-menejment metrikasi va SLO
MTTD/MTTA/MTTR, Change Failure Rate, Time to Comms v1,% avto-ruxsat etilgan (runlar).
Alert Noise: ahamiyatsiz signallar ulushi, pages per on-call shift.
Repeat Incidents: 90 kun ichida takrorlash ulushi.
Post-mortem SLA: o’z vaqtida o’tkazilgan/yopilgan ulushi.
Reaksiya SLO: P1 - birinchi kommunikatsiya ≤ 15 daqiqa; MTTR ≤ 60 min; artefaktlarning to’liqligi = 100%.
12) Huquq/komplayens/maxfiylik
Yuridik bildirishnomalar: oqish/noxush hodisalar bo’yicha lokal regulyatorlarning muddatlari.
PII-minimallashtirish: birlamchi korxonaga faqat tasdiqlangan joblar orqali kirish; tokenlash/maskalash.
Artefaktlarni saqlash: WORM-jurnallar, yurisdiksiyalar bo’yicha saqlash davri; kirish nazorati (RBAC/ABAC, JIT).
Kontragentlar: shartnomaviy SLA, eskalatsiya jarayoni, ish yuritish kvitansiyalari.
13) Navbatchilik va eskalatsiyalarni tashkil etish
24 × 7 on-call: rollar bo’yicha rotatsiyalar (SRE, App, Data, Security, Payments).
Eskalatsiya matritsasi: hududlar/mahsulotlar/provayderlar uchun kim; aloqalarni takrorlash (chat/ovoz/SMS).
Mashqlar (GameDays): simulyatsiyalar - PSP tushishi, retray ko’chkisi, narx sinxronlari, kalitning buzilishi, mintaqaning nosozligi.
14) Hodisalar dashbordlari
Issiqlik (hozir): SLO maqomi, p95/p99, mintaqa/tenant xaritasi, vazifalar navbati, artefaktlar yigʻilgan/yigʻilmagan.
Tarix: hodisalar turlari bo’yicha trendlar, runalar samaradorligi, sabablarning takrorlanishi.
Sifat nazorati: taymlaynning to’liqligi, post-mortemlarning «coverage» i, SLA kommunikatsiyalari.
15) Joriy etish chek-varaqasi
- SEV shkalasi va SLO triggerlari tasdiqlansin.
- Rollarni (IC/Tech/Comms/Scribe/Sec/Legal) va rotatsiyalarni tayinlash 24 × 7.
- Yagona hodisa kartasi namunasi va maqom sahifasini ishga tushirish.
- Pleybuklarni tavsiflash (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
- Runlarni audit va «qizil tugma» bilan sotish.
- Forensik siyosatni kiritish: WORM/imzolar/artefaktlarni to’plash.
- Kommunikatsiyalar reglamenti (ichki/tashqi) , SLA yangilanishlar.
- Post-mortem jarayoni va shablonlari; KPI bajarish action items.
- GameDays har oyda; hodisalar tendensiyalarining choraklik sharhi.
- Dashborddagi IR metrikalari (MTTA/MTTR/Noise/Repeat/Comms SLA).
16) FAQ
Nima uchun «IC bir»?
Qaror qabul qilishning yagona nuqtasi tartibsizlikni olib tashlaydi va munosabatni tezlashtiradi.
Qachon oshkora eʼlon qilish kerak?
Tasdiqlangan fakt va barqarorlashtirish rejasi bo’lishi bilanoq. Tartibga solish muddatlarini baholang.
Nima muhimroq - fiks yoki hisobot?
Avvalo - tiklash va xavfsizlik. Shu bilan birga - artefaktlarni yig’ish. Hisobot - barqarorlashgandan keyin.
Hamma narsani avtomatlashtirish mumkinmi?
Yo’q, lekin runlar «tez-tez va oddiy» qadamlarni yopadi. Qolganlari - aniq pleybuklar va mashqlar orqali.
Xulosa: Kuchli Incident Response - bu nafaqat PagerDuty va chat kanali. Bu rollar intizomi, tezkor dastlabki 15 daqiqa, boshqariladigan runalar, shaffof kommunikatsiyalar, isbotlanadigan forensika va majburiy post-mortem. Bu bilan siz MTTRni kamaytirasiz, pul va ma’lumotlarni himoya qilasiz, mijozlar va regulyatorlarning ishonchini oshirasiz.