Hodisalarning kuchayishi
1) Maqsad va prinsiplar
Hodisalarning kuchayishi - bu foydalanuvchilar va biznes metrikaga ta’sirni kamaytirish uchun to’g "ri rollar va resurslarni tezda jalb etishning boshqariladigan jarayonidir.
Asosiy tamoyillar:- Tezlik ideallikdan muhimroqdir. Kechiktirishdan ko’ra, voqeani ertaroq e’lon qilib, eskalatsiya qilish yaxshiroqdir.
- Yagona qo’mondonlik. Yechim uchun javobgarlardan biri - Incident Commander (IC).
- Shaffoflik. Ichki va tashqi steykxolderlar uchun aniq maqom va kommunikatsiya kanallari.
- Hujjatlashtirilishi. Barcha qadamlar, qarorlar va taymlaynlar audit va yaxshilanishlar uchun qayd etiladi.
2) Jiddiylik darajasi (SEV/P-darajalar)
Shkala namunasi (domen/yurisdiksiyaga moslashtiring):- SEV-0/P0 (tanqidiy) - asosiy funksiyaning to’liq mavjud emasligi (login/to’lov), ma’lumotlarning sizib chiqishi, yuridik xavf. Butun on-call yadrosi, freeze relizlari uchun darhol peyj.
- SEV-1/P1 (yuqori) - p95/p99 ning tanazzulga uchrashi, asosiy jarayonda xato/nosozliklarning ko’payishi, mintaqa/provayderning mavjud emasligi.
- SEV-2/P2 (o’rtacha) - cheklangan kogorta (mintaqa, provayder) uchun qisman tanazzul, aylanma yo’l mavjud.
- SEV-3/P3 (past) - foydalanuvchi uchun muhim emas, lekin e’tiborni talab qiladi (ETL fon kechikishi, muddati o’tgan hisobot).
- Shikastlanish radiusi (qancha foydalanuvchi/aylanma) × davomiyligi × sezgirligi (regulyator/PR) → SEV darajasi.
3) KPI jarayoni
MTTD (aniqlash vaqti) - hodisa boshlanishidan birinchi signalgacha.
MTTA (qabul qilish vaqti) - signaldan ICni tasdiqlashgacha.
MTTR (tiklash vaqti) - SLO/funksiya tiklangunga qadar.
Escalation Latency - tasdiqlashdan to kerakli rol/buyruqni ulashgacha.
Reopen Rate - «hal» dan keyin qayta ochilgan hodisalar ulushi.
Comm SLA - tashqi/ichki yangilanishlar oralig’iga rioya qilish.
4) Rollar va javobgarlik (RACI)
Incident Commander (IC): yechim egasi darajani, rejani, freeze, eskalatsiyani, deeskalatsiyani belgilaydi. Fiks yozmaydi.
Tech Lead (TL): texnik diagnostika, gipotezalar, muhandislarni muvofiqlashtirish.
Comms Lead (CL): maqom sahifalari, mijoz va ichki aloqa, Legal/PR bilan muvofiqlashtirish.
Scribe: faktlarni aniq qayd etish, taymlayn, qabul qilingan qarorlar.
Liaisons (aloqa): tashqi provayderlar/jamoalar vakillari (to’lovlar, KYC, hosting).
On-call muhandislari: rejani bajarish, pleybuklar/skatlarni ishga tushirish.
Har bir rol uchun navbatchi jadvallar va bekaplar belgilang.
5) Kanallar va artefaktlar
War-room kanali (ChatOps): avto-izohlar (versiyalar, bayroqlar, kanareykalar) namunasi bilan yagona muvofiqlashtirish nuqtasi (Slack/Teams).
SEV-1 + uchun videomost.
Hodisa tekshiruvi (one-pager): ID, SEV, IC, ishtirokchilar, gipoteza/tashxis, qadamlar, ETA, maqom, impakt, grafiklarga havolalar.
Maqom-sahifa: ommaviy/ichki; muntazam yangilanishlar jadvali (masalan, SEV-1 + uchun har 15-30 daqiqada).
6) Taym-bokslar va standart oraliqlar
T0 (min. 0-5): IC tayinlangan, SEV tayinlangan, freze relizlar (agar kerak boʻlsa), war-room ochiq.
T + 15 min: birinchi ommaviy/ichki xabar (ta’sir ko’rsatilgan, workaround, keyingi yangilangan oyna).
T + 30/60 min: agar barqaror dinamika bo’lmasa, quyidagi darajadagi eskalatsiya (platforma/DB/xavfsizlik/provayderlar).
Muntazam yangilanishlar: SEV-0: har 15 daqiqada; SEV-1: har 30 daqiqada; SEV-2 +: har soatda.
7) Avto-eskalatsiya qoidalari (ishga tushirish siyosati)
Kod sifatida yoziladi va monitoring/alertingga ulanadi:- Burn-rate budjeti xatolari qisqa va uzun derazalarda chegaradan yuqori.
- Tashqi namunalar kvorumi: 2 ta hududdan ≥ HTTP/TLS/DNS degradatsiyasini qayd etadi.
- Biznes-SLI (to’lovlar/ro’yxatdan o’tkazishlar muvaffaqiyati) SLOdan pastga tushadi.
- Security-signatura: sizib chiqishi/buzilishi shubhasi.
- Provayder signali: «major outage» maqomidagi vebxuk.
8) Aniqlashdan hal qilishgacha bo’lgan jarayon
1. Hodisa deklaratsiyasi (IC): SEV, qamrov, freeze, pleybuklarni ishga tushirish.
2. Diagnostika (TL): gipotezalar, radius izolatsiyasi (mintaqa, provayder, fich), tekshirishlar (DNS/TLS/CDN/DB/keshlar/shina).
3. Mitigatsiya harakatlari (tezkor g’alabalar): qaytish/kanareyka ↓, degradatsiya ficha-bayrog’i, provayder failover, rate-limit, kesh-overley.
4. Aloqa (CL): status-sahifa, mijozlar/hamkorlar, Legal/PR, jadval boʻyicha yangilanishlar.
5. Tiklanishni tasdiqlash: tashqi sintetika + real metrika (SLI), freeze olib tashlash.
6. Deeskalatsiya: SEVning pasayishi, kuzatishga o’tish N daqiqa/soat.
7. Yopish va RCA: post-mortem tayyorlash, action items, egalari va muddatlari.
9) Tashqi provayderlar bilan ishlash
Bir nechta mintaqalardan provayderlarga o’z namunalari + so’rovlar/xatolarning ko’zgu log-namunalari.
Eskalatsiya to’g "risidagi bitimlar (kontaktlar, javobning SLA, ustuvorlik, maqom vebxuklari).
Avtomatik failover/provayderning SLO orqali trafikni qayta taqsimlash.
Dalillar bazasi: taymline, sample so’rovlar/javoblar, yashirin/xato grafiklari, provayderning ID bileti.
10) Tartibga solish, xavfsizlik va PR
Security/P0: izolyatsiya, artefaktlarni to’plash, oshkor etishni minimallashtirish, majburiy bildirishnomalar (ichki/tashqi/regulyator).
Legal: tashqi yangilanishlarni kelishish, shartnomaviy SLA/jarimalarni hisobga olish.
PR/Mijoz xizmati: javoblarning tayyor shablonlari, Q&A, kompensatsiyalar/kreditlar (agar qo’llash mumkin bo’lsa).
11) Xabar namunalari
Birlamchi (T + 15):- "Biz [funksiya/mintaqaga] taalluqli SEV-1 hodisasini tekshirmoqdamiz. Simptomlar: [qisqacha]. Batahqiq, Biz aylanma yoʻlni ishga soldik. Keyingi yangilanish [vaqtda]"
- "Diagnostika: [gipoteza/tasdiqlash]. Amallar: [provayderni oʻzgartirdi/chiqarib yubordi/degradatsiyani yoqdi]. Impakt [foiz/kogortaga] tushirildi. Keyingi yangilanish - [vaqt]"
- "Hodisa hal SEV-1. Sababi: [ildiz]. Tiklash vaqti: [MTTR]. Quyidagi qadamlar: [fix/tekshirish/kuzatish N soat]. Post-mortem"
12) Pleybuklar (namunaviy)
To’lovlar muvaffaqiyatining pasayishi: A provayderiga ulushni kamaytirish, X% ni B ga o’tkazish; «degrade-payments-UX» ni kiritish; limitlardagi retraylarni kiritsin; fin-jamoani xabardor qilish.
p99 API oʻsishi: yangi versiya kanareykasini kamaytirish; og’ir chichlarni o’chirish; kesh-TTLni ko’paytirish; BD-indekslar/konnektlarni tekshirish.
DNS/TLS/CDN muammosi: sertifikat/zanjirni tekshirish; yozuvni yangilash; zaxira CDNga oʻtish; keshni qayta tanlash.
Security-shubha: uzellarni izolyatsiya qilish, asosiy rotatsiya, mTLS ruchkalarini yoqish, artefaktlarni yig’ish, Legal xabarnomasi.
13) Deeskalatsiya va «hal etildi» mezonlari
Hodisa quyidagi darajaga o’tkaziladi, agar:- SLI/SLO yashil zonada barqaror ≥ N oraliq;
- mitigatsiya harakatlari bajarilgan va kuzatuv - regressiyasiz;
- security-sinf uchun - vektorlarning yopiqligi tasdiqlandi, kalitlar/sirlar rotatsiya qilindi.
Yopish - faqat taymline, action items egalari va muddatlari belgilangandan keyin.
14) Post-mortem (cheklanmagan)
Tuzilishi:1. Faktlar (foydalanuvchilar ko’rgan taymline/metriklar).
2. Ildiz sababi (texnik/protsessual).
3. Eskalatsiyada nima ishladi/ishlamadi.
4. Profilaktika choralari (testlar, alertlar, limitlar, arxitektura).
5. Muddatlar va egalar bilan harakatlar rejasi.
6. Error budget bilan aloqa va SLO/jarayonlarni qayta ko’rib chiqish.
15) Jarayonning etuklik metrikasi
Foydalanuvchilarning shikoyatlarigacha deklaratsiyalangan hodisalar ulushi.
SEV darajalari bo’yicha MTTA; kerakli rolni ulash vaqti.
Yangilanish oralig’iga rioya qilish (Comm SLA).
Qo’lda «ijodkorlik» bo’lmagan pleybuklar bilan hal qilingan hodisalar foizi.
Action itemsni post-mortemlardan oʻz vaqtida bajarish.
16) Anti-patternlar
«Kimdir biror narsa qilsin» - IC/rollar yo’q.
War-roomda ko’p ovozli - harakatlar o’rniga versiyalar to’g’risida tortishuv.
Kech deklaratsiya → odamlarni yigʻish vaqtini yoʻqotish.
Freze va relizlarning izohlari yo’q - parallel o’zgarishlar sababni yashiradi.
Tashqi kommunikatsiya yo’qligi - shikoyatlarning kuchayishi/PR-xavf.
Post-mortem va harakatlarsiz yopish - xuddi shunday xatolarni takrorlaymiz.
17) IC chek-varaqasi (cho’ntak kartochkasi)
- SEVni tayinlash va war-room ochish.
- TL, CL, Scribe belgilash, on-call’ni tekshirish.
- Relizni freze qilish (SEV-1 + da).
- Haqiqat manbalarini tasdiqlash: SLI dashbordlari, sintetika, logi, treysing.
- Tezkor mitigatsiya harakatlarini qabul qilish (orqaga qaytish/bayroqlar/failover).
- Jadval bo’yicha muntazam yangilanishlarni ta’minlash.
- Criteria for Resolve ni tuzatish va tiklangandan keyin kuzatish.
- Post-mortemni boshlash va action items egalarini tayinlash.
18) Kundalik operatsiyalarga kiritish
Mashqlar (game-days): asosiy skriptlar boʻyicha simulyatsiyalar.
Pleybuklar katalogi: versionlangan, test qilingan, parametrlari bilan.
Asboblar: ChatOps-buyruqlar «/declare », «/page», «/status », «/rollback».
Integratsiyalar: tiketing, status-sahifa, post-mortemlar, CMDB/servis-katalog.
SLO/Error Budget bilan kelishish: avto-eskalatsiya triggerlari va freeze qoidalari.
19) Jami
Eskalatsiya - bu shunchaki navbatchiga qo’ng’iroq qilish emas, balki operatsion intizom. SEVning aniq darajalari, IC tomonidan tayinlangan, tayyor pleybuklar, yangilanishlarning taym-qutilari va SLO va budget-siyosatchilar metriklari bilan integratsiyalashuvi xaotik yong’inni boshqariladigan jarayonga aylantiradi, natijada - xizmatni tez tiklash, minimal PR/tartibga solish xavfi va har bir hodisadan keyin tizimli yaxshilanishlar.