Hodisadan keyingi tahlillar
1) Nima uchun hodisadan keyingi muhokamalar kerak?
Hodisadan keyingi tahlil (post-mortem/AAR) - bu nosozlikdan keyin tashkilotni o’qitishning tarkibiy jarayonidir. Maqsad aybdorlarni topish emas, balki asosiy va ko’maklashuvchi sabablarni aniqlash va o’lchanadigan harakatlarni (CAPA) mustahkamlashdan iborat bo’lib, ular takrorlanish xavfini va hodisalar qiymatini kamaytiradi, SLO, MTTR va mijozlar/regulyatorlarning ishonchini yaxshilaydi.
2) Tamoyillar (Just Culture)
Ayblovlarsiz: tizimlar, qarorlar va kontekstni tahlil qilamiz, shaxsni emas.
Faktlar fikrlardan muhimroqdir: taymline, loglar, metriklar, treyslar, o’zgarishlar artefaktlari.
E2E-qarash: mijozdagi alomatlardan tortib, ichki qaramliklar va tashqi provayderlargacha.
Tekshiriluvchanlik: har bir faraz tajriba/ma’lumotlar bilan tasdiqlanadi.
Siklning yopilishi: tahlil → CAPA → nazorat nuqtalari → retest.
3) Tahlil qilishni qachon boshlash va qanday formatlar mavjud
Majburiy: SEV-0/1; SLA/tartibga solish talablarining buzilishi; ma’lumotlarning sizib chiqishi; muhim PR-xavf.
Tezlashtirilgan (light): sezilarli ta’sir yoki takrorlanuvchi alomatlar bilan SEV-2.
Kommunikatsiya AAR: Agar nosozlik maqom sahifasiga/qoʻllab-quvvatlashga taʼsir qilsa, yangiliklar SLAsini va xabar sifatini tekshiramiz.
Muddatlari: loyiha loyihasi 48-72 soat, yakuniy versiyasi - 5 ish kunigacha (agar boshqacha kelishilmagan bo’lsa).
4) Rollar va javobgarlik
Tahlil egasi (RCA Lead): jarayonni tashkil etadi, uchrashuvni boshqaradi, hisobot sifati va CAPA uchun javob beradi.
Incident Commander (IC): hodisa faktologiyasi va yechimlarni taqdim etadi.
Tech Leads (tizimlar bo’yicha): artefaktlarni tasdiqlovchi sabablarni tahlil qilish.
Comms/Support/Legal: kommunikatsiyalar va komplayens talablarini baholash.
Scribe: protokol, dalillarni to’plash, tuzilishga rioya qilish.
Mahsulot/biznes steykxolderlari: mijozlarga ta’siri/aylanmasi, CAPAning ustuvorligi.
5) Tayyorgarlik: uchrashuvdan oldin nima yigʻish kerak
Taymline (UTC): T0 topish → Tn tiklash; relizlar/fich-bayroqlar/konfigirlar, provayderlar maqomi.
Kuzatuv ma’lumotlari: SLI/SLO, error-rate, pertsentili, loglar, trastirovkalar, skrinshotlar.
O’zgarishlar konteksti: PR/deploy, DB migratsiyasi, fich-bayroqlar, ish rejalariga havolalar.
Impakt: ta’sir ko’rsatgan kogortlar/mintaqalar/provayderlar, nuqson daqiqalari, SLA bo’yicha kreditlar.
Kommunikatsiyalar: maqom-sahifadagi loyihalar/postlar, sapport javoblari, ichki e’lonlar.
Siyosat/pleybuklar: bu jarayonda nima boʻlishi kerak edi.
6) Tahlil metodikasi (kombinatsiyani tanlang)
5 Why: sabablar zanjirini tez ochish (xavf - ortiqcha soddalashtirish).
Ishikava diagrammasi (Fishbone): People/Process/Platform/Policy/Partner/Product.
Fault Tree Analysis (FTA): hodisadan ko’plab sabablarga deduksiya (AND/OR).
Change Analysis: hodisa davrida nima oʻzgardi va barqaror holat.
Causal Graph: murakkab mikroservislar va tashqi qaramliklar uchun sabab-oqibat aloqalari grafigi.
Human Factors Review: charchoq, axborot shovqini, ahamiyatsiz runbook’lar.
7) Hisobot tuzilmasi (shablon)
1. Xulosa (Executive Summary): nima, qachon, kimga ta’sir ko’rsatdi, yakuniy maqom.
2. Impakt: SLI/SLO, foydalanuvchilar, hududlar/provayderlar, eng kam ish vaqti, moliyaviy/tartibga solish ta’siri.
3. Timline (UTC): asosiy voqealar, relizlar, IC yechimlari, kommunikatsiyalar.
4. Kuzatuv va ma’lumotlar: grafiklar, loglar, treyslar, konfiguratsiyalar/sxemalar difflari.
5. Gipotezalar va tekshirishlar: qabul qilingan/rad etilgan, eksperimentlarga/simulyatsiyalarga havolalar.
6. Ildiz sabablari: tizimli/protsessual/texnik (aniq formulalar).
7. Yordam beruvchi omillar: nega ilgari sezilmagan/to’xtatilmagan.
8. Nima ishladi/nima ishlamadi: jarayonlar, vositalar, odamlar.
9. CAPA: egalari/muddatlari/muvaffaqiyat ko’rsatkichlari bilan tuzatish va ogohlantirish choralari.
10. Verifikatsiya rejasi: D + 14/D + 30 nazorat nuqtalari, yopilish mezonlari.
11. Tashqi tomonlar uchun versiyalar: mijoz/tartibga soluvchi (sezgir ma’lumotlarsiz).
12. Ilovalar: artefaktlar, tiketlarga/PRga havolalar, dashbordlarning skrinshotlari.
8) CAPA: harakatlarni qanday qilish kerak
Har bir harakat egasi, muddati va KPI effektiga ega (masalan, change-failure-rate ning X% ga kamayishi, 90 kunning nol takrorlanishi, burn-rate ning cho’qqilardagi kamayishi).
Corrective (tuzatish) va Preventive (oldini olish) choralarini ajrating.
Policy-as-code bilan bogʻlang: alertlar, SLO-geytlar, avtoskeyl/limitlar, GitOps.
CAPA haftalik operatsion uchrashuvlarda sharhlar bilan ommaviy beklogga kiradi.
9) Ta’sirni tekshirish va yopish
Nazorat nuqtalari: D + 7 (oraliq), D + 14/D + 30 (asosiy), D + 90 (yakun).
Verifikatsiya: testlar/simulyatsiyalar (game day), shadow-trafik, kuzatish (yashil zonada barqaror SLI), retsidivlarning yo’qligi.
Yopish faqat CAPA va tasdiqlangan metriklarda amalga oshirilishi mumkin.
10) Kommunikatsiyalar va komplayens
Ichki: mahsulot/qo’llab-quvvatlash/menejment uchun tushunarli maqom, SLA yangilanishlariga rioya qilingan.
Tashqi: status-sahifa, mijozlarga/sheriklarga yuborish; ayblovlarsiz til, oldini olishning aniq rejasi.
Tartibga solish: xabardor qilish muddatlari, misollarni depersonalizatsiya qilish, hisobotlar va artefaktlarni o’zgarmas saqlash.
11) Jarayonning etuklik metrikasi
Hisobot e’lon qilingan vaqt: fakt vs SLA (masalan, ≤ 5 ish kuni).
CAPA completion rate: muddatida yopilgan harakatlar%.
Reopen rate: 90 kun ichida takrorlangan hodisalar ulushi.
Tizimli sabablar ulushi vs «inson xatosi».
Alert gigiyena: soxta peyjlarni kamaytirish, runbook bilan qoplangan alertlarni ko’paytirish.
DORA metrikasini oʻzgartirish: MTTR, change-failure-rate
12) Chek-varaqlar
Tahlil qilishdan oldin
- RCA egasi va ishtirokchilar tarkibi aniqlandi.
- Taymline va artefaktlar (loglar/grafiklar/relizlar/bayroqlar) to’plandi.
- Impakt kogortlar/mintaqalar/provayderlar boʻyicha baholandi.
- «Impakt» va «Taymline» boʻlimlarining loyihalari tayyorlandi.
- Tegishli siyosat/pleybuklar haqiqiy harakatlar bilan solishtirilgan.
- Qabul qilingan/rad etilgan farazlar va asoslar qayd etildi.
- Ildiz va yordam beruvchi sabablar aniqlangan.
- KPI va muddatlari bilan CAPA rejasi shakllantirildi.
- Hisobotning tashqi tomonlar uchun versiyalari kelishilgan (zarurat bo’lganda).
- Hisobot o’z vaqtida e’lon qilindi, rollar bo’yicha kirish.
- CAPA beklogga kiritilgan, egalari tasdiqlangan.
- Tekshirish uchun nazorat nuqtalari va mini-simulyatsiya tayinlandi.
- Yangilangan runbook/SOP/alertlar/hujjatlar.
13) Anti-patternlar
«Aybdor odam X» - tizimli sabablarsiz → takrorlash.
CAPAsiz yoki egasiz/muddatsiz hisobot - qog’oz uchun qog’oz.
Hech qanday fakt/artefaktlar yo’q - his-tuyg’ularda xulosalar.
Aniq oʻzgarishlarsiz ortiqcha umumiy til («BD ortiqcha yuklash»).
Kommunikatsiya va komplayensni e’tiborsiz qoldirish - obro "-e’tibor xavfi.
Ta’sirlarni tekshirmasdan yopish - bir hafta o’tgach qaytalanish.
14) Mini-shablonlar
Hisobot shapkasi
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
Ildiz sababini ifodalash (misol)
CAPA (parcha)
PSP-A ga (1% → 5% → 25%) canary-marshrutizatsiyani kiritish, egasi: @payments -tl, gacha: 2025-11-07, KPI: 30 kun davomida provayderlarni chiqarishda nol P1 hodisalari.
SLA 800 ms ≤ umumiy vaqtga ega taymaut/retrajlarni qayta sozlash, egasi: @platform -sre, 2025-11-05 gacha, KPI: p99 <600 ms N. yuk ostida.
BIN-kogortlar boʻyicha biznes-SLI qoʻshish, egasi: @data-lead, gacha: 2025-11-10, KPI: degradatsiyalar deteksiyasi <5 min.
15) Kundalik amaliyotga joriy etish
Haftalik RCA review: CAPA maqomi, yangi darslar, jarayonlarni yangilash.
wiki’da post-mortemlar katalogi (xizmat, SEV, sabablar) va qidirish.
Chora-tadbirlarni tekshirish uchun 2-4 haftadan so’ng hodisa sabablari bo’yicha simulyatsiyalar.
On-call onbordingga darslarni kiritish va o’quv stsenariylarini yangilash.
16) Jami
Hodisadan keyingi tahlillar - bu tizimli yaxshilanish mexanizmidir. Faktlar yig’ilganda, sabablar isbotlanganda, harakatlar o’lchanadigan va tekshiriladigan bo’lsa, tashkilot ishonchlilikning operatsion kapitalini to’playdi: MTTR va takroriy hodisalar pasayadi, relizlarning bashorat qilinishi va mijozlarning ishonchi ortadi.