GH GambleHub

Post-insident təhlili

1) Niyə post-insident təhlili lazımdır

Post-insident analizi (post-mortem/AAR) uğursuzluqdan sonra təşkilatın qurulmuş təlim prosesidir. Məqsəd günahkarların axtarışı deyil, SLO, MTTR və müştəri/tənzimləyicilərin etimadını artıraraq, təkrarlanma riskini və hadisələrin dəyərini azaldan əsas səbəbləri müəyyən etmək və ölçülə bilən hərəkətləri (CAPA) möhkəmləndirməkdir.

2) Prinsiplər (Just Culture)

Ittihamsız: sistemləri, qərarları və konteksti təhlil edirik, şəxsiyyətləri yox.
Faktlar fikirlərdən daha vacibdir: time line, log, metrika, treys, dəyişiklik artefaktları.
E2E-baxış: müştəridə simptomlardan daxili asılılıqlara və xarici provayderlərə qədər.
Yoxlanılabilirlik: hər bir fərziyyə təcrübə/məlumatlar tərəfindən təsdiqlənir.
Dövrün qapanması: təhlil → CAPA → nəzarət nöqtələri → retest.

3) Təhlil nə vaxt başlayacaq və hansı formatlar var

Məcburi: SEV-0/1; SLA/tənzimləmə tələblərinin pozulması; məlumat sızması; əhəmiyyətli PR risk.
Sürətləndirilmiş (light): SEV-2 təsir və ya təkrarlanan simptomlarla.
Kommunikasiya AAR: Əgər uğursuzluq status-səhifəyə/dəstəyə təsir edərsə, biz SLA yeniləmələrini və mesajların keyfiyyətini yoxlayırıq.

Şərtlər: 48-72 saat, son versiya - 5 iş gününə qədər (əks halda razılaşdırılmamışdırsa).

4) Rollar və məsuliyyət

Təhlil sahibi (RCA Lead): prosesi təşkil edir, görüş keçirir, hesabatın keyfiyyətinə və CAPA-ya cavabdeh olur.
Incident Commander (IC): hadisə faktologiyası və həlli təmin edir.
Tech Leads (sistemlər üzrə): artefaktları təsdiq edən səbəblərin təhlili.
Comms/Support/Legal: rabitə və komplayens tələblərinin qiymətləndirilməsi.
Scribe: protokol, dəlil toplama, strukturuna riayət.
Məhsul/biznes stakholders: müştərilərə təsir/dövriyyə, CAPA prioritetləşdirilməsi.

5) Hazırlıq: görüşdən əvvəl nə toplamaq

Timline (UTC): T0 aşkar → Tn bərpa; relizlər/fich bayraqları/konfiqlər, provayder statusu.
Müşahidə məlumatları: SLI/SLO qrafikləri, error-rate, üzlüklər, qeydlər, izlər, ekran görüntüləri.
Dəyişiklik konteksti: PR/deploya istinadlar, DB miqrasiyası, fich bayraqları, iş planları.
Təsir: təsirlənmiş kohortlar/regionlar/provayderlər, fasilə dəqiqələri, SLA kreditləri.
Kommunikasiyalar: status-səhifədəki layihələr/yazılar, sapport cavabları, daxili elanlar.
Siyasət/playbook: sapmaların olduğu prosesdə nə baş verməli idi.

6) Analiz metodları (kombinasiyanı seçin)

5 Why: səbəb zəncirinin tez açılması (risk - həddindən artıq sadələşdirmə).
İşikava diaqramı (Fishbone): People/Process/Platform/Policy/Partner/Product.
Fault Tree Analysis (FTA): Hadisədən bir çox səbəbə qədər (AND/OR).
Change Analysis: Hadisə zamanı nə dəyişdi vs sabit vəziyyət.
Causal Graph: mürəkkəb mikroservislər və xarici asılılıqlar üçün səbəb-nəticə əlaqələri qrafiki.
Human Factors Review: yorğunluq, informasiya səs-küy, qeyri-aktual runbook '.

7) Hesabat strukturu (şablon)

1. Xülasə (Executive Summary): nə, nə zaman, kimə təsir etdi, yekun status.
2. İmpakt: SLI/SLO, istifadəçilər, regionlar/provayderlər, minimum fasilələr, maliyyə/tənzimləyici effektlər.
3. Time Line (UTC): əsas hadisələr, buraxılışlar, IC həlləri, kommunikasiyalar.
4. Müşahidələr və məlumatlar: qrafiklər, qeydlər, treyslər, konfiqurasiya/sxem diffaları.
5. Hipotezlər və yoxlamalar: qəbul/rədd, eksperimentlərə/simulyasiyalara istinadlar.
6. Kök səbəbləri: sistem/proses/texniki (aydın formulalar).
7. Kömək edən amillər: niyə əvvəllər hiss etmədiniz/dayandırmadınız.
8. Nə işlədi/nə işləmədi: proseslər, alətlər, insanlar.
9. CAPA: sahibləri/şərtləri/uğur göstəriciləri ilə düzəliş və xəbərdarlıq tədbirləri.
10. Yoxlama planı: nəzarət nöqtələri D + 14/D + 30, bağlanış meyarları.
11. Xarici tərəflər üçün versiyalar: müştəri/tənzimləyici (həssas məlumat olmadan).
12. Proqramlar: artefaktlar, biletlərə/PR linkləri, dashboard ekran görüntüləri.

8) CAPA: hərəkətləri necə işləmək olar

Hər hərəkətin sahibi, müddəti və KPI effekti var (məsələn, change-failure-rate-in X% azalması, 90 gün sıfır təkrarlanması, zirvələrdə burn-rate-in azalması).
Corrective (düzeltmek) və Preventive (qarşısını almaq) tədbirlər bölün.
policy-as-code bağlayın: alertlər, SLO geytaları, avtoskeyl/limitlər, GitOps.
CAPA həftəlik əməliyyat görüşlərində rəylər ilə ictimai backlog düşür.

9) Effektin yoxlanılması və bağlanması

Nəzarət nöqtələri: D + 7 (ara), D + 14/D + 30 (əsas), D + 90 (ümumi).
Yoxlama: testlər/simulyasiyalar (game day), shadow trafik, müşahidə (yaşıl zonada sabit SLI), heç bir təkrarlama.
Bağlanış yalnız CAPA və təsdiqlənmiş metriklərlə mümkündür.

10) Rabitə və komplayens

Daxili: məhsul/dəstək/menecment üçün başa düşülən status, SLA yeniləmələri müşahidə olunur.
Xarici: status-səhifə, müştərilərə/tərəfdaşlara göndərmə; heç bir ittiham dil, aydın qarşısının alınması planı.
Tənzimləyici: bildiriş müddəti, nümunələrin depersonallaşdırılması, hesabatların və artefaktların dəyişməz saxlanması.

11) Yetkinlik prosesinin metrikası

Hesabatın dərc vaxtı: fakt vs SLA (məsələn, ≤ 5 iş günü).
CAPA completion rate:% vaxtında bağlanmış hərəkətlər.
Reopen rate: 90 gün ərzində təkrar hadisələrin payı.
Sistem səbəblərinin payı vs «insan səhvi».
Alert gigiyena: saxta peyceklərin azaldılması, runbook ilə örtülmüş alertlərin böyüməsi.
DORA metrik dəyişiklik: MTTR, change-failure-rate əvvəl/sonra.

12) Çek vərəqləri

Təhlil etməzdən əvvəl

  • RCA sahibi və iştirakçıların tərkibi müəyyən edilmişdir.
  • Time line və artefaktlar toplanmışdır (loqlar/qrafiklər/buraxılışlar/bayraqlar).
  • Kohortlar/region/provayderlər üzrə impakt qiymətləndirilib.
  • «Impact» və «Times Line» bölmələrinin layihələri hazırlanmışdır.
  • Müvafiq siyasət/playbook faktiki hərəkətləri ilə müqayisə olunur.

Zaman

  • Qəbul edilmiş/rədd edilmiş fərziyyələr və əsaslar qeydə alınmışdır.
  • Kök və kömək səbəbləri müəyyən edilmişdir.
  • KPI və şərtləri ilə CAPA planı formalaşdırılmışdır.
  • Xarici tərəflər üçün hesabatın razılaşdırılmış versiyaları (lazım olduqda).

Sonra

  • Hesabat vaxtında dərc olunub, rolları ilə çıxış.
  • CAPA backlog daxil edilmişdir, sahibləri təsdiq edilmişdir.
  • Yoxlama üçün nəzarət nöqtələri və mini simulyasiya təyin edilmişdir.
  • Yenilənmiş runbook/SOP/alert/sənədləşmə.

13) Anti-nümunələr

«İnsan günahkar X» - sistemli səbəbsiz → təkrar.
CAPA olmadan və ya sahibləri/şərtləri olmadan hesabat - kağız üçün kağız.
Heç bir fakt/artefakt yoxdur - hisslərə dair nəticələr.
Çox ümumi dil («BD həddindən artıq yükləmə») heç bir xüsusi dəyişiklik olmadan.
Rabitə və uyğunluğa məhəl qoymamaq reputasiya riskidir.
Effektlərin yoxlanılmadan bağlanması həftələrdən sonra təkrarlanır.

14) Mini şablonlar

Hesabat papağı


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Kök səbəbinin ifadəsi (nümunə)

💡 Kombinasiya: (1) kartın validatorunun dəyişdirilməsi ↑ p95-dən 1-ə qədər. 2 c, (2) PSP-A 1 c üçün vaxt heç bir büdcə retrains, (3) provayder üçün canary yoxdur. Bu, kütləvi vaxtlara və ödənişlərin uğurunun azalmasına səbəb oldu.

CAPA (fraqment)

PSP-A-ya (1% → 5% → 25%) canary marşrutunu daxil edin, sahibi: @payments -tl, qədər: 2025-11-07, KPI: 30 gün provayder buraxılışları zamanı sıfır P1 hadisələri.
SLA 800 ms ≤ ümumi vaxtı ilə zamanlayıcıları/retrayları yenidən konfiqurasiya edin, sahibi: @platform -sre, 2025-11-05-ə qədər, KPI: p99 <600 ms yük N. altında.
BIN kohortları üzrə biznes SLI əlavə edin, sahibi: @data -lead, qədər: 2025-11-10, KPI: deqradasiya deteksiyası <5 dəq.

15) Gündəlik təcrübəyə daxil olmaq

Həftəlik RCA review: CAPA statusu, yeni dərslər, proses yeniləmələri.
wiki-də post-mortem kataloqu (xidmət, SEV, səbəblər) və axtarış.
Tədbirləri yoxlamaq üçün 2-4 həftədən sonra hadisənin səbəblərinə görə simulyasiyalar.
Dərslərin on-call onbordinqinə daxil edilməsi və tədris ssenarilərinin yenilənməsi.

16) Yekun

Post-insident təhlili sistemin təkmilləşdirilməsi mexanizmidir. Faktlar toplandıqda, səbəblər sübut olunduqda, hərəkətlər ölçülə bilər və yoxlanılır, təşkilat etibarlılığın əməliyyat kapitalını toplayır: MTTR və təkrar hadisələr düşür, buraxılışların proqnozlaşdırılması və müştərilərin etimadı artır.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.