Root Cause Analysis
1) RCA näme we näme üçin zerur?
Root Cause Analysis - gaýtalanmagy aradan aýyrmak üçin wakanyň esasy sebäplerini kesgitlemek üçin gurluş prosesi. Merkezde günäkärleri gözlemek däl-de, faktlar, sebäp-netije gatnaşyklary we ulgamlaýyn gowulaşmalar (prosesler, arhitektura, synaglar) bar.
Maksatlar: gaýtalanmagyň öňüni almak, MTTR/hadysalaryň ýygylygyny azaltmak, SLO-ny gowulandyrmak, düzgünleşdirijileriň we hyzmatdaşlaryň ynamyny güýçlendirmek.
2) Ýörelgeler (Just Culture)
Aýyplama ýok. Adamlary däl-de, töwekgelçilikli amallary jezalandyrýarys.
Faktologiýa. Diňe barlanylýan maglumatlar we artefaktlar.
E2E-görnüş. Müşderiden başlap, üpjün edijilere çenli.
Gipotezalaryň barlanylyşy. Islendik tassyklama - synag/synag bilen.
CAPA. Eýeler we möhletler bilen düzediş we duýduryş çäreleri.
3) Giriş artefaktlary we taýýarlyk
UTC boýunça wagt: T0 tapmak → T + hereket → T + dikeldiş.
Gözegçilik maglumatlary: loglar, metrikler (şol sanda kogortlar boýunça), treýsler, sintetika, status-sahypa.
Üýtgeşmeler: relizler, fiç-baýdaklar, konfigalar, provaýder wakalary.
Gurşaw: wersiýalar, artefaktlaryň hash, SBOM, infrastruktura bellikleri.
Wakanyň binýady: impaktyň beýany (SLO/SLA, müşderiler, dolanyşyk), kabul edilen kararlar, workaroundlar.
Chain of custody: kim we haçan subutnamalary ýygnady/üýtgetdi (laýyklyk üçin möhümdir).
4) RCA usullary: haçan
1. 5 Why - dar meseleler üçin sebäpler zynjyryny çalt tapmak. Töwekgelçilik: setire çenli çylşyrymly ulgamy "gysmak".
2. Isikawa diagrammasy (Fishbone) - faktorlary kategoriýalara bölmek: People/Process/Platform/Policy/Partner/Product. Başda peýdaly.
3. "Fault Tree Analysis" (FTA) - wakadan sebäpler toplumyna çenli (AND/OR). Infrastruktura we "agaç boýunça" şowsuzlyklar üçin.
4. Causal Graph/Event Chain - ähtimallyklar we goşantyň agramy bilen garaşlylyk grafasy. Mikroservisler we daşarky üpjün edijiler üçin amatly.
5. FMEA (Failure Modes & Effects Analysis) - öňüni alyş: şowsuzlyk, agyrlyk (S), ýygylyk (O), tapylma (D), RPN = S × O × D.
6. Change Analysis - "bolşy ýaly/bolşy ýaly" deňeşdirmesi (diff konfigurasiýalary, shema, wersiýalary).
7. Human Factors Review - adamlaryň kararlarynyň konteksti (alert ýadawlygy, erbet oýunlar, artykmaç ýük).
Maslahat berilýän baglanyşyk: Fishbone → Change Analysis → Causal Graph/FTA → 5 Esasy şahalar boýunça näme?
5) RCA ädimme-ädim prosesi
1. Başlamak: RCA eýesini bellemek, hasabatyň goýberiliş möhletini kesgitlemek (mysal üçin 5 iş güni), topar ýygnamak (IC, TL, Scribe, üpjün edijileriň wekilleri).
2. Faktlary ýygnamak: timline, grafikler, relizler, loglar, artefaktlar; wersiýalary düzetmek we pul möçberlerine gözegçilik etmek.
3. Täsirleri kartalaşdyrmak: haýsy SLI/SLO-lar, haýsy kogortlar (ýurtlar, üpjün edijiler, VIP).
4. Gipotezalary gurmak: başlangyç, alternatiw; häzirki barlanýanlary belläň.
5. Çaklamalary barlaň: steýjde/simulýasiýada/kanareýkada oýnamak, traýslary seljermek, fult injection.
6. Esasy we höweslendiriji sebäpleri kesgitlemek: tehnologiki, prosessual, guramaçylyk.
7. CAPA-ny emele getiriň: düzediji (düzediji) we duýduryş beriji (öňüni alyň); üstünligiň metrikleri we möhletleri.
8. Hasabaty ylalaşmak we çap etmek: içerki bilim bazasy + zerur bolsa, müşderiler/düzgünleşdiriji üçin daşarky wersiýa.
9. Täsirini barlamak: gözegçilik nokatlary 14/30 günden soň; hereketleriň ýapylmagy.
6) "Esasy sebäp" näme hasaplanýar
"Adam ýalňyşlygy" däl-de, ony mümkin bolan we görünmeýän şert:- gowşak synaglar/fiç-baýdaklar, ýok çäkler/alertler, düşnüksiz resminamalar, nädogry defoltlar, gowşak binagärlik.
- Köplenç bu faktorlaryň utgaşmasydyr (konfigurasiýa × geýtiň ýoklugy × ýük × üpjün ediji).
7) CAPA: düzediş we öňüni alyş çäreleri
Düzediş (Corrective):- kod/konfigurasiýalaryň fiksi, patterniň yzyna gaýtarylmagy, çäkleriň/wagtlaryň üýtgemegi, indeksleriň goşulmagy, replika/şarding, traffigiň gaýtadan paýlanmagy, şahadatnamalaryň täzelenmegi.
- synaglar (şertnama, bulam-bujarlyk), alertler (burn rate, sintetikanyň kworumy), goýberiş syýasaty (canary/blue-green), konfigi üçin GitOps, okuw/çek sahypalary, üpjün edijini köpeltmek, DR-maşklar.
Her bir hereket: eýesi, möhleti, garaşylýan täsiri, barlag metrikasy (mysal üçin, change-failure-rate-iň X% peselmegi, 90 günüň gaýtalanmazlygy).
8) Gipotezalary we täsirleri barlamak
Synaglar: fault injection/chaos, shadow-traffik, A/B konfigurasiýalary, hakyky profiller bilen ýüklemek.
Üstünlik ölçegleri: SLO-ny dikeltmek, p95/p99 durnuklaşdyrmak, error-rate partlamalarynyň bolmazlygy, MTTR-ni azaltmak, burn-rate we zero-reopen tendensiýasy 30 gün.
Gözegçilik nokatlary: D 7, D 30, D 90 - CAPA-nyň ýerine ýetirilişine we täsirine täzeden garamak.
9) RCA hasabatynyň şablony (içerki)
1. Gysgaça gysgaça: näme boldy, kim degdi.
2. Impakt: SLI/SLO, ulanyjylar, sebitler, dolanyşyk/jerimeler (bar bolsa).
3. Timline (UTC): esasy wakalar (aladalar, çözgütler, goýberişler, fiksler).
4. Gözegçilikler we maglumatlar: grafikler, loglar, yzarlamalar, konfigler (diffler), üpjün ediji statuslar.
5. Çaklamalar we barlaglar: kabul edilen/ret edilen, synaglara salgylanmalar.
6. Kök sebäpleri: tehnologiki, prosessual, guramaçylyk sebäpleri.
7. Goşant goşýan faktorlar: "näme üçin duýmadyk/saklamadyk".
8. CAPA-meýilnama: eýeler/möhletler/metrikler bilen hereket tablisasy.
9. Töwekgelçilikler we galyndy gowşaklyklar: gözegçilik edilmeli/synagdan geçirilmeli başga zatlar.
10. Goşundylar: artefaktlar, baglanyşyklar, grafikler (sanawy).
10) Mysal (gysgaça, jemlenen)
Waka: tölegleriň üstünliginiň 35% peselmegi 19: 05-19: 26 (SEV-1).
Impakt: e2e-SLO 21 minut bozuldy, 3 ýurda täsir edildi, yzyna gaýtarylmalar/öwezini dolmalar.
1-nji sebäp: kartyň walidatorynyň täze wersiýasy gizlinligi 1-e çenli ýokarlandyrdy. 2 s → üpjün edijä wagt.
Sebäbi 2 (göterim): "A" üpjün edijisi üçin kanary ýokdy, goýberilişi birbada 100% geçdi.
Sebäbi 3 (org): biznes-SLI boýunça alert bosagasy belli bir BIN-diapazony (VIP-kogortany) öz içine almady.
CAPA: tassyklaýjynyň köne wersiýasyny yzyna gaýtarmak; canary 1/5/25% giriň; BIN-kogortlar boýunça biznes-SLI goşmak; "B" üpjün edijisine 30% failover barada ylalaşmak; "slow upstream".
11) RCA-prosesiniň kämillik ölçegleri
CAPA-ny öz wagtynda ýerine ýetirmek (30 günüň içinde ýapylan%).
Reopen rate (90 günde gaýtadan açylan hadysalar).
Change-failure-rate öň/soň.
Ulgamlaýyn sebäpler tapylan hadysalaryň paýy (diňe "adam ýalňyşlygy" däl).
RCA-dan täze ssenariýalary synaglar bilen örtmek.
Hasabatyň berlen wagty (SLA neşir).
12) Düzgünleşdirilýän domenleriň aýratynlyklary (fintech/iGaming we ş.m.)
Daşarky hasabat: duýgur jikme-jikliksiz, ýöne gaýtalanmagyň öňüni almak meýilnamasy bilen hasabatyň müşderi/kadalaşdyryjy wersiýalary.
Audit-log we üýtgemezlik: artefaktlary saklamak, gol çekilen hasabatlar, tiketlere, CMDB-lere, goýberilen ýazgylara baglanyşyk.
Ulanyjy maglumatlary: ýazgylaryň mysallarynda depersonalizasiýa/maskalanma.
Habar bermegiň möhletleri: şertnamalara we kadalara birikdirmek (mysal üçin, ilkinji habar bermek üçin sagat N).
13) Anti-patternler
"Wasýa günäkär" - adam faktorynda ulgamlaýyn sebäpsiz durmak.
Çaklamalary barlamagyň ýoklugy - duýgurlyk boýunça netijeler.
Gaty umumy RCA ("hyzmat aşa ýüklendi") - anyk üýtgeşmeler bolmazdan.
CAPA ýok ýa-da eýeleri/möhletleri ýok - hasabat üçin hasabat.
Maglumatlary gizlemek - ynamyň ýitmegi, guramany öwrenip bilmezlik.
SLO/business-SLI bilen baglanyşyksyz metrikler bilen artykmaç ýük.
14) Gurallar we amallar
RCA (wiki/knowledge base) ammary: hyzmat, SEV, sebäpler, CAPA, status.
Şablonlar we botlar: Wakadan hasabat çarçuwasyny döretmek (timline, grafikler, goýberişler).
Sebäpler grafasy: waka-sebäpler kartasyny gurmak (mysal üçin, log/treýs esasynda).
Chaos katalog: Geçmişdäki wakalary çalmak üçin ssenariler.
Dashboards "RCA-dan soň": CAPA täsirini tassyklaýan aýratyn widjetler.
15) "Çap etmäge taýýar" çek-sanawy
- Timline we artefaktlar doly we barlandy.
- Kök sebäpleri synaglar/synaglar arkaly kesgitlenýär we subut edilýär.
- Kök we goşant goşýan sebäpler bölünýär.
- CAPA-da eýeler, möhletler, ölçelýän effekt metrikleri bar.
- 14/30 günden soň barlamak meýilnamasy bar.
- Daşarky steýkholderler üçin wersiýa taýýarlandy (zerur bolsa).
- Hasabat/% -den geçdi.
16) Jemleýji
RCA, resmi bolmak üçin retrospektiv däl, ulgamy öwrenmek mehanizmi. Faktlar ýygnalanda, sebäpler subut edilende we CAPA-lar metriklere ýapylyp, synaglar arkaly barlanylanda, gurama her gezek has durnukly bolýar: SLO has durnukly, gaýtalanma töwekgelçiligi has pes we ulanyjylaryň we düzgünleşdirijileriň ynamy has ýokarydyr.