Root Cause Analysis
1) Ի՞ նչ է RCA-ն և ինչո՞ ւ է այն անհրաժեշտ։
Root Cause Analysis-ը արմատական պատճառները հայտնաբերելու կառուցվածքային գործընթաց է, որպեսզի վերացնի կրկնությունը։ Կենտրոնում փաստերն են, պատճառահետևանքային կապերը և տեխնոլոգիական բարելավումները (գործընթացներ, ճարտարապետություն, թեստեր), ոչ թե մեղավոր գտնելը։
Նպատակները 'կանխել ռեցիդիվը, նվազեցնել MTTR/հաճախականությունը, բարելավել SLO-ը, ապահովելով կարգավորողների և գործընկերների վստահությունը։
2) Սկզբունքներ (Just Culture)
Առանց վիզաների։ Պատժում ենք ոչ թե մարդկանց, այլ ռիսկային պրակտիկայի։
Փաստաբանությունը։ Միայն ստուգված տվյալները և արտեֆակտները։
E2E տեսանկյունը։ Հաճախորդից մինչև backend և պրովայդերներ։
Հիպոթեզների ստուգումը։ Ցանկացած հայտարարություն թեստի/փորձի հետ է։
CAPA-փակում։ Ուղղիչ և նախազգուշացնող միջոցներ սեփականատերերի և ժամկետների հետ։
3) Մուտքային արտեֆակտներ և պատրաստություններ
Timline-ով UTC: T0-ի հայտնաբերումը www.T + գործողությունը www.T + վերականգնումը։
Դիտարկման տվյալները 'լոգներ, չափումներ (ներառյալ կոորդինատները), թրեյսները, սինթեզիկան, կարգավիճակը։
Փոփոխությունները 'ֆորումներ, ֆիչի դրոշներ, դելիգներ, պրովայդերական իրադարձություններ։
Շրջապատը 'վարկածներ, արտեֆակտների հեշ, SBSA, ենթակառուցվածքային ձեռնարկություններ։
Մրցույթի հիմքը 'իմպակտայի նկարագրությունը (SLO/SLA, հաճախորդները, շրջանառությունը), workaround' a։
Chain of custody: Ո՞ վ և երբ հավաքեց/փոխեց ապացույցները (կարևոր է կոմպլանսի համար)։
4) RCA մեթոդներ. Երբ որ ինչ որ բան որ որ որ որ է։
1. 5 Why - արագ պարզել պատճառահետևանքային շղթան խնդիրների համար։ Ռիսկը '«իջեցնել» բարդ համակարգը գծին։
2. Isikava դիագրամը (Fishbone) - տեղադրել գործոնները կատեգորիաներով ՝ People/Process/Platform/Policy/Partner/Delt։ Օգտակար է սկզբում։
3. Fox Tree Analysis (FTA) - պապիկ իրադարձությունից պատճառներով (AND/OR)։ Ենթակառուցվածքների և «ծառի» մերժումների համար։
4. Causal Graph/Event Chain-ը կախվածության գրաֆիկ է հավանականությամբ և ներդրման քաշով։ Լավ է միկրովայրկյան և արտաքին պրովայդերների համար։
5. FMSA (Failure Modes & Effects Analysis) - կանխարգելիչ 'մերժման ռեժիմները, ծանրությունը (S), հաճախականությունը (O), հայտնաբերումը (D), RPN = S 35O 35D.
6. Change Analysis-ը համեմատություն է «Ինչպես էր/ինչպես դարձավ» (գենդերային, շեմա, տարբերակներ)։
7. Human Factors Review-ը մարդկանց որոշումների կոնտեքստն է (ալտերային հոգնածություն, վատ պլեյբուսներ, գերծանրքաշային)։
Առաջարկվող կապը 'Fishbone no Change Analysis no Causal Graph/FTA 355 Why հիմնական ճյուղերով։
5) RCA տուրքի գործընթացը
1. Նախաձեռնել 'նշանակել RCA սեփականատեր, որոշել զեկույցի ավարտման ժամանակահատվածը (օրինակ, 5 աշխատանքային օր), հավաքել թիմը (IC, TL, Scribe, պրովայդերների ներկայացուցիչներ)։
2. Հավաքել փաստերը 'թայմլեյն, գրաֆիկա, օրինակներ, լոգներ, արտեֆակտներ։ ամրագրել տարբերակները և վերահսկել գումարները։
3. Քարթենալ ազդեցությունները 'ինչ SLI/SLO-ն վնասվել է, ինչ կոորդինատներ (երկրներ, պրովայդերներ, VIP)։
4. Կառուցել վարկածներ 'առաջնային, այլընտրանքային։ նշել, թե ինչ ստուգումներ են այժմ։
5. Ստուգել հիպոթեզները 'steidge/simae/canarake, treiss վերլուծություն, fensinject։
6. Որոշել արմատային և արդյունավետ պատճառները 'տեխնոլոգիական, գործընթացային, կազմակերպական։
7. Ձևավորել CAPA 'ուղղիչ (շտկել) և նախազգուշացնող (կանխել); հաջողության և ժամանակի չափումներ։
8. Համաձայնեցնել և հրապարակել զեկույցը 'գիտելիքների ներքին հիմքը +, անհրաժեշտության դեպքում, արտաքին տարբերակը հաճախորդների/կարգավորողի համար։
9. Հավատալ էֆեկտին 'վերահսկողական կետերը 14/30 օրվա ընթացքում; գործողությունների իրականացումը։
6) Ի՞ նչ է համարվում «արմատային պատճառը»
Ոչ թե «մարդկային սխալ», այլ մի պայման, որը հնարավոր և անտեսանելի դարձրեց
թույլ թեստեր/fich դրոշներ, որոնք բացակայում են limits/alerta, երկիմաստ կոմպոզիցիա, սխալ դեֆոլտներ, փխրուն ճարտարապետություն։
Հաճախ սա գործոնների համադրություն է (կազմաձևման բացակայություն)։
7) CAPA 'ուղղիչ և նախազգուշացնող միջոցներ
Շտկող (Eurective)
ֆիքսված կոդից/սուլֆիգներից, պաթերտից, լիմիտների/թայմաուտների փոփոխությունից, ինդեքսների ավելացումից, կրկնօրինակումից/շարդինգից, կոդերի բաշխումից և հավաստագրերի թարմացումից։
Նախազգուշացնող (Vlaventive)
թեստեր (պայմանագրային, քաոս-քեյսներ), ալտերտներ (burn rate, սինթետիկ կվորում), սուլֆերի քաղաքականությունը (canary/blue-green), GitOps-ը եզրերին, ուսուցումը/չեկ-թերթերը, պրովայդերի կրկնօրինակումը, DR-ուսուցումները։
Յուրաքանչյուր գործողություն 'սեփականատերը, դեդլինը, ակնկալվող էֆեկտը, ստուգման չափումը (օրինակ ՝ X տոկոսով change-failure-rate նվազումը, 90 օրվա կրկնապատկիչների բացակայությունը)։
8) Հիպոթեզի և էֆեկտների վերիֆիկացումը
Փորձարկումներ ՝ froninj.ru/chaos, shadow-2019, A/B եզրագծեր, որոնք ծանրաբեռնված են իրական պրոֆիլներով։
Հաջողության մետրերը 'SLO վերականգնումը, p95/p99 կայունացումը, error-rate արագությունների բացակայությունը, MTTR կրճատումը, burn-rate և zero-reopen 30 օրվա ընթացքում։
Վերահսկողական կետերը ՝ D + 7, D + 30, D + 90 - CAPA-ի և ազդեցության իրականացումը։
9) RCA զեկույցի (ներքին)
1. Ռուսական ռեզյումե 'ինչ պատահեց, երբ, ով ազդեց։
2. Իմպակտը 'SLI/SLO, օգտագործողներ, տարածքներ, շրջանառություն/տուգանքներ (եթե կա)։
3. Թայմլին (UTC) 'հիմնական իրադարձությունները (ալտերտներ, լուծումներ, օրինագծեր, ֆիքսներ)։
4. Դիտարկումներ և տվյալներ ՝ գրաֆիկներ, լոգներ, հետքեր, դելեգներ (օրինակներ), պրովայդերական արձաններ։
5. Հիպոթեզներ և ստուգումներ ՝ 108/մերժված, հղում փորձերին։
6. Արմատային պատճառները 'տեխնոլոգիական, գործընթացային, կազմակերպական։
7. Արդյունավետ գործոններ. <<Ինչու՞ չնկատեցին/կանգ չառան>>։
8. CAPA պլանը 'աշխատանքային գործողություններ սեփականատերերի/ժամկետների/մետրերի հետ։
9. Ռիսկերը և երկրորդային խոցելիությունները. Դեռ պետք է վերահսկել/փորձարկել։
10. Ծրագրերը 'արտեֆակտներ, աքսեսուարներ, գրաֆիկներ (105)։
10) Օրինակ (համառոտ, ընդհանրացված)
Իրադարձությունը 'վճարումների հաջողության նվազումը 19: 07-19: 26 (SEV-1)։
Իմպակտը 'e2e-SLO-ն խախտվել է 21 րոպե, 3 երկիր, ավելցուկ/փոխհատուցում։
Պատճառն այն է, որ քարտեզի առաջնորդի նոր տարբերակը մեծացրեց լատենտությունը մինչև 1։ 2 - ը, երբ թայմաուտները գնում են պրովայդեր։
Պատճառը 2 (տոկոսը) '«A» պրովայդերի համար canary չկար, թողարկումը անմիջապես անցավ 100 տոկոսով։
Պատճառն այն է, որ Ալերտ շեմը բիզնես-SLI-ի վրա չի ներառել հատուկ BIN միջակայքը (VIP-կոորտեր)։
CAPA 'վերադարձնել վալիդատորի հին տարբերակը; ներմուծել 1/5/25%; ավելացնել բիզնես SLI BIN կոորդինատներով; պայմանավորվել failover 30 տոկոսը «B» պրովայդերի վրա; քաոս քեյս «slow upstream»։
11) RCA գործընթացների հասունության մետրերը
CAPA-ի կատարումը ժամանակին (30 օրվա փակված տոկոսը)։
Reopen rate (պատահականներ, որոնք կրկին հայտնաբերվել են 90 օրվա ընթացքում)։
Change-failure-rate մինչև/հետո։
Միգրանցների մասնաբաժինը, որտեղ հայտնաբերվել են հիմնական պատճառները (և ոչ միայն «մարդկային սխալը»)։
Նոր կոդերի թեստերի ծածկումը RCA-ից։
Զեկույցի թողարկման ժամանակը (SLA հրատարակություններ)։
12) Ընտրված օրինագծերի առանձնահատկությունները (fintech/iGaming և այլն)
Հաշվետվությունները բացվում են 'հաճախորդի/կարգավորող զեկույցի տարբերակները առանց զգայուն մասերի, բայց կրկնապատկիչների կանխարգելման պլանով։
Աուդիտ-լոգ և անփոփոխ 'արտեֆակտների պահպանումը, ստորագրված հաշվետվությունները, հյուսետներին կապելը, CMDB-ը, ստացիոնար։
Օգտագործողների տվյալները 'դեպերսոնիզացիա/դիմակավորում լոգարանների օրինակներում։
Ծանուցման ժամկետները 'կապել պայմանագրերին և պայմանագրերին (օրինակ, N ժամ առաջնային ծանուցման համար)։
13) Anti-patterna
«Մեղավոր Վասիան» մարդկային գործոնի կանգառը առանց պատճառների։
Հիպոթեզների ստուգումների բացակայությունը ինտուիցիայի հետևություններն են։
Չափազանց ընդհանուր RCA («ծառայությունը ծանրաբեռնված էր») 'առանց հատուկ փոփոխությունների։
Ոչ CAPA-ն, թե ոչ սեփականատերերը/108 - զեկույցը զեկույցի համար։
Տեղեկատվության թաքցումը վստահության կորուստ է, կազմակերպության ուսուցման անհնարինությունը։
Փոխադարձություն առանց SLO/բիզնես SLI-ի։
14) Գործիքներ և պրակտիկա
RCA (wiki/knowledge bull), մետատվյալների հետ 'ծառայություն, SEV, պատճառները, CAPA, կարգավիճակը։
Ձևանմուշները և բոտերը 'զեկույցի շրջանակի գեներացիան (timeline, գրաֆիկա, օրինագծեր)։
Պատճառի գրաֆիկը 'իրադարձության պատճառահետևանքային քարտեզի կառուցումը (օրինակ, լոգարանների/թրեյսների հիմքում)։
Chaos-կատալոգը 'սցենարներ անցյալի կոմպոզիցիաների վերարտադրման համար։
Dashboards «RCA-ից հետո» առանձին տեսիլքներ, որոնք ապացուցում են CAPA էֆեկտը։
15) Չեկ թերթիկը «պատրաստ է հրատարակել»
- Թայմլայնը և արտեֆակտները լի են և ստուգված։
- Արմատային պատճառները որոշվում և ապացուցվում են թեստերով/փորձարկումներով։
- Բաժանված են արմատային և արդյունավետ պատճառներ։
- CAPA-ն պարունակում է սեփականատերեր, ժամանակներ, որոնք չափում են ազդեցության չափումները։
- Կա ստուգման պլան 14/30 օրվա ընթացքում։
- Արտաքին սթեյքհոլդերների տարբերակը պատրաստված է (եթե անհրաժեշտ է)։
- Զեկույցը անցավ այդ/տոկոսադրույքով։
16) Արդյունքը
RCA-ը ոչ թե հետադարձ հայացք է ձևականության համար, այլ համակարգի ուսուցման մեխանիզմը։ Երբ փաստերը հավաքվում են, պատճառները ապացուցված են, իսկ CAPA-ն փակված է մետրերով և փորձարկվում է, կազմակերպությունը ամեն անգամ դառնում է ավելի կայուն, SLO-ն ավելի կայուն է, ռեցիդիվների ռիսկը ցածր է, իսկ օգտագործողների և կարգավորողների վստահությունը ավելի բարձր է։