GH GambleHub

Root Cause Analysis

1) Ի՞ նչ է RCA-ն և ինչո՞ ւ է այն անհրաժեշտ։

Root Cause Analysis-ը արմատական պատճառները հայտնաբերելու կառուցվածքային գործընթաց է, որպեսզի վերացնի կրկնությունը։ Կենտրոնում փաստերն են, պատճառահետևանքային կապերը և տեխնոլոգիական բարելավումները (գործընթացներ, ճարտարապետություն, թեստեր), ոչ թե մեղավոր գտնելը։

Նպատակները 'կանխել ռեցիդիվը, նվազեցնել MTTR/հաճախականությունը, բարելավել SLO-ը, ապահովելով կարգավորողների և գործընկերների վստահությունը։


2) Սկզբունքներ (Just Culture)

Առանց վիզաների։ Պատժում ենք ոչ թե մարդկանց, այլ ռիսկային պրակտիկայի։

Փաստաբանությունը։ Միայն ստուգված տվյալները և արտեֆակտները։

E2E տեսանկյունը։ Հաճախորդից մինչև backend և պրովայդերներ։

Հիպոթեզների ստուգումը։ Ցանկացած հայտարարություն թեստի/փորձի հետ է։

CAPA-փակում։ Ուղղիչ և նախազգուշացնող միջոցներ սեփականատերերի և ժամկետների հետ։


3) Մուտքային արտեֆակտներ և պատրաստություններ

Timline-ով UTC: T0-ի հայտնաբերումը www.T + գործողությունը www.T + վերականգնումը։

Դիտարկման տվյալները 'լոգներ, չափումներ (ներառյալ կոորդինատները), թրեյսները, սինթեզիկան, կարգավիճակը։

Փոփոխությունները 'ֆորումներ, ֆիչի դրոշներ, դելիգներ, պրովայդերական իրադարձություններ։

Շրջապատը 'վարկածներ, արտեֆակտների հեշ, SBSA, ենթակառուցվածքային ձեռնարկություններ։

Մրցույթի հիմքը 'իմպակտայի նկարագրությունը (SLO/SLA, հաճախորդները, շրջանառությունը), workaround' a։

Chain of custody: Ո՞ վ և երբ հավաքեց/փոխեց ապացույցները (կարևոր է կոմպլանսի համար)։


4) RCA մեթոդներ. Երբ որ ինչ որ բան որ որ որ որ է։

1. 5 Why - արագ պարզել պատճառահետևանքային շղթան խնդիրների համար։ Ռիսկը '«իջեցնել» բարդ համակարգը գծին։

2. Isikava դիագրամը (Fishbone) - տեղադրել գործոնները կատեգորիաներով ՝ People/Process/Platform/Policy/Partner/Delt։ Օգտակար է սկզբում։

3. Fox Tree Analysis (FTA) - պապիկ իրադարձությունից պատճառներով (AND/OR)։ Ենթակառուցվածքների և «ծառի» մերժումների համար։

4. Causal Graph/Event Chain-ը կախվածության գրաֆիկ է հավանականությամբ և ներդրման քաշով։ Լավ է միկրովայրկյան և արտաքին պրովայդերների համար։

5. FMSA (Failure Modes & Effects Analysis) - կանխարգելիչ 'մերժման ռեժիմները, ծանրությունը (S), հաճախականությունը (O), հայտնաբերումը (D), RPN = S 35O 35D.

6. Change Analysis-ը համեմատություն է «Ինչպես էր/ինչպես դարձավ» (գենդերային, շեմա, տարբերակներ)։

7. Human Factors Review-ը մարդկանց որոշումների կոնտեքստն է (ալտերային հոգնածություն, վատ պլեյբուսներ, գերծանրքաշային)։

Առաջարկվող կապը 'Fishbone no Change Analysis no Causal Graph/FTA 355 Why հիմնական ճյուղերով։


5) RCA տուրքի գործընթացը

1. Նախաձեռնել 'նշանակել RCA սեփականատեր, որոշել զեկույցի ավարտման ժամանակահատվածը (օրինակ, 5 աշխատանքային օր), հավաքել թիմը (IC, TL, Scribe, պրովայդերների ներկայացուցիչներ)։

2. Հավաքել փաստերը 'թայմլեյն, գրաֆիկա, օրինակներ, լոգներ, արտեֆակտներ։ ամրագրել տարբերակները և վերահսկել գումարները։

3. Քարթենալ ազդեցությունները 'ինչ SLI/SLO-ն վնասվել է, ինչ կոորդինատներ (երկրներ, պրովայդերներ, VIP)։

4. Կառուցել վարկածներ 'առաջնային, այլընտրանքային։ նշել, թե ինչ ստուգումներ են այժմ։

5. Ստուգել հիպոթեզները 'steidge/simae/canarake, treiss վերլուծություն, fensinject։

6. Որոշել արմատային և արդյունավետ պատճառները 'տեխնոլոգիական, գործընթացային, կազմակերպական։

7. Ձևավորել CAPA 'ուղղիչ (շտկել) և նախազգուշացնող (կանխել); հաջողության և ժամանակի չափումներ։

8. Համաձայնեցնել և հրապարակել զեկույցը 'գիտելիքների ներքին հիմքը +, անհրաժեշտության դեպքում, արտաքին տարբերակը հաճախորդների/կարգավորողի համար։

9. Հավատալ էֆեկտին 'վերահսկողական կետերը 14/30 օրվա ընթացքում; գործողությունների իրականացումը։


6) Ի՞ նչ է համարվում «արմատային պատճառը»

Ոչ թե «մարդկային սխալ», այլ մի պայման, որը հնարավոր և անտեսանելի դարձրեց

թույլ թեստեր/fich դրոշներ, որոնք բացակայում են limits/alerta, երկիմաստ կոմպոզիցիա, սխալ դեֆոլտներ, փխրուն ճարտարապետություն։

Հաճախ սա գործոնների համադրություն է (կազմաձևման բացակայություն)։


7) CAPA 'ուղղիչ և նախազգուշացնող միջոցներ

Շտկող (Eurective)

ֆիքսված կոդից/սուլֆիգներից, պաթերտից, լիմիտների/թայմաուտների փոփոխությունից, ինդեքսների ավելացումից, կրկնօրինակումից/շարդինգից, կոդերի բաշխումից և հավաստագրերի թարմացումից։

Նախազգուշացնող (Vlaventive)

թեստեր (պայմանագրային, քաոս-քեյսներ), ալտերտներ (burn rate, սինթետիկ կվորում), սուլֆերի քաղաքականությունը (canary/blue-green), GitOps-ը եզրերին, ուսուցումը/չեկ-թերթերը, պրովայդերի կրկնօրինակումը, DR-ուսուցումները։

Յուրաքանչյուր գործողություն 'սեփականատերը, դեդլինը, ակնկալվող էֆեկտը, ստուգման չափումը (օրինակ ՝ X տոկոսով change-failure-rate նվազումը, 90 օրվա կրկնապատկիչների բացակայությունը)։


8) Հիպոթեզի և էֆեկտների վերիֆիկացումը

Փորձարկումներ ՝ froninj.ru/chaos, shadow-2019, A/B եզրագծեր, որոնք ծանրաբեռնված են իրական պրոֆիլներով։

Հաջողության մետրերը 'SLO վերականգնումը, p95/p99 կայունացումը, error-rate արագությունների բացակայությունը, MTTR կրճատումը, burn-rate և zero-reopen 30 օրվա ընթացքում։

Վերահսկողական կետերը ՝ D + 7, D + 30, D + 90 - CAPA-ի և ազդեցության իրականացումը։


9) RCA զեկույցի (ներքին)

1. Ռուսական ռեզյումե 'ինչ պատահեց, երբ, ով ազդեց։

2. Իմպակտը 'SLI/SLO, օգտագործողներ, տարածքներ, շրջանառություն/տուգանքներ (եթե կա)։

3. Թայմլին (UTC) 'հիմնական իրադարձությունները (ալտերտներ, լուծումներ, օրինագծեր, ֆիքսներ)։

4. Դիտարկումներ և տվյալներ ՝ գրաֆիկներ, լոգներ, հետքեր, դելեգներ (օրինակներ), պրովայդերական արձաններ։

5. Հիպոթեզներ և ստուգումներ ՝ 108/մերժված, հղում փորձերին։

6. Արմատային պատճառները 'տեխնոլոգիական, գործընթացային, կազմակերպական։

7. Արդյունավետ գործոններ. <<Ինչու՞ չնկատեցին/կանգ չառան>>։

8. CAPA պլանը 'աշխատանքային գործողություններ սեփականատերերի/ժամկետների/մետրերի հետ։

9. Ռիսկերը և երկրորդային խոցելիությունները. Դեռ պետք է վերահսկել/փորձարկել։

10. Ծրագրերը 'արտեֆակտներ, աքսեսուարներ, գրաֆիկներ (105)։


10) Օրինակ (համառոտ, ընդհանրացված)

Իրադարձությունը 'վճարումների հաջողության նվազումը 19: 07-19: 26 (SEV-1)։

Իմպակտը 'e2e-SLO-ն խախտվել է 21 րոպե, 3 երկիր, ավելցուկ/փոխհատուցում։

Պատճառն այն է, որ քարտեզի առաջնորդի նոր տարբերակը մեծացրեց լատենտությունը մինչև 1։ 2 - ը, երբ թայմաուտները գնում են պրովայդեր։

Պատճառը 2 (տոկոսը) '«A» պրովայդերի համար canary չկար, թողարկումը անմիջապես անցավ 100 տոկոսով։

Պատճառն այն է, որ Ալերտ շեմը բիզնես-SLI-ի վրա չի ներառել հատուկ BIN միջակայքը (VIP-կոորտեր)։

CAPA 'վերադարձնել վալիդատորի հին տարբերակը; ներմուծել 1/5/25%; ավելացնել բիզնես SLI BIN կոորդինատներով; պայմանավորվել failover 30 տոկոսը «B» պրովայդերի վրա; քաոս քեյս «slow upstream»։


11) RCA գործընթացների հասունության մետրերը

CAPA-ի կատարումը ժամանակին (30 օրվա փակված տոկոսը)։

Reopen rate (պատահականներ, որոնք կրկին հայտնաբերվել են 90 օրվա ընթացքում)։

Change-failure-rate մինչև/հետո։

Միգրանցների մասնաբաժինը, որտեղ հայտնաբերվել են հիմնական պատճառները (և ոչ միայն «մարդկային սխալը»)։

Նոր կոդերի թեստերի ծածկումը RCA-ից։

Զեկույցի թողարկման ժամանակը (SLA հրատարակություններ)։


12) Ընտրված օրինագծերի առանձնահատկությունները (fintech/iGaming և այլն)

Հաշվետվությունները բացվում են 'հաճախորդի/կարգավորող զեկույցի տարբերակները առանց զգայուն մասերի, բայց կրկնապատկիչների կանխարգելման պլանով։

Աուդիտ-լոգ և անփոփոխ 'արտեֆակտների պահպանումը, ստորագրված հաշվետվությունները, հյուսետներին կապելը, CMDB-ը, ստացիոնար։

Օգտագործողների տվյալները 'դեպերսոնիզացիա/դիմակավորում լոգարանների օրինակներում։

Ծանուցման ժամկետները 'կապել պայմանագրերին և պայմանագրերին (օրինակ, N ժամ առաջնային ծանուցման համար)։


13) Anti-patterna

«Մեղավոր Վասիան» մարդկային գործոնի կանգառը առանց պատճառների։

Հիպոթեզների ստուգումների բացակայությունը ինտուիցիայի հետևություններն են։

Չափազանց ընդհանուր RCA («ծառայությունը ծանրաբեռնված էր») 'առանց հատուկ փոփոխությունների։

Ոչ CAPA-ն, թե ոչ սեփականատերերը/108 - զեկույցը զեկույցի համար։

Տեղեկատվության թաքցումը վստահության կորուստ է, կազմակերպության ուսուցման անհնարինությունը։

Փոխադարձություն առանց SLO/բիզնես SLI-ի։


14) Գործիքներ և պրակտիկա

RCA (wiki/knowledge bull), մետատվյալների հետ 'ծառայություն, SEV, պատճառները, CAPA, կարգավիճակը։

Ձևանմուշները և բոտերը 'զեկույցի շրջանակի գեներացիան (timeline, գրաֆիկա, օրինագծեր)։

Պատճառի գրաֆիկը 'իրադարձության պատճառահետևանքային քարտեզի կառուցումը (օրինակ, լոգարանների/թրեյսների հիմքում)։

Chaos-կատալոգը 'սցենարներ անցյալի կոմպոզիցիաների վերարտադրման համար։

Dashboards «RCA-ից հետո» առանձին տեսիլքներ, որոնք ապացուցում են CAPA էֆեկտը։


15) Չեկ թերթիկը «պատրաստ է հրատարակել»

  • Թայմլայնը և արտեֆակտները լի են և ստուգված։
  • Արմատային պատճառները որոշվում և ապացուցվում են թեստերով/փորձարկումներով։
  • Բաժանված են արմատային և արդյունավետ պատճառներ։
  • CAPA-ն պարունակում է սեփականատերեր, ժամանակներ, որոնք չափում են ազդեցության չափումները։
  • Կա ստուգման պլան 14/30 օրվա ընթացքում։
  • Արտաքին սթեյքհոլդերների տարբերակը պատրաստված է (եթե անհրաժեշտ է)։
  • Զեկույցը անցավ այդ/տոկոսադրույքով։

16) Արդյունքը

RCA-ը ոչ թե հետադարձ հայացք է ձևականության համար, այլ համակարգի ուսուցման մեխանիզմը։ Երբ փաստերը հավաքվում են, պատճառները ապացուցված են, իսկ CAPA-ն փակված է մետրերով և փորձարկվում է, կազմակերպությունը ամեն անգամ դառնում է ավելի կայուն, SLO-ն ավելի կայուն է, ռեցիդիվների ռիսկը ցածր է, իսկ օգտագործողների և կարգավորողների վստահությունը ավելի բարձր է։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։