Սիմվոլը
1) Ինչո՞ ւ սիմուլյացիա անել
Սիմվոլը անվտանգ վարժություններ է, որտեղ թիմը աշխատում է հայտնաբերումը, ախտորոշումը, էսկալացիան և վերականգնումը իրական պլեյբուսների վրա։ Նրանք
նվազեցնում են MTTD/MTTA/MTTR, բարձրացնում են վստահությունը արձագանքների և կեղծարարների վրա։
հայտնաբերում են ճաքեր գործընթացներում (էսկալացիա, հաղորդակցություն) և ճարտարապետական թուլություններ։
ծառայում են RCA-ի մաս CAPA-ում և բարելավում են փաստաթղթերը (runbook/SOP);
ապացուցում են SLA/կարգավորիչների/։
2) Ռուսական սիմուլյացիաները
Tabletop (տախտակ) - խոսակցական սցենար տախտակի/զրույցի վրա 'էժան, արագ, հիանալի դերերի և հաղորդակցությունների համար։
Game Day (ուսուցումները սթեյջի/սահմանափակումների հետ) - գործնական քայլեր պլեյբուսների վրա։ վաճառքում միայն ապահով, շրջադարձային գործողություններ են հստակ խաղացողների հետ։
Chaos Engineering-ը կառավարվող ձախողումներ է (կախվածության/ցանցի/հանգույցների անջատումը), որպեսզի ստուգի կայունությունը և SLO գեյտերը։
DR-ուսուցումները (Draster Recovery) - AZ/տարածաշրջանի հրաժարվելը, վերականգնումը բեքապներից, պրովայդերների տեղափոխումը։
Comics-medill-ը մաքուր հաղորդակցություն է 'կարգավիճակ-էջ, հաղորդագրությունների ձևանմուշներ, PR/Legal։
3) Դերեր և պատասխանատվություն
Incident Commander (IC) - որոշումներ կայացնում, կատարում պլանը, էսքալացիան։
Tech Lead (TL) - ախտորոշիչ, տեխնոլոգիական «ներարկումներ» և վարկածներ։
Comics Lead (CL) - ներքին/արտաքին apdeit, էջը։
Scribe-ը արձանագրություն է (թայմլեյն, գործողություններ, լուծումներ, արտեֆակտներ)։
Observers/Assessors-ը ձայնագրում է մետրերը և համապատասխանում է ընթացակարգերին։
Red Team (ցանկությամբ) - ներկայացնում է անսպասելի «ներարկումներ»։
4) Սիմուլյացիայի հաջողության մետրիկները
MTTD/MTTA/MTTR սինթետիկ պատահարի մասին։
Comm SLA-ն 'apdeit-ի ժամանակին և որակը։
SLO-guardrails: ճիշտ արձագանք burn-rate-ի, արտաքին փորձարկումների քվորում։
Runbook fidelity: Քայլերի տոկոսը կատարվում է փաստաթղթի վրա, առանց իմպրովիզացիայի։
Escalation latency 'ճիշտ դերի/պրովայդերի միացման արագություն։
Noklis.pass-rate: «պատրաստ/ընդունեց»։
Noise & Fatigue 'ավելցուկ ալերտներ, գերծանրքաշային on-call։
CAPA completion 'սիմուլյացիայից հետո կատարված գործողությունների մասնաբաժինը։
5) Նախապատրաստում. Ի՞ նչ պետք է սկսենք
Նպատակը և վարկածները, որ մենք ստուգում ենք (գործընթացներ, ճարտարապետություն, մարդիկ)։
Սցենարը և «ներարկումները» 'ախտանիշների/իրադարձությունների հաջորդականությունը թայմինգների հետ։
Անվտանգության սահմանափակումները 'արգելքը անդառնալի փոփոխությունների վրա։ կետերը։
Տվյալները և ստենդները 'սինթետիկ ստանդարտ, ֆիչի դրոշը քայքայման, անվտանգ բանալիներ։
Փաստաթղթերը ՝ հղում runbook/SOP, էսկալացիա, պրովայդերների կապ։
Դիտարկումը 'նախապես նշված տաշբորդները/ալերտները, test-kanarek։
Լոգիստիկան 'ժամանակը/տևողությունը, մասնակիցները, war-room ալիքը, ձայնագրությունը։
6) Սիմվոլի անցկացումը 'փուլեր
1. Brief (5-10 րոպե): IC հիշեցնում է նպատակները, դերերը, անվտանգության կանոնները, ավարտման չափանիշները։
2. T0 - Ախտանիշների ներուժը 'alert (a), բիզնեսի SLI անկումը, պրովայդերի արտաքին վիճակը։
3. Եռյակը և էսկալացիան 'SEV, freeze, ճիշտ դերերի միացում։
4. Ախտորոշումը 'հիպոթեզներ, ISO/TSA/CDN/BD/kes/անվադողեր, ածխաջրածինների իմիտացիա։
5. Միտումնավոր գործողություններ 'արձագանքել/կանարեյկա, ֆիչի դրոշը դեգրադացիայի, failover պրովայդերի, limits/retray։
6. Հաղորդակցություն: wwww.apdayts (ձևաչափը ՝ Impack Windows International International Tramp ապդեյթ)։
7. Վերականգնումը և հավատացումը 'արտաքին սինթեզիկան + SLI կանաչ գոտում N ընդմիջումների։
8. Debrief (AAR): 15-30 րոպե - փաստեր, եզրակացություններ, CAPA։
7) Օրենքի (կատալոգի) օրինակներ
Վճարումների հաջողության անկումը 'պրովայդեր A-ը բաժանում է մեկ երկրում։ ակնկալվող գործողություններն են ինտեգրման վերաբաշխումը, պարզեցված UX-ը, հաղորդակցությունը։
MS-ձախողում 'ձայնագրման սխալը/TTL, օգտագործողների մի մասը չի կտրում տիրույթը։ ակնկալվող քայլերն են ֆիքսները/ֆոլբեքը, CDN մաքրումը, դեղատների կարգավիճակը։
Ժամկետանց TRC-հավաստագիր 'ձեռագործությունը կոտրվում է հին հաճախորդների համար։ սպասվում է վթարային երկարացում և շղթայի ստուգում։
Kafka lag 'KYC/AML իրադարձությունների ձգձգման աճը։ սպասումները կոնսուումերներ են, սահմանափակել արտադրողներին։
BD p99-ը և 5xx-ի աճը 'նեղ ինդեքսներ, կոննեկտների սահմանափակում։ սպասումներ 'ֆա դրոշներ, լիմիտներ, հյուրանոցներ/արձագանքներ։
Ռուսական մերժումը 'AZ/PoP անջատումը; սպասումներ - GSLB/Anycript, տվյալների ստուգում և SLO։
Հաղորդակցական Systill 'բոլոր «կանաչ», բայց ստուգում ենք ձևանմուշները, ընդմիջումները և համագործակցությունները Legal/PR-ի հետ։
8) «Ներողություն» (քարտ)
ID: INJ-2025-11-01-01
Purpose: Verification of failover payments and comms SLA
Trigger T0: 30% reduction in transaction success in the TR region (alert SLI + burn rate)
Signals: 5xx growth in payment API, external status PSP-A = partial outage
Expected actions: reduction of the share on PSP-A to 30%, inclusion of degrade-payments-UX, status update 15 min
Success criteria: success of payments ≥ 98% in 30 minutes, two green SLI intervals
NOTAM (security): prohibition of direct database edits; flags/routing only
9) Անվտանգություն և բաղադրիչներ
Prod-simae-ը միայն շրջադարձային է 'fich-դրոշներ, անցում փոքր մասնիկների, ընթերցանության կրկնօրինակներ, «shadow traffic»։
Մուտքի վերահսկումը/աուդիտը 'բոլոր գործողությունները ChatOps/wwww.pline; ամսագրեր անփոփոխ պահեստում։
PII/գաղտնիքները չեն օգտագործվում կրթական արտեֆակտներում։ տվյալները տեղայնացված են։
Կարգավորիչ ՝ եթե սիմուլյացիան ազդում է հաճախորդների հաղորդակցությունների վրա, «ուսուցում» նշումը մասնավոր ալիքներում։ հանրային գրառումները չեն ընդօրինակում։
10) Գնահատումը և AAR 24RCA no CAPA
AAR (After Action Review) - ուսուցումներից անմիջապես հետո.
RCA-ը 'էական ձախողումների համար (օրինակ, չի աշխատել էսկալացիա) RCA մոդելի վրա։
CAPA-ը տերերի/ժամկետների/էֆեկտի չափումների հետ գործողությունների ցուցակ է (փոփոխություններ պլեյբուսներում, ալերտներում, ճարտարապետությունում)։
Ստուգման կետերը ՝ D + 14/D + 30, կատարման ստուգում, կրկին մինի-դիցիլլ խոցելի տեղերում։
11) Մոսկվան և արտեֆակտները
Սիմուլյացիայի պլանը ՝ նպատակներ, սցենարներ, ներարկումներ, մասնակիցներ, պատուհաններ, հաջողության չափանիշներ։
Թայմլին (UTC): T0... Tn, IC լուծումները, տեխնոլոգիական քայլերը, ապդեյտները։
Dashbords/logs նկարները, alerts և արձաններ։
Վերջնական զեկույցը 'չափումներ, թիթեռների տարբերություններ, CAPA։
Փաստաթղթերի նորարարությունները 'runbook/SOP/կոնտակտներ, հղում նոր dashbords։
12) Հաճախականությունը և հաճախականությունը
Tabletop: 2-4 անգամ ամսական (հիմնական հոսքերով և դերերով)։
Game Days-ը staide: 1-2 անգամ ամսական։
Chaos-Keiss (prod-lit) 'եռամսյակային, խստորեն խաղով։
DR ուսուցումները 'տարեկան 1-2 անգամ իրական անցումով։
Comics-medill 'ամեն ամիս մոդելներ և SLA apdeits պատրաստելու համար։
13) Չեկ թերթերը
Սիմուլյացիայի առաջ
- Սցենարը, «ներարկումները», հաջողության չափանիշները, անվտանգության պատուհանները։
- Համաձայնեցված դերերը, ալիքները, ձևանմուշների կարգավիճակը։
- Ստենդների/դրոշների/դաշբորդի հասանելիությունը ստուգված է։
- Ինտեգրման և շրջադարձային պլանը հետևյալն է։
- Ռիսկերը և ազդեցությունը SLO/հաճախորդների վրա գնահատվում են։
Ժամանակի ընթացքում
- SEV-ն նշանակված է, freeze-ը (անհրաժեշտության դեպքում)։
- Գրաֆիկայի հաղորդակցությունը, ձևաչափը պահպանված է։
- Բոլոր գործողությունները աուդիտի գործիքների միջոցով։
- Scribe-ը կատարում է արձանագրություն, հավաքում արտեֆակտներ։
- Անվտանգություն 'արգելքներ/սահմանափակումներ պահպանվում են։
Հետո
- AAR 2019, զեկույցը պահպանված է։
- RCA (ձախողումների դեպքում) նախաձեռնված է։
- CAPA-ն կազմված է սեփականատերերի/ժամկետների հետ։
- Նորարարված runbook/SOP/կոնտակտներ։
- Պլանավորված է խոցելի վայրեր։
14) Anti-patterna
«Իմպրովիզացիան պլանի փոխարեն», չկա սցենար և հաջողության չափանիշներ։
Առանց խաղացողների և մրցույթի պլանի ռիսկերը, ուսմունքները վերածվում են պատահականության։
Միայն տեխնոլոգիաներ առանց հաղորդակցության և էսկալացիայի։
AAR/RCA-ի բացակայությունը թիմը չի սովորում։
Prod-քաոսը առանց դիտարկման և SLO-gardrels-ի։
Անթույլատրելի իրավունքներ 'գաղտնի ձեռքերը վաճառքում։
15) Մինի ձևանմուշները
Game Day (60-90 րոպե)
1. Բրիֆը (5 րոպե) մեջբերում է Նպատակները, դերերը, անվտանգությունը։
2. T0 (5 րոպե) սցենարը կատարվում է Ախտանիշների ներկայացմամբ։
3. Եռյակը/էսկալացիան (10 րոպե)։
4. Ախտորոշումը + գործողությունը (30-45 րոպե) 1-2 «ներարկիչ» է։
5. Վերականգնումը և վերականգնումը (10 րոպե)։
6. AAR (15 րոպե) - եզրակացություններ, CAPA։
IclandAAR (կարճ)
What was expected:
What happened:
What worked:
What didn't work:
Solutions and why:
Actions (CAPA) with deadlines:
Responsible persons:
Retest Date:
16) Արդյունքը
Սիմվոլը «սիմուլյատոր» է մարդկանց, գործընթացների և ճարտարապետության համար։ Հաճախականությունը, ապահով և չափիչ ուսմունքները ճգնաժամերը վերածում են ռուտինի, թիմը ավելի արագ արձագանքում է, պլեյբուսները իսկապես աշխատում են, ճարտարապետությունն ավելի կայուն է, իսկ կարգավորիչը և հաճախորդները տեսնում են վիրահատական ֆունկցիայի հասունությունը։ Ամենակարևորը հստակ նպատակներն են, անվտանգ խաղերը, լավ մետրերը և պարտադիր AAR-ը, RCA-ը, CAPA-ն։