Վիրահատությունները և Կառավարումը ՝ Նվազեցնելով հետևանքները
Հետևանքների նվազում
1) Նպատակը և սկզբունքները
Նպատակը 'կանխել էսկալացիան և նվազեցնել վնասը։
Սկզբունքները
Intainmentfirst: դադարեցնել ձախողման տարածումը (blast radius)։
Graceful degradation: ավելի լավ «ավելի վատ է աշխատում», քան «ընդհանրապես չի աշխատում»։
Decouple & fallback 'անկախ բաղադրիչներ և անվտանգ այլընտրանքներ։
Decision speed> perf.ru: Արագ շրջադարձային գործողություններ (feature flag, roult switch)։
Communicate early 'մեկ ճշմարտության աղբյուր, հստակ արձաններ և ETA հոտերի վրա։
2) Հետևանքների և տաքսոնոմիայի մոդելը
Ազդեցությունը ՝ օգտագործողները (տարածք, սեգմենտը), փողը (GGR/NGR, պրոցեսինգը), կոմպլենսը (KYC/AML), գործընկերները/պրովայդերները։
Տեսակներ 'արտադրողականության դեգրադացիա, կախվածության մասնակի մերժում (PMS, KYC, խաղերի պրովայդեր), թողարկման ռեգրեսիա, տվյալների դեպք (Vitrine/ETL), DDoS/բեռի սպայկ։
Մակարդակները (P1-P4) 'կրիտիկական պրոտոնից ֆլոուից մինչև տեխնիկական թերություն։
3) Patterns նվազեցնել հետևանքները (տեխնիկական)
3. 1 Տեղայնացումը և blast radius սահմանափակումը
Շարտերի/տարածաշրջանների մեկուսացումը 'մենք անջատում ենք խնդրահարույց գնդակը/տարածաշրջանը, մնացածը շարունակում են աշխատել։
Circuit Breaker: արագ հրաժարվելը կախվածությունից սխալների/թայմաուտների դեպքում բացատրում է գողերի պաշտպանությունը։
Bulkhead (բաժանումներ) 'առանձին փամփուշտներ/հերթեր կրիտիկական ճանապարհների համար։
Traffic Shadowing/Canary: Progon-ը նոր տարբերակով մինչև ամբողջական տարբերակը։
3. 2 Կառավարվող քայքայումը (graceful)
Read-only ռեժիմը 'մուտացիաների ժամանակավոր արգելափակում (օրինակ, տոկոսադրույքները/դեպոզիտները), երբ պահպանում են նավարկությունը և պատմությունը։
Ֆունկցիոնալ խցիկներ 'երկրորդական վիջետների/լենդսկեյպների անջատումը, ծանր շարժիչները, «տաք» որոնումները։
Քաշ ֆոլբեքը 'stale-cash (stale-while-revalidate), պարզեցված մոդելներ։
Պարզեցված լիմիտներ 'բետա/էջ չափի նվազեցում, TTL-ի կարգավորումը, թանկարժեք ֆիլտրերի անջատումը։
3. 3 Բեռի կառավարումը
Shed/Throttle: հեռացնել ավելցուկ հարցումները «արդար» 'IP/բանալին/endpointu, գործառնությունների գերակայությամբ։
Backpressure 'lag սպառողների արտադրողների սահմանափակումը։ retry դինամիկան ջիթերի հետ։
Queue shaping: P1-ֆլոուի (վճարումներ, հեղինակային) և ֆոնային վերլուծություն։
3. 4 Արագ անջատիչներ
Feature Flags & Kill-switch: խնդրահարույց ֆիչի ակնթարթային անջատումը առանց ռոտացիայի։
Traffic Routing: պրովայդերի փոխակերպումը (PMS A 35B), շրջանցելով խնայվող դենսատորը, թարգմանությունը «տաք» կրկնօրինակին։
Toggle Group: Timauts, retrai, QPS-ի limits - աուդիտի հետ։
3. 5 Տվյալներ և հաշվետվություններ
Հետաձգված մուտացիաները 'ձայնագրությունը www.box/log-ում հաջորդ առաքմամբ։
Ժամանակավոր դենորմալացում 'BD բեռի նվազեցում նյութականացված վիտրինի ընթերցմամբ։
Degrade BI 'ժամանակավորապես ցույց տալ lme good-medapshot-ը «տվյալները 12: 00 UTC»։
4) Հիբրիդային օրինակներ (iGaming)
KYC պրովայդերի ձախողումը 'ներառյալ այլընտրանքային պրովայդերը։ «ցածրադիր» սահմանների համար ժամանակավոր հավատարմագրում է պարզեցված սցենարի համաձայն, որը նվազեցնում է հաշիվները։
PMS-ի բարձր լատենտը 'տեղական դրամապանակների գերակայությունը, սահմանների նվազումը, մի մասի արտադրումը T + Line-ի հերթին։
Խաղի պրովայդերի ձախողումը, մենք թաքցնում ենք կոնկրետ թայթլներ/պրովայդեր, պահպանում ենք լոբբին և այլընտրանքները, ցույց ենք տալիս «Աշխատանք է կատարվում, փորձեք X/Y»։
5) Կազմակերպություն և դերեր (ICS - Incident Command Live)
IC (Incident Commander) 'միասնական համակարգումը, գործողությունների գերակայությունը։
Ops Lead/MSE: intainment, rutings, fich դրոշներ, ենթակառուցվածքը։
Comics Lead 'կարգավիճակի թարմացում, կարգավիճակի էջեր, ներքին չաթ/փոստ։
Express Matter Owner 'տուժած ենթահամակարգի սեփականատերը (PSA, KYC, խաղերի պրովայդեր)։
Liaison բիզնեսի համար 'ապրանք, աջակցություն, ֆինանսներ, ընկերակցություն։
Scribe: Timline, լուծումներ, արտեֆակտներ փոստի մորտեմի համար։
Կանոն ՝ ոչ ավելի քան 7 352 մարդ ակտիվ «war-room» -ում, մնացածը '«խնդրանքով»։
6) Հաղորդակցություն
Ալիքները ՝ կարգավիճակ-էջ, ներքին # incident-ջրանցք, PagerDuty/telemost, apdait ձևանմուշներ։
Տեմպը 'P1' յուրաքանչյուր 15-20 րոպե; P2-30-60 ռուբլիներ
Սիկապդեյթ ՝ Ինչ-որ մեկի վրա ազդել է, որ արդեն արվել է հաջորդ քայլը ՝ հաջորդ ապդեյթի ընթացքում։
Հաճախորդների աջակցությունը 'նախապես պատրաստված մակրոսները և FAQ-ը L1/L2-ի համար, մարկերները «մասնակի դեգրադացիա», փոխհատուցման քաղաքականությունը։
7) Հաջողության և ձգողականության մետրիկները
MTTD/MTTA/MTTR, Internainment ժամանակը, SLO Burn Rate (1h/6h/35h պատուհան)։
Revenue at risk: չօգտագործված GGR/NGR հատվածների գնահատում։
Blast radius% 'օգտագործողների/տարածաշրջանների/գործառույթների մասը ազդեցության տակ։
Comics SLA-ն 'ապդեյթի ժամանակին կարգավիճակը։
False-positive/false-negative alerts, հիբրիդային պատահարներ։
Դեգրադացիայի (օրինակներ)
p95 հիմնական API> 5 րոպե անընդմեջ շեմն է ներառել քեշ ֆոլբեքը և տրոտլինգը։
Consumer lag> 2 րոպե պլանավորվում է սառեցնել non-critical-ի վաճառողները, բարձրացնել գողերը։
PMS success <97 տոկոսը 10 րոպե նախատեսվում է թարգմանել փաթեթների մասնաբաժինը PSA-ի վրա։
8) Պլեյբուկի (սեղմված)
8. 1 «Լատենտ/api/deposit»
1. Ստուգել error տոկոսը և PMS-արտաքին թայմաուտները պատրաստվում են ներառել կարճ թայմաուտներ և ջիթերի գետեր։
2. Միացրեք լիմիտների/տեղեկատուների քեշը, անջատեք ծանր ստուգումները «տեղում»։
3. Մասնակիորեն թարգմանել մուտքը պահուստային PSA-ին։
4. Ժամանակավորապես նվազեցնել միգրանտների/ավանդների սահմանները ռիսկի նվազեցման համար։
5. Փոստի ֆիքսը 'ինդեքսը/դենորմը, ուժեղացնել ասինխրոնությունը։
8. 2 «KYC կախված է»
1. Անցեք այլընտրանքային պրովայդերի վրա, միացրեք «պարզեցված KYC» սահմանափակումներով։
2. KYC արձանները արդեն անցյալի համար։
3. Հաղորդակցություն 'բանկեր, ETA-ում։
8. 3 «ETL/BI հետ է մնում»
1. Նշեք «stale» + timestamp վահանակները։
2. Դադարեցնել ծանր վերակառուցումները, ներառել իրական։
3. Ջոբսի զուգահեռությունը բացատրվում է, վիտրինի գերակայությունը վիրահատական KPI-ի հետ։
9) Դիզայնի լուծումները մինչև եզրափակիչ (ակտիվորեն)
Դելֆիչ դրոշներ 'ատոմային անջատիչներ էնդպոինտով/պրովայդերների/վիջեթների վրա։
Trotling/Shedding-ի քաղաքական գործիչները 'նախօրոք ռուսական «բրոնզ/արծաթ/ոսկի» մակարդակները գերակայություններով։
Դեգրադացիայի թեստերը ՝ «fire-medills», game-days, քաոս փորձարկումներ (ավելացում/սխալներ)։
Արտաքին կախվածության քվոտաները 'լիմիտներ, սխալների բյուջե, backoff ռազմավարություն։
Runbook 'և' հակադարձ հրահանգներ և թիմեր/դելիգներ օրինակներով։
10) Անվտանգություն և բաղադրիչներ
Fail-safe-ը 'դեգրադացիայի ժամանակ' արգելափակել վիրահատությունները խախտումների հետ, և ոչ թե «ուժեղացնել հոսանքները»։
PII-ը և findenization-ը 'ձեռքով շրջելիս' խիստ աուդիտ, նվազագույն արտոնություններ, տոկենիզացիա։
Հետքեր ՝ IC/օպերատորների գործողությունների ամբողջական ամսագիր, դրոշների/եզրերի փոփոխություն, թայմլայնի արտահանումը։
11) Anti-patterna
«Մենք սպասում ենք, մինչև պարզ դառնա», ոսկու ժամանակի կորուստ ռուսական Aintainment-ը։
«Մենք շրջում ենք գետերը մինչև հաղթանակը», ձյան կատուն և փոթորիկը կախվածությունների մեջ։
Համաշխարհային ֆիչի դրոշները առանց սեգմենտացիայի 'մոմի, քաղաքում էլեկտրականություն չէ։
Լռինը «վախենալու համար» թիկետների աճն է, վստահության կորուստը։
Փխրուն ձեռքի ընթացակարգերը առանց պահանջների 'կոմպլանսի վտանգը։
12) Չեկ թերթերը
Քննադատական փոփոխություններ կատարելուց առաջ
- Կանարյան երթուղին + արագ արձագանք (feature flag)։
- SLO guardrails և alerts p95/error%։
- Կախվածության ծառայություններն մոդելավորված են։
- Հաղորդակցման պլանը և սեփականատերերը։
Մրցույթի ընթացքում
- Windows IC և կապի ալիքներ։
- Օգտագործվում է intainment (մեկուսացում/դրոշներ/ռոտներ)։
- Ներառված է կառավարվող քայքայումը։
- Կարգավիճակը-էջը նորարարված է, աջակցությունը տեղեկացված է։
Դրանից հետո
- Post-Mortem No. 5 աշխատանքային օր առանց «որոնման»։
- Էկշենները սեփականատերերի և պապերի հետ։
- Կրկնության թեստը 'սցենարը վերարտադրվում է և ծածկված է ալտերտերով/թեստերով։
- Պլեյբուսները և դասընթացները նորարարված են։
13) Մինի-արտեֆակտներ (ձևանմուշներ)
Հաճախորդների կարգավիճակը (P1)
Excopop-mortem (1 հազար)
Ի՞ նչ տեղի ունեցավ «Կորնեվա կղզիների ազդեցությունը» պատճառն այն էր, թե ինչ է աշխատում/չի աշխատել «Ռուսական ֆիքսները» (սեփականատերերը/ժամկետները)։
14) Արդյունքը
Միգրանտների հետևանքների նվազումը արագ և շրջադարձային որոշումների կարգապահությունն է 'տեղայնացնել, քայքայել կառավարումը, վերաբաշխել բեռը, հաղորդակցվել թափանցիկ և բարելավել։ Այսօր դուք հաղթում եք մինեդային «մարտավարական ֆորումը» և այն վերածում եք ռազմավարական կայունության վաղը։