GH GambleHub

Պերեստրոյկայի էսկալացիա

1) Նպատակը և սկզբունքները

Ձեռնարկության էսկալացիան ճիշտ դերերի և ռեսուրսների արագ ներգրավման գործընթացն է, որպեսզի նվազագույնի հասցնի ազդեցությունը օգտագործողների և բիզնեսի չափումների վրա։

Հիմնական սկզբունքները

Արագությունը ավելի կարևոր է, քան իդեալականությունը։ Ավելի լավ է կանխել դեպքը նախկինում և էսկալացնել, քան ուշանալ։

Միասնական հրամանատարություն։ Մեկ պատասխանատու է լուծման համար 'Incident Commander (IC)։

Թափանցելիությունը։ Պարզ կարգավիճակները և հաղորդակցման ուղիները ներքին և արտաքին սթեյքհոլդերի համար։

Փաստայնությունը։ Բոլոր քայլերը, լուծումները և թայմլայնները ամրագրված են ինտեգրման և բարելավման համար։

2) Լրջության աստիճանը (SEV/P մակարդակներ)

Սանդղակի օրինակը (հարմարեցրեք տիրոջը/իրավասությանը)

SEV-0/P0 (կրիտիկական) - հիմնական ֆունկցիայի ամբողջական անհասանելիությունը (login/2019), տվյալների արտահոսքը, իրավաբանական ռիսկը։ Տեղադրված լանդշաֆտը ամբողջ միջուկի on-call, freeze ածխաջրածիններ։

SEV-1/P1 (բարձր) - p95/p99 քայքայումը, հիմնական գործընթացում սխալների/ձախողումների ավելացումը, տարածաշրջանի/պրովայդերի անհասանելիությունը։

SEV-2/P2 (միջին) - մասնակի քայքայումը սահմանափակ կոորդինատի համար (տարածաշրջանը, պրովայդերը), կա շրջանցիկ ճանապարհ։

SEV-3/P3 (ցածր) քննադատական չէ օգտագործողի համար, բայց պահանջում է ուշադրություն (ETL ֆոնային ուշացում, ժամկետանց զեկույց)։

Մակարդակի որոշման մատրիցը (պարզեցված)

Պարտության շառավղը (քանի օգտագործողներ/հեղափոխություններ) բացատրում է ռուսական զգայունության տևողությունը (կարգավորիչ/PR) համապատասխանում է SEV մակարդակին։

3) KPI գործընթացը

MTTD (հայտնաբերման ժամանակը) - ազդանշանի սկզբից մինչև առաջին ազդանշանը։

MTTA (ընդունման ժամանակը) ազդանշանից մինչև IC հաստատումը։

MTTR (վերականգնման ժամանակը) - մինչև SLO/գործառույթի վերականգնումը։

Escalation Latency-ը հաստատումից մինչև ճիշտ դերի/թիմի միացումը։

Reopen Rate-ը մրցույթի մի մասն է, որը կրկին բացվել է «որոշումից» հետո։

Comm SLA-ը արտաքին/ներքին դեղատների ընդմիջումների պահպանումն է։

4) Դերեր և պատասխանատվություն (RACI)

Incident Commander (IC) 'լուծման սեփականատերը, տեղադրում է մակարդակը, պլանը, ֆրեզը, էսկալացիան, էսկալացիան։ Չի գրում ֆիքսներ։

Tech Lead (TL) 'տեխնոլոգիական ախտորոշումը, հիպոթեզները, ինժեներների համակարգումը։

Comics Lead (CL) 'կարգավիճակ-էջ, հաճախորդ և ներքին հաղորդակցություն, որը համագործակցում է Legal/PR-ի հետ։

Scribe 'փաստերի ճշգրիտ ամրագրումը, թայմլայնը, որոշումների լուծումը։

Liaisons (կապակցված) 'արտաքին պրովայդերների/թիմերի ներկայացուցիչները (վճարումները, KYC, հոստինգը)։

On-call ինժեներները 'պլանի կատարումը, պլեյբուսների/ռեպատների արձակումը։

Նշանակեք հերթապահ գրաֆիկներ և բեքապներ յուրաքանչյուր դերի համար։

5) Ջրանցքներ և արտեֆակտներ

War-room ջրանցքը (ChatOps) 'մեկ համակարգման կետ (Slack/Teams), որը ունի Auto-սենսացիայի (վարկածներ, դրոշներ, կանարեյքեր)։

SEV-1 + տեսահոլովակը։

Tiket of (one-pager): ID, SEV, IC, մասնակիցներ, վարկածներ/ախտորոշում, քայլեր, ETA, կարգավիճակ, իմպակտա, հղում գրաֆիկայի վրա։

Կարգավիճակ-էջ 'հանրային/ներքին; Ռուսական apdeits (օրինակ, յուրաքանչյուր 15-30 րոպե SEV-1 +) համար։

6) Թայմ բոքսները և ռուսական ընդմիջումները

T0 (240-5): IC-ը նշանակված է, SEV-ը նշանակված է, freeze-ը (եթե անհրաժեշտ է), war-room-ը բաց է։

T + 15 րոպե 'առաջին հանրային/ներքին հաղորդագրությունը (որը ազդում է, workaround, հաջորդ ապդեյթի պատուհանը)։

T + 30/60 րոպե 'հաջորդ մակարդակի էսկալացիա (պլատֆորմ/BD/անվտանգություն/պրովայդերներ), եթե չկա կայուն դինամիկա։

SEV-0: Յուրաքանչյուր 15 րոպե; SEV-1 'յուրաքանչյուր 30 րոպե; SEV-2 + ՝ ամեն ժամ։

7) Ավտո-էսկալացիայի կանոնները (գործարկման քաղաքականություն)

Գրված են որպես կոդ և միանում են մոնիտորինգի/ալերտինգի

Burn-rate-ի սխալների բյուջեն ավելի բարձր է, քան շեմը կարճ և երկար պատուհաններում։

Արտաքին փորձարկումների քվորումը '242 տարածաշրջաններ արձանագրում են HTTP/TSA/TSA դեգրադացիան։

Բիզնես-SLI (վճարման/գրանցման հաջողությունը) ընկնում է SLO-ից ցածր։

Ազդանշանները 'արտահոսքի/փոխզիջման կասկածը։

Պրովայդերական ազդանշան 'վեբհուկ «major entage» կարգավիճակը։

8) Հայտնաբերումից մինչև լուծումը

1. Մրցույթի հռչակագիրը (IC) 'SEV, 108, freeze, պլեյբուսների արձակումը։

2. Ախտորոշումը (TL) 'հիպոթեզներ, շառավղի մեկուսացում (տարածաշրջան, պրովայդեր, ֆիչ), ստուգումներ (ISO/TSA/CDN/BD/kashi/shina)։

3. Միստիգիվ գործողություններ (արագ հաղթանակներ) 'ռետատ/կանարեյկա 108, ֆիչի-դրոշը, ֆալովեր պրովայդերը, rate-limit, kash-overley։

4. Հաղորդակցությունը (CL) 'կարգավիճակ-էջ, հաճախորդներ/գործընկերներ, Legal/PR, գրաֆիկայի նորարարություններ։

5. Վերականգնման ապացույցը 'արտաքին սինթեզիկան + իրական մետրերը (SLI), freeze-ի վերացումը։

6. Դեսկալացիա 'SEV նվազեցում, անցում N րոպե/ժամ դիտարկման մեջ։

7. Պիտերբուրգը և RCA 'post-mortem, action items, սեփականատեր և ժամանակներ։

9) Արտաքին պրովայդերների հետ աշխատելը

Սեփական փորձարկումները մի քանի տարածաշրջաններից պրովայդերների համար + հայելային լոգ/սխալների օրինակներ։

Էսկալացիայի (կոնտակտներ, SLA պատասխանը, գերակայությունը, կարգավիճակի վեբհուկները)։

Ավտոմատ failover/փոխանցումը կատարվում է SLO պրովայդերի միջոցով։

Ապացույցների բազան 'թայմլինը, sample/պատասխանները, լատինական/սխալների գրաֆիկները, ID-ը պրովայդերի հյուսվածքները։

10) Կարգավորիչ, անվտանգություն և PR

Մոսկվա/P0 'մեկուսացում, արտեֆակտների հավաքում, բացահայտման նվազեցում, պարտադիր ծանուցումներ (ներքին/արտաքին/կարգավորիչ)։

Legal: արտաքին apdeit ձևակերպումը, SLA/տուգանքների պայմանագրային։

PR/Հաճախորդի ծառայություն 'պատասխանների պատրաստի ձևանմուշներ, Q&A, փոխհատուցում/վարկեր (եթե կիրառելի է)։

11) Հաղորդագրությունների ձևանմուշները

Առաջնային (T + 15)

"Մենք ուսումնասիրում ենք SEV-1 դեպքը, որը ազդում է [ֆունկցիա/տարածք]։ Ախտանիշները ՝ [հակիրճ]։ Մենք ակտիվացնում էինք շրջանցիկ ճանապարհը [նկարագրությունը]։ Հաջորդ նորարարությունը [ժամանակ] է"։

Նորարարություն

"Ախտորոշում: [հիպոթեզ/ապացույց]։ Գործողությունները '[անջատեցին պրովայդերը/կտրեցին թողարկումը/միացրեցին դեգրադացիան]։ Իմպակտը կրճատվում է մինչև [տոկոսը/կոորդինատները]։ Հաջորդ ապդեյթը [ժամանակը]"։

Լուծումը

"SEV-1 պատահարը լուծված է։ Պատճառն այն է, որ [արմատային]։ Վերականգնման ժամանակը [MTTR]։ Հաջորդ քայլերը ՝ [ֆիքս/ստուգում/N ժամացույցի դիտարկում]։ Փոստի մորտեմը [երբ/որտեղ]"։

12) Պլեյբուկի (մոտավոր)

Վճարման հաջողության անկումը 'նվազեցնել մասնաբաժինը պրովայդերի A, X տոկոսը տեղափոխել B; ներառել «degrade-payments-UX»; ներառել հոսանքները լիմիտներում; տեղեկացնել ֆին թիմին։

P99 API-ի աճը 'նվազեցնել նոր տարբերակի կանարեյկան։ անջատել ծանր փուչիկները; ավելացնել kes-TTL; Ստուգել BD ինդեքսները/կոննեկտները։

RF/TMS/CDN խնդիրը 'ստուգել հավաստագրերը/շղթան; թարմացնել ձայնագրությունը; անցեք պահուստային CDN-ին; փոխպատվաստել։

Նախկին կասկածը 'հանգույցների մեկուսացումը, հիմնական նավարկումը, www.mTIM հոսքը, արտեֆակտների հավաքումը, Legal ծանուցումը։

13) Դեսկալացիան և չափանիշները «որոշվել են»

Դեպքը թարգմանվում է ցածր մակարդակի, եթե

SLI/SLO կայուն է N ընդմիջումների կանաչ գոտում։

կատարվում են միտումնավոր գործողություններ և դիտարկումներ 'առանց ռեգրեսիայի;

դասարանի համար ապացուցված է վեկտորների փակումը, բանալիները/գաղտնիքները։

Պիտերբուրգը միայն թայմլինի ամրագրումից հետո է, action items-ի սեփականատերերը։

14) Post-mortem (ոչ վարակիչ)

Կառուցվածքը

1. Փաստերը (թայմլայնը, որ տեսել են օգտագործողները/մետրիկները)։

2. Արմատային պատճառը (տեխնոլոգիական/պրոցեսային)։

3. Այն, ինչ աշխատում էր/չի աշխատում էսկալացիայի մեջ։

4. Վիրահատական միջոցներ (թեստեր, ալերտներ, լիմիտներ, ճարտարապետություն)։

5. Դադարների և սեփականատերերի հետ գործողությունների պլանը։

6. Կապը error budget և SLO/գործընթացների հետ։

15) Գործընթացի հասունության մետրիկները

Փաթեթների մասնաբաժինը, որոնք հայտարարվել են մինչև օգտագործողների բողոքները։

MTTA մակարդակներում SEV; ժամանակ ճիշտ դերի միացման համար։

Ապդեյթի ընդմիջումների պահպանումը (Comm SLA)։

Պլեյբուսների կողմից լուծված միգրանցների տոկոսը առանց ձեռքի «ստեղծագործության»։

Action items-ի կատարումը պոստմորտեմներից ժամանակում։

16) Anti-patterna

«Ինչ-որ մեկը ինչ-որ բան անեք» 'ոչ IC/դերեր։

War-room-ը բանավեճ է գործողությունների փոխարեն տարբերակների մասին։

Ուշ հայտարարագիրը հաստատեց ժամանակի կորցումը մարդկանց հավաքելու համար։

Ոչ freeze-ը և օրինագծերի ծանոթությունները, զուգահեռ փոփոխությունները քողարկում են պատճառը։

Արտաքին հաղորդակցության բացակայությունը բողոքների/PR ռիսկն է։

Առանց հետմորտեմի և գործողությունների, մենք կրկնում ենք նույն սխալները։

17) Չեկ-թերթ IC (գրպանի քարտ)

  • Նշանակել SEV և բացել war-room։
  • Նշանակել TL, CL, Scribe, ստուգել on-call առկա է։
  • Ներառել-freeze (SEV-1 +)։
  • Հաստատել ճշմարտության աղբյուրները 'dashbords SLI, սինթետիկ, լոգներ, թրեյսինգ։
  • Ընդունեք արագ հավաքող գործողություններ (արձագանք/դրոշներ/failover)։
  • Ապահովել համապատասխան ապդեյտներ ըստ ժամանակացույցի։
  • Criteria for Resolve-ը և վերականգնումից հետո դիտարկումը։
  • Նախաձեռնել փոստի մորտը և նշանակել action items սեփականատերերին։

18) Ամենօրյա վիրահատություններ կատարելը

Դասընթացները (game-days) 'հիմնական սցենարների սիմվոլը։

Պլեյբուկի կատալոգ 'տարբերակված, բողոքված, ռուսական։

Գործիքներ ՝ ChatOps-թիմեր «/declare », «/page», «/status », «/rollback»։

Տե՛ ս ՝ tiketing, կարգավիճակ-էջ, post-mortems, CMDB/ծառայողական կատալոգը։

SLO/Error Budget-ի հետ 'Auto-ի և freeze-ի կանոնները։

19) Արդյունքը

Էսկալացիան վիրահատական կարգապահություն է, ոչ միայն զանգը հերթապահ։ SEV-ի պարզ մակարդակները, որոնք նշանակված են IC-ի, պատրաստի պլեյբուսների, Tim-բոքսների և SLO-ի և budget-քաղաքական գործիչների հետ ինտեգրման հետ, վերածում են քաոսային հրդեհը կառավարվող գործընթացին կանխատեսելի արդյունքով 'արագ վերականգնումը, նվազագույն PR/կարգավորող լուծումը և համակարգային բարելավումները յուրաքանչյուր հանդիպումից հետո։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։