GH GambleHub

Արձագանքը պատահականության և պատահականության վրա

(Բաժին ՝ Վիրահատություններ և կառավարում)

1) Սահմանումներ և նպատակներ

Դեպքը մի իրադարձություն է, որը խախտում է SLO/անվտանգությունը/համադրումը կամ ստեղծում է ռիսկեր հաճախորդների, փողի, տվյալների, հեղինակության համար։

Արձագանքի նպատակները 'արագ վերականգնել ծառայությունը, նվազագույնի հասցնել վնասը, արձանագրել ապացույցները, անտեսել և կանխել կրկնությունը։

Հիմնական սկզբունքները

Safety first 'մարդկանց/տվյալների/փողի պաշտպանությունը ավելի կարևոր է, քան գործառույթները։

One throat to choke: մեկ Incident Commander (IC) որոշում է կայացնում։

Actionable now: Յուրաքանչյուր վարկած ուղեկցվում է ստուգմամբ/գործողությամբ։

Evidence matters: Ամեն ինչ տրամաբանվում է, արտեֆակտները ստորագրվում են, թայմլայնը մանրամասն է։

2) Դասակարգում (severity & գերակայություն)

SEVՆշաններMTTR նպատակըՕրինակներ
P1 / SEV-0Զանգվածային անհասանելիություն/փողի կորուստ/PII արտահոսք60 րոպեNokout-ը չի անցնում. PDn-ի արտահոսքը; սխալ գրկախառնություններ
P2 / SEV-1Ուժեղ քայքայումը/մասնակի տարածքը244 ժամLag Webhukov, resinhron գների; պրովայդերի բարձր սխալները
P3 / SEV-2Տեղական քայքայումը/սխալների աճը2424 ժամԶուգընկերոջ հերթը։ ֆրոդ ազդանշանների աճը
P4 / SEV-3Minore ուղիներ/տենդենցային ռիսկՊլոնովոնՄետրի շեղումները, հնացած վկայագրերը

Տրիգերը 'SLO խախտումը, ալերտի կանոնը, ձեռքով ռեպորտը, իրավաբանական դեպքը (DPO/CCO)։

3) Դերեր և պատասխանատվություն (RACI)

Incident Commander (A) - մրցույթի առաջնորդը, առաջադրանքների արտադրումը, լուծումների ընդունումը, IC-ի փոփոխությունը երկար միջադեպերի ժամանակ։

Tech Lead (R) - տեխնոլոգիական ախտորոշումը/ֆիքսները, SDE/ինժեներական համակարգումը։

Comics Lead (R) - գրում է կարգավիճակ (ներսում/արտաքին), կարգավիճակի էջի սեփականատերը։

Scribe (R) - արձանագրություն, թայմլին, արտեֆակտների հավաքումը։

Express/Legal (C/A սեքսուրիտի դեպքերի համար) - ռիսկերի գնահատում, պարտադիր ծանուցումներ։

Customer Supert (C) - պատասխանների ձևանմուշներ, tikets։

Partner Liaison (C) - հաղորդակցություն պրովայդերների/տենանտների հետ։

Մոսկվա (I) - տեղեկատվական, բիզնեսի լուծումներ (վարկեր/փոխհատուցում)։

4) Առաջին 15 րոպեները (ձևանմուշներ)

1. Նշանակել IC և բացել մրցույթի քարտը (չաթ-ալիք, տեսահոլովակ, Jira/Tracker)։

2. Յուրացնել SEV-ը և շտկել SLO-ախտանիշը (որը խախտված է)։

3. Կայունացնել

միացրեք runbooks/runs: circuit-breakers, trottling, անցում, prom, promo;

փոխզիջման դեպքում 'kill-switch զգայուն գործառույթներ։

4. Թիմերը ՝ Tech Lead - ախտորոշում; Comics-ը «ռուսական հոլդ» է (10-15 րոպե անց առաջին նորարարությունն է)։

5. Որոշեք հիպոթեզները (երեք առավելագույնը), նշանակեք սեփականատերերին, տեղադրեք գաղտնիքներ ստուգման համար (5-10 րոպե)։

6. Հավաքեք արտեֆակտներ 'պղպջակներ, գլանափաթեթներ, կարբոնաթթուներ, լոգներ' trace _ id ', քվիտանիա։

5) Առաջին ժամը (ձևանմուշ)

Հաղորդակցությունը v1 (15-20 րոպե) 'փաստ, ստանդարտ, ախտանիշներ, թե ինչ ենք անում, հաջորդ նորարարությունը։ Առանց շահարկումների։

Սահմանները բացատրվում են. Ո՞ ր շրջանները/տենանտները/ալիքները/տարբերակները ազդում են։

Վնասի վերահսկումը 'ժամանակավոր գլխարկներ/սահմանափակումներ, «աղմկոտ» ինտեգրացիաների անջատումը, դեգրադացիոն ռեժիմի լուծումը։

Ֆորենզիկա 'սառեցնել լոգարանների տարհանումը, պաշտպանել արտեֆակտները (WORM/ստորագրություն)։

Ճանապարհային վերականգնման քարտեզը ՝ T + 30/T + 60, չեկով։

6) Հաղորդակցություն և կարգավիճակ-էջ

Ներքին ընդմիջումները ՝ P1 - յուրաքանչյուր 15 րոպե, P2-30-60 ռուբլիներ

Արտաքին 'կարգավիճակ-էջ/տենանտներ/SLA գործընկերներ։

Հաղորդագրության ձևանմուշները

Ինչպես երևում է, «X: YY UTC-ից, EU տարածքում kout-ի ձախողումների աճը (p95> 250 ms)»

Ո՞ վ է ազդում. <<օպերատորներ A/B/C, 2440% ռուբլիա>

Ի՞ նչ ենք անում, "միացրեցինք այլընտրանքային երթուղին, տրոտլինգը։ աշխատում ենք PSA-1 պրովայդերի հետ"

Տվյալները/dedline: «Հաջորդ նորարարությունը 15 րոպե հետո»

Փոխհատուցում ՝ «կիրառենք վարկերի նոտաները համաձայն SLA-ի փակվելուց հետո»

7) Պլեյբուկի (iGaming/fintech)

PriceMismatch (vitrina nowkout) 'քեշի ֆորս-հաշմանդամություն, «fx _ version/tax _ rule _ version», դինամիկ պրոմո սառեցում, քաղաքականության տարբերությունների փոխհատուցում։

Webhase Lag (գործընկերներ/աֆֆիլիատներ) 'վորկերների մեծացում, batch բարձրացում, ռետրերի գերակայություն, նոր շարժիչների վրա։

Payments Drage/PSA-դեգրադացիան 'PSA-ի ինտեգրումը, հաճախորդների թայմաուտների նվազումը, հերթի ձեռքով կլիրինգը, կարանտինի «մոխրագույն» գործարքները։

RTP Drift: բոնուսների դադար, կոդերի/տարբերակների սեղանների ստուգում, դիտարկման պատուհանի ընդլայնումը, RTP-ի արձագանքը։

Fraud Spike: խստացնել velocity/limits, ներառել ավելացված KYC ստուգում, կասկածելի կոորդինատների մեկուսացում, բարձր հաղթանակների ձեռքով։

System/PII Exposure: համակարգերի մեկուսացում, DPO/Legal ծանուցում, տուժած գրառումների բուլարիզացիա, ժամանակի կարգավորող ծանուցումներ։

8) Գործիքներ և ռունաներ (գործիքներ-ակտիվիստներ)

Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.

Գվարդի ռեյլները '«սեդլանիայից» պաշտպանությունը սահմանափակված է, ամսագրերը ստորագրվում են, յուրաքանչյուր գործողություն IC/Scribe։

Ապացուցումը 'DSSE ստորագրություններ, դիպուկահարների հեշեր, Merkle-sress։

9) Ավարտը

Չափանիշները ՝ SLO-ն վերականգնվել է, հերթը մարվել է, տվյալները/գումարը կրճատվել է, ռիսկերը փակված են, հաղորդակցությունները ուղարկվել են։

Փակման ռիթմը 'կարգավիճակի վերջնական նորարարությունը, որը գրանցվել է թայմլեյնի, ազդեցության ցանկը, պատճառների նախնական վարկածները, նշանակված է post-mortem ամսաթիվը։

10) Post-Mortem (առանց ռուսական)

Ժամանակահատվածը 'P1 - երեք աշխատանքային օրվա ընթացքում; P2-5 աշխատանքային օր։

Բովանդակություն ՝ փաստեր/թայմլայն, առաջին (5 Whys/FRAM), ազդեցություն (SLO, ֆինանսներ, հաճախորդներ), որը աշխատում էր/ոչ, items action (owner, ժամանակի, չափված ազդեցության)։

Արդյունավետության ստուգումը '30-60 օրվա ընթացքում' կատարման և մետրի (կրկնապատկումը, MTTR, ալտերի աղմուկը)։

11) Մետրիկի և SLO-ի կառավարումը

MTTD/MTTA/MTTR, Change Failure Rate, Time to Comicsv1, թույլատրված (ռունամի) տոկոսը։

Alts Livise-ը ոչ ակտիվ ազդանշանների մասն է, pages per on-call shift-ը։

Repeat Incidents-ը 90 օրվա ընթացքում կրկնապատկիչների մասն է։

Post-mortem SLA-ը ժամանակի ընթացքում օգտագործողների/փակված հատվածն է։

SLO արձագանքը ՝ P1 - առաջին հաղորդակցությունը 3,15 րոպե; MTTR 3560 րոպե; արտեֆակտների ամբողջականությունը = 100%։

12) Իրավունք/բաղադրիչներ/գաղտնիություն/

Իրավաբանական ծանուցումներ 'տեղական կարգավորիչների ժամկետները արտահոսքի/միջադեպերի մասին։

PII-նվազեցումը 'առաջնային հասանելիությունը միայն հաստատված ջոբների միջոցով։ թունավորում/դիմակավորում։

Արտեֆակտների պահպանումը 'WORM ամսագրեր, պահպանման ժամանակահատվածը։ Մուտքի վերահսկումը (RBAC/ABAC, JIT)։

Գործընկերները 'պայմանագրային SLA, էսկալացիայի գործընթացը, հանցագործությունների քվիտանիան։

13) Հերթապահության և էսկալացիայի կազմակերպություն

24 247 on-cal. ռոտացիաներ դերերով (MSE, App, Իսպանիա, Իսպանիա, Payments)։

Էսկալացիայի մատրիցը 'ո՞ վ է տարածաշրջանների/սննդի/պրովայդերների համար։ կոնտակտների կրկնօրինակումը (chat/ձայն/SMS)։

Ուսուցումները (GameDays): Սիմվոլը PSA-ի անկումն է, ռետրերի լավինը, գների ռասինխրոնը, ստեղնաշարի փոխզիջումը, տարածաշրջանի հրաժարումը։

14) Dashbords

Ջերմությունը (հիմա) 'SLO, p95/p99, տարածաշրջանների քարտեզը/ստենանտները, առաջադրանքների հերթը, արտեֆակտները հավաքված են/ոչ։

Պատմությունը 'տենդենցներ, ռունի արդյունավետություն, պատճառների կրկնություն։

Որակի վերահսկումը 'ամբողջ թայմլայնը, «coverage» post-mortems, SLA հաղորդակցությունները։

15) Ներդրման չեկի ցուցակ

  • Հաստատել SEV մասշտաբը և SLO-ի գրավիչները։
  • Նշանակել դերեր (IC/Tech/Comics/Scribe/Sec/Legal) և 24 247։
  • Գործարկել մեկ քարտի ստանդարտ և կարգավիճակ-էջ։
  • Նկարագրել պլեյբուսները (PricMismatch/Webhant Lag/Payments/RTP/Fraud/PII)։
  • Իրականացնել ռունաները աուդիտի և «կարմիր կոճակի» հետ։
  • Ներառեք ֆորենզիկ քաղաքականությունը 'WORM/ստորագրություններ/արտեֆակտների հավաքում։
  • Հաղորդակցության Կարգավորումը (ֆր ./Արտաքին) , SLA 2019։
  • Փոստի մորտը և ձևանմուշները; KPI-ն կատարում է action items-ը։
  • GameDays ամսական; տենդենցների եռամսյակային ակնարկ։
  • Metriki IR dashborde (MTTA/MTTR/Medise/Repeat/Comics SLA)։

16) FAQ

Ինչու՞ «IC մեկ»։

Որոշումների կայացման միասնական կետը հանում է քաոսը և արագացնում արձագանքը։

Երբ հրապարակայնորեն հայտարարեք։

Հենց որ գոյություն ունի հաստատված փաստ և մրցույթի ծրագիր։ Գնահատեք կարգավորող ժամկետները։

Ի՞ նչն է ավելի կարևոր 'ֆիքսը կամ զեկույցը։

Սկզբում վերականգնումն ու անվտանգությունը։ Զուգահեռ 'արտեֆակտների հավաքումը։ Զեկույցը 'դեպքից հետո։

Կարո՞ ղ ենք ավտոմատացնել ամեն ինչ։

Ոչ, բայց ռունաները փակում են «հաճախակի և պարզ» քայլերը։ Մնացածը պարզ պլեյբուսների և մարզումների միջոցով է։

Ռեզյումե 'Ուժեղ Incident Response-ը ոչ միայն PagerDuty-ն է և չաթ-ալիքը։ Սա դերերի կարգապահությունն է, արագ առաջին 15 րոպեների ընթացքում, կառավարվող ռունաները, թափանցիկ հաղորդակցությունները, ֆորենզիկան ապացուցված և պարտադիր փոփի մորտը։ Այս կոնտուրով դուք նվազեցնում եք MTTR-ը, պաշտպանում եք գումարը և տվյալները, և ավելացնում հաճախորդների և կարգավորիչների վստահությունը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։