Արձագանքը պատահականության և պատահականության վրա
(Բաժին ՝ Վիրահատություններ և կառավարում)
1) Սահմանումներ և նպատակներ
Դեպքը մի իրադարձություն է, որը խախտում է SLO/անվտանգությունը/համադրումը կամ ստեղծում է ռիսկեր հաճախորդների, փողի, տվյալների, հեղինակության համար։
Արձագանքի նպատակները 'արագ վերականգնել ծառայությունը, նվազագույնի հասցնել վնասը, արձանագրել ապացույցները, անտեսել և կանխել կրկնությունը։
Հիմնական սկզբունքները
Safety first 'մարդկանց/տվյալների/փողի պաշտպանությունը ավելի կարևոր է, քան գործառույթները։
One throat to choke: մեկ Incident Commander (IC) որոշում է կայացնում։
Actionable now: Յուրաքանչյուր վարկած ուղեկցվում է ստուգմամբ/գործողությամբ։
Evidence matters: Ամեն ինչ տրամաբանվում է, արտեֆակտները ստորագրվում են, թայմլայնը մանրամասն է։
2) Դասակարգում (severity & գերակայություն)
Տրիգերը 'SLO խախտումը, ալերտի կանոնը, ձեռքով ռեպորտը, իրավաբանական դեպքը (DPO/CCO)։
3) Դերեր և պատասխանատվություն (RACI)
Incident Commander (A) - մրցույթի առաջնորդը, առաջադրանքների արտադրումը, լուծումների ընդունումը, IC-ի փոփոխությունը երկար միջադեպերի ժամանակ։
Tech Lead (R) - տեխնոլոգիական ախտորոշումը/ֆիքսները, SDE/ինժեներական համակարգումը։
Comics Lead (R) - գրում է կարգավիճակ (ներսում/արտաքին), կարգավիճակի էջի սեփականատերը։
Scribe (R) - արձանագրություն, թայմլին, արտեֆակտների հավաքումը։
Express/Legal (C/A սեքսուրիտի դեպքերի համար) - ռիսկերի գնահատում, պարտադիր ծանուցումներ։
Customer Supert (C) - պատասխանների ձևանմուշներ, tikets։
Partner Liaison (C) - հաղորդակցություն պրովայդերների/տենանտների հետ։
Մոսկվա (I) - տեղեկատվական, բիզնեսի լուծումներ (վարկեր/փոխհատուցում)։
4) Առաջին 15 րոպեները (ձևանմուշներ)
1. Նշանակել IC և բացել մրցույթի քարտը (չաթ-ալիք, տեսահոլովակ, Jira/Tracker)։
2. Յուրացնել SEV-ը և շտկել SLO-ախտանիշը (որը խախտված է)։
3. Կայունացնել
միացրեք runbooks/runs: circuit-breakers, trottling, անցում, prom, promo;
փոխզիջման դեպքում 'kill-switch զգայուն գործառույթներ։
4. Թիմերը ՝ Tech Lead - ախտորոշում; Comics-ը «ռուսական հոլդ» է (10-15 րոպե անց առաջին նորարարությունն է)։
5. Որոշեք հիպոթեզները (երեք առավելագույնը), նշանակեք սեփականատերերին, տեղադրեք գաղտնիքներ ստուգման համար (5-10 րոպե)։
6. Հավաքեք արտեֆակտներ 'պղպջակներ, գլանափաթեթներ, կարբոնաթթուներ, լոգներ' trace _ id ', քվիտանիա։
5) Առաջին ժամը (ձևանմուշ)
Հաղորդակցությունը v1 (15-20 րոպե) 'փաստ, ստանդարտ, ախտանիշներ, թե ինչ ենք անում, հաջորդ նորարարությունը։ Առանց շահարկումների։
Սահմանները բացատրվում են. Ո՞ ր շրջանները/տենանտները/ալիքները/տարբերակները ազդում են։
Վնասի վերահսկումը 'ժամանակավոր գլխարկներ/սահմանափակումներ, «աղմկոտ» ինտեգրացիաների անջատումը, դեգրադացիոն ռեժիմի լուծումը։
Ֆորենզիկա 'սառեցնել լոգարանների տարհանումը, պաշտպանել արտեֆակտները (WORM/ստորագրություն)։
Ճանապարհային վերականգնման քարտեզը ՝ T + 30/T + 60, չեկով։
6) Հաղորդակցություն և կարգավիճակ-էջ
Ներքին ընդմիջումները ՝ P1 - յուրաքանչյուր 15 րոպե, P2-30-60 ռուբլիներ
Արտաքին 'կարգավիճակ-էջ/տենանտներ/SLA գործընկերներ։
Հաղորդագրության ձևանմուշները
Ինչպես երևում է, «X: YY UTC-ից, EU տարածքում kout-ի ձախողումների աճը (p95> 250 ms)»
Ո՞ վ է ազդում. <<օպերատորներ A/B/C, 2440% ռուբլիա>
Ի՞ նչ ենք անում, "միացրեցինք այլընտրանքային երթուղին, տրոտլինգը։ աշխատում ենք PSA-1 պրովայդերի հետ"
Տվյալները/dedline: «Հաջորդ նորարարությունը 15 րոպե հետո»
Փոխհատուցում ՝ «կիրառենք վարկերի նոտաները համաձայն SLA-ի փակվելուց հետո»
7) Պլեյբուկի (iGaming/fintech)
PriceMismatch (vitrina nowkout) 'քեշի ֆորս-հաշմանդամություն, «fx _ version/tax _ rule _ version», դինամիկ պրոմո սառեցում, քաղաքականության տարբերությունների փոխհատուցում։
Webhase Lag (գործընկերներ/աֆֆիլիատներ) 'վորկերների մեծացում, batch բարձրացում, ռետրերի գերակայություն, նոր շարժիչների վրա։
Payments Drage/PSA-դեգրադացիան 'PSA-ի ինտեգրումը, հաճախորդների թայմաուտների նվազումը, հերթի ձեռքով կլիրինգը, կարանտինի «մոխրագույն» գործարքները։
RTP Drift: բոնուսների դադար, կոդերի/տարբերակների սեղանների ստուգում, դիտարկման պատուհանի ընդլայնումը, RTP-ի արձագանքը։
Fraud Spike: խստացնել velocity/limits, ներառել ավելացված KYC ստուգում, կասկածելի կոորդինատների մեկուսացում, բարձր հաղթանակների ձեռքով։
System/PII Exposure: համակարգերի մեկուսացում, DPO/Legal ծանուցում, տուժած գրառումների բուլարիզացիա, ժամանակի կարգավորող ծանուցումներ։
8) Գործիքներ և ռունաներ (գործիքներ-ակտիվիստներ)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Գվարդի ռեյլները '«սեդլանիայից» պաշտպանությունը սահմանափակված է, ամսագրերը ստորագրվում են, յուրաքանչյուր գործողություն IC/Scribe։
Ապացուցումը 'DSSE ստորագրություններ, դիպուկահարների հեշեր, Merkle-sress։
9) Ավարտը
Չափանիշները ՝ SLO-ն վերականգնվել է, հերթը մարվել է, տվյալները/գումարը կրճատվել է, ռիսկերը փակված են, հաղորդակցությունները ուղարկվել են։
Փակման ռիթմը 'կարգավիճակի վերջնական նորարարությունը, որը գրանցվել է թայմլեյնի, ազդեցության ցանկը, պատճառների նախնական վարկածները, նշանակված է post-mortem ամսաթիվը։
10) Post-Mortem (առանց ռուսական)
Ժամանակահատվածը 'P1 - երեք աշխատանքային օրվա ընթացքում; P2-5 աշխատանքային օր։
Բովանդակություն ՝ փաստեր/թայմլայն, առաջին (5 Whys/FRAM), ազդեցություն (SLO, ֆինանսներ, հաճախորդներ), որը աշխատում էր/ոչ, items action (owner, ժամանակի, չափված ազդեցության)։
Արդյունավետության ստուգումը '30-60 օրվա ընթացքում' կատարման և մետրի (կրկնապատկումը, MTTR, ալտերի աղմուկը)։
11) Մետրիկի և SLO-ի կառավարումը
MTTD/MTTA/MTTR, Change Failure Rate, Time to Comicsv1, թույլատրված (ռունամի) տոկոսը։
Alts Livise-ը ոչ ակտիվ ազդանշանների մասն է, pages per on-call shift-ը։
Repeat Incidents-ը 90 օրվա ընթացքում կրկնապատկիչների մասն է։
Post-mortem SLA-ը ժամանակի ընթացքում օգտագործողների/փակված հատվածն է։
SLO արձագանքը ՝ P1 - առաջին հաղորդակցությունը 3,15 րոպե; MTTR 3560 րոպե; արտեֆակտների ամբողջականությունը = 100%։
12) Իրավունք/բաղադրիչներ/գաղտնիություն/
Իրավաբանական ծանուցումներ 'տեղական կարգավորիչների ժամկետները արտահոսքի/միջադեպերի մասին։
PII-նվազեցումը 'առաջնային հասանելիությունը միայն հաստատված ջոբների միջոցով։ թունավորում/դիմակավորում։
Արտեֆակտների պահպանումը 'WORM ամսագրեր, պահպանման ժամանակահատվածը։ Մուտքի վերահսկումը (RBAC/ABAC, JIT)։
Գործընկերները 'պայմանագրային SLA, էսկալացիայի գործընթացը, հանցագործությունների քվիտանիան։
13) Հերթապահության և էսկալացիայի կազմակերպություն
24 247 on-cal. ռոտացիաներ դերերով (MSE, App, Իսպանիա, Իսպանիա, Payments)։
Էսկալացիայի մատրիցը 'ո՞ վ է տարածաշրջանների/սննդի/պրովայդերների համար։ կոնտակտների կրկնօրինակումը (chat/ձայն/SMS)։
Ուսուցումները (GameDays): Սիմվոլը PSA-ի անկումն է, ռետրերի լավինը, գների ռասինխրոնը, ստեղնաշարի փոխզիջումը, տարածաշրջանի հրաժարումը։
14) Dashbords
Ջերմությունը (հիմա) 'SLO, p95/p99, տարածաշրջանների քարտեզը/ստենանտները, առաջադրանքների հերթը, արտեֆակտները հավաքված են/ոչ։
Պատմությունը 'տենդենցներ, ռունի արդյունավետություն, պատճառների կրկնություն։
Որակի վերահսկումը 'ամբողջ թայմլայնը, «coverage» post-mortems, SLA հաղորդակցությունները։
15) Ներդրման չեկի ցուցակ
- Հաստատել SEV մասշտաբը և SLO-ի գրավիչները։
- Նշանակել դերեր (IC/Tech/Comics/Scribe/Sec/Legal) և 24 247։
- Գործարկել մեկ քարտի ստանդարտ և կարգավիճակ-էջ։
- Նկարագրել պլեյբուսները (PricMismatch/Webhant Lag/Payments/RTP/Fraud/PII)։
- Իրականացնել ռունաները աուդիտի և «կարմիր կոճակի» հետ։
- Ներառեք ֆորենզիկ քաղաքականությունը 'WORM/ստորագրություններ/արտեֆակտների հավաքում։
- Հաղորդակցության Կարգավորումը (ֆր ./Արտաքին) , SLA 2019։
- Փոստի մորտը և ձևանմուշները; KPI-ն կատարում է action items-ը։
- GameDays ամսական; տենդենցների եռամսյակային ակնարկ։
- Metriki IR dashborde (MTTA/MTTR/Medise/Repeat/Comics SLA)։
16) FAQ
Ինչու՞ «IC մեկ»։
Որոշումների կայացման միասնական կետը հանում է քաոսը և արագացնում արձագանքը։
Երբ հրապարակայնորեն հայտարարեք։
Հենց որ գոյություն ունի հաստատված փաստ և մրցույթի ծրագիր։ Գնահատեք կարգավորող ժամկետները։
Ի՞ նչն է ավելի կարևոր 'ֆիքսը կամ զեկույցը։
Սկզբում վերականգնումն ու անվտանգությունը։ Զուգահեռ 'արտեֆակտների հավաքումը։ Զեկույցը 'դեպքից հետո։
Կարո՞ ղ ենք ավտոմատացնել ամեն ինչ։
Ոչ, բայց ռունաները փակում են «հաճախակի և պարզ» քայլերը։ Մնացածը պարզ պլեյբուսների և մարզումների միջոցով է։
Ռեզյումե 'Ուժեղ Incident Response-ը ոչ միայն PagerDuty-ն է և չաթ-ալիքը։ Սա դերերի կարգապահությունն է, արագ առաջին 15 րոպեների ընթացքում, կառավարվող ռունաները, թափանցիկ հաղորդակցությունները, ֆորենզիկան ապացուցված և պարտադիր փոփի մորտը։ Այս կոնտուրով դուք նվազեցնում եք MTTR-ը, պաշտպանում եք գումարը և տվյալները, և ավելացնում հաճախորդների և կարգավորիչների վստահությունը։