GH GambleHub

Միջադեպերի կառավարում

(Բաժին ՝ Տեխնոլոգիաներ և ենթակառուցվածքներ)

Live ռեզյումե

Միջադեպերի կառավարումը կրկնվող գործընթաց է, որը արագ վերականգնում է ռուսական արժեքը և նվազեցնում բիզնեսի վնասը։ Օպորան հստակ դերեր են (Incident System, Tech Lead, Comics), SLO-գեյտեր, էսկալացիա, ChatOps գործընթացներ, պատրաստված ռունաբուկներ և «անխուսափելի» հետբուհական վերլուծություններ, որոնք չափված են items գործողությամբ։

1) Նպատակներն ու սկզբունքները

Արագությունն ու անվտանգությունը 'արագ ախտորոշումը հաստատվում է անվտանգ կայունացումով։

Միակ սեփականատերը 'նշանակված Incident Express (IM) ընդունում է պրոցեսորային լուծումներ։

Հաղորդակցությունը որպես ապրանք 'կանխատեսելի ապդեյտներ սթեյքհոլդերների և օգտագործողների համար։

Տվյալները> կարծիքները ՝ SLO/metrics/treiss/loga - ճշմարտության աղբյուրը։

Blameless: պատճառների վերլուծություն առանց անձնական գործողությունների; ֆոկուս տեխնոլոգիական բարելավումների վրա։

2) Կոդավորման դասակարգումը (Severity/Impact/Urgency)

Severity (օրինակ)։

SEV1 (կրիտիկական) 'եկամուտների լուրջ վնասը/TTW/www.am, օգտագործողների> 20 տոկոսը կամ ամբողջ տարածքները։ SLA-ն խախտված է/PII վտանգը։

SEV2 (բարձր) 'հիմնական հոսքերի մասնակի քայքայումը (պահեստային/տոկոսադրույքը/խաղերի մեկնարկը), 5-20 տոկոսի ազդեցությունը։

SEV3 (միջին) 'էքսպորտային ծառայությունների նկատելի քայքայումը, շրջանցումը։

SEV4 (ցածր) 'մինոր, սահմանափակ ազդեցություն, առանց SLO/SLA ազդեցության։

Impact: Ո՞ վ կանդրադառնա (բոլոր/տարածաշրջանը/տենանտ/ջրանցքը)։ Urgency: դեգրադացիայի արագությունը (fox-burn/slow-burn սխալներով)։

3) Կյանքի ցիկլը

1. Detault - ազդանշան ալերտներից/SLO/սինթետիկ/ռեպորտերից։

2. Acknowledge-on-call-ը ապացուցում է ընդունումը, որը կոչվում է IM։

3. Triage-ը SEV/Impact-ի գնահատականն է, հիպոթեզների հավաքումը, War-Room բացահայտումը։

4. Mitigate-ը էքսպիլիզացիա է (նվազեցում/անջատումը/ֆիչեֆլագի/մեծացումը)։

5. Communicate-ը ռուսական apdeit (ներսում/արտաքին) է։

6. Recover-ը SLO/բիզնես մետրի ամբողջական վերականգնումն է։

7. Close-ը քրոնոլոգիայի ամրագրումն է, արտեֆակտների հավաքումը, PIR (RCA + action items)։

4) Դերեր և պատասխանատվություններ (RACI-սխեմա)

Incident Express (IM) - գործընթացի սեփականատերը, որը կոչվում է դերեր, հետևում է ժամանակի ընթացքում, ընդունում է գործընթացային լուծումներ (R)։

Medical Lead (TL) - ախտորոշում/հիպոթեզներ/ֆիքսներ, արտադրում է ինժեներներ (A/R)։

Communications (Comics) - ապդեյտայի կարգավիճակ, կապ աջակցության/բիզնեսի/PR, կարգավիճակ-էջ (R)։

Scribe-ը արձանագրություն է (timline, լուծումներ, հղումներ, արտեֆակտներ) (R)։

Stakeholders - ապրանք/վճարումներ/խաղային պրովայդերներ/անվտանգություն (C/I)։

Առնվազն SEV1: IM + TL + Comics + Scribe-ում։ SEV2-ում նշված է դերերի պետական։

5) War-Room и ChatOps

Առանձին ալիքներ ՝ <# incident-warrome > (աշխատող), «# incident-status» (միայն apdeit)։

Մոդելային թիմերը ՝ "/incident start ", "/status corate", "/call , "/rollback ", "/freeze", "//scale + N "։

Բոտը քաշում է համատեքստը 'վերջին ալգորիթմները, dashbords, որոնք կապված են alerts, trace exemplars, կախվածության սխեմաներ։

Հաղորդակցության կանոնները 'հակիրճ, փաստերով, մեկ բանախոսը (TL), IM-ն մոդերիզացնում է։

6) Ջիգերներ և խաղացողներ

SLO-gatts: fox/slow burn, վճարման հակադարձման նվազում, TTW p95> շեմն, p99 API-ը, ռուսական գծերը «այրվում են»։

Autage: stop canary, rollback, degrade ռեժիմի (գործառույթների սահմանափակում), բարձր հաճախականության սինթետիկ։

Freeze: Բոլոր թողարկումները/www.stop մինչև 2019 և PIR-ը։

7) Տիպիկ սցենարներ (ռունաբուկ-փամփուշտներ)

A) Վճարումներ ՝ թայմաուտների/ձախողումների աճ PBS-ում

1. Stop promote-ը և մետրոպոլիտենի խառնուրդի ածխաջրածինների սառեցումը։

2. Անցեք PSA-ի երթուղին պահեստային, բարձրացրեք թայմաուտ/ռետտա քաղաքականության վրա։

3. Ձախողված գործարքների իջեցում, կուռքեր ունեցող խոհարար։

4. Comics-ի հաղորդակցությունը sapport է. Արդյո՞ ք դուք աշխատում եք պահուստ։ ETA.

B) APIP p99 no և 5xx հետո

1. (blue-green/canary no stable)։

2. Ստուգել քաշ-հիթը, հերթերի խորությունը, ԲԴ/պրովայդերների տաք կետերը։

3. Ժամանակավոր մեծացումը, ծանր ֆիգների սահմանափակումը feature flags-ի միջոցով։

C) Խաղերի պրովայդերը հասանելի չէ

1. Անջատել մուտքը հասանելի ստուդիաների/խաղի վրա, ցույց տալ կարգավիճակի դրոշը։

2. Միացրեք սինթետիկ ստուգումները յուրաքանչյուր 30-60s։

3. Համաձայնեցնել փոխհատուցումը/բոնուսները (քաղաքականությամբ) - ներկայացնել PIR-ում։

D) Արտահոսք/կասկածություն PII

1. Բաղադրիչի մեկուսացումը, շարժիչների/հոսանքների վերականգնումը, լոգարանների հավաքումը (WORM)։

2. Իրավական հաղորդակցության/կարգավորողների իրականացումը։

3. Հետպատերազմյան գործողությունները 'գաղտնիություն-ռոտացիա, դիմակավորում, հասանելի։

8) Հաղորդակցություն (ներքին/արտաքին)

Ապդեյթի հաճախականությունը 'SEV1 - յուրաքանչյուր 15-30 րոպե, SEV2-30-60 ռուբլիներ

Ներքին կարգավիճակի ձևանմուշները

Ի՞ նչն է կոտրված. <<Դեպոզիտները PMS-X-ի միջոցով 'թայմաուտների աճը>>։

Ովքե՞ ր են ազդել «TR/RF» -ը, որը կազմում է հոսքի օգտագործողների 18 տոկոսը։

Երբ սկսվեց. <<12: 07 EET, SEV1>>։

Ի՞ նչ ենք անում, «Մենք տեղափոխում ենք երթուղին PMS-Y-ում, ներառում են ռելսեր/սահմանափակումներ»։

Հաջորդ ապդեյթը '«20 րոպե անց»։

Կոնտակտը ՝ «IM @ duty-im, TL @ oncall-2019»։

Հանրային կարգավիճակը (էջ/սոցիալական ցանցեր) կրճատված է, առանց PII և ավելացված մասերի, ETA-ից և հղում հետագա նորարարություններին։

9) Արտեֆակտների հավաքումը և աուդիտը

Իրադարձությունների թայմլինը (րոպեանոց ճշգրտություն), ծառայությունների, ֆիչի դրոշի տարբերակները, եզրերի փոփոխությունները։

Dashbords նկարները, մոտավոր հետքերը (trace _ id), լոգները «մինչև/հետո»։

Հղումները հյուսետներին, PR-ին, ալյումիններին, ռունաբուկներին։

Հաղորդակցության զեկույցը (երբ/ում/որ)։

Ամեն ինչ տեղադրվում է քարտեզի մեջ։

10) Մոսկվա և PIR (Post-Incident Review)

PIR ձևաչափը (կարճ)

Ռեզյումե 'ինչ տեղի ունեցավ, մասշտաբը, տևողությունը, SEV-ը։

Ազդեցությունը 'օգտագործողներ/տարածքներ, SLO/SLA, ֆին։ էֆեկտը։

Թայմլին 'մանրամասն, րոպեներով։

Root Cause: Տեխնիկական + կազմակերպական (ինչու՞ նախկինում չգնահատեցին)։

Detections & Corpores: Ի՞ նչն օգնեց/alerts, սինթետիկ, ֆիչեֆլագներ)։

Action Items: հատուկ առաջադրանքներ, սեփականատերեր, ժամկետներ (և ինչպես ստուգենք ազդեցությունը)։

Lessons Learned: Մենք փոխում ենք գործընթացը/ճարտարապետությունը/դիտարկումը։

Կանոնները 'առանց պահանջների, առավելագույն փաստերը, պարտադիր follow-up 2-4 շաբաթվա ընթացքում կատարված կետերի ստուգման միջոցով։

11) Գործընթացի հուսալիությունը

MTD (Mean Time To Detair) հայտնաբերման միջին ժամանակն է։

MTTA (… Acknowledge) - մինչև on-call հաստատումը։

MTTR (… Restore) - մինչև SLO վերականգնումը։

Change Failure Rate-ը ածխաջրածինների տոկոսն է, որոնք հանգեցրել են միջադեպերին։

Incident Rate-ը SEV-ով, տարածումը (Payments/Games/Infra)։

Alts Quality-ը աղմկոտ/կեղծ մասն է, ժամանակը մինչև ալերտից հետո։

Comm-SLA-ն 'պարբերականության պահպանումը ապդեյտների կարգավիճակը։

12) Համագործակցել SLO-ի և թողարկումների հետ

CD-ում գեյտերը 'կոյուղաջրերը միայն կանաչ SLO-2019 (availability, p95, conv, TTW)։

Freeze-ընթացակարգերը 'fox-burn/SEV1-ի դեպքում, մինչև PIR-ը։

Գրաֆիկներում 'ֆոսֆորներ/դրոշներ/105 տեսանելի են դաշբորդների վրա։

13) Կարգավորողականությունը և կոմպլենսը

PII 'դիմակավորում/կեղծանունացում լոգարաններում/թրեյսներում, WORM-international-ում, մուտքի վերահսկում։

Իրողությունն այն է, որ օգտագործողի տվյալները չթողնել թույլատրված միգրացիայից դուրս։

Հաշվետվություններ ՝ ձևավորված նամակներ/ծանուցումներ կարգավորողներին 'ձևանմուշներ և էսկալացիայի գործընթաց։

14) Ուսուցում և պատրաստակամություն (Game-Day)

Եժեքվարտական ուսուցումները ՝ «PFC», «խաղերի պրովայդերը անհասանելի է», «p99 բարձրացում», «ստեղնաշարի արտահոսք»։

Timers MTTA/MTTR-ում, վարժությունների ռետրո։

Ռունաբուկների և կոնտակտների նորարարությունը, ChatOps թիմերի ստուգումը։

15) Չեկի թուղթ (մինչև 1934)

1. Համաձայնված SEV կանոնները և շարժասանդուղքների մատրիցը։

2. Նշանակված է on-call, IM/TL/Comics/Scribe։

3. Ռունաբուկները հիմնական սցենարներով (վճարումներ, խաղեր, BD, kashi, հերթեր)։

4. SLO քարտեզ և burn-rate ալերտներ, կարգավիճակ-էջ։

5. ChatOps-բոտ 'թիմեր, ավտոկոնտեքստ, ստատուսների օրինակներ։

6. PIR-ի ձևանմուշները և կոդավորման քարտերը։

7. Disgame-day-ը և հաղորդակցման/իրավունքների իրականացումը։

8. Freeze քաղաքականությունը և «կարմիր կոճակը» (rollback/kill-switch)։

16) Անտիպատերնի

Չկա մեկ IM, «ամբոխը առաջնորդում է» ռուսական քաոսը և ուշացումը։

SLO խաղացողների բացակայությունը ավելի ուշ դետեկտիվ է, աղմկոտ ալերտներ։

Ռելիզը առանց freeze-ի հանդիպման ժամանակ բացատրում է կասկադային ձախողումները։

Լոգերն ու թրեյսները բավարար չեն, չկա արտեֆակտներ, որոնք թույլ PIR-ն են։

Մեղադրական մշակույթը բացատրում է թաքնված սխալները, էսկալացիայի վախը։

«Ոգեշնչման» հաղորդակցությունը բացատրում է բիզնեսի/օգտագործողների վստահության կորցումը։

17) Ձևանմուշներ (պատճենեք ձեր wiki)

A) Մրցույթի քարտը (YAML)

yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"

B) Կարգավիճակ-ապդեյթ (ներքին)


[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im      TL: @oncall-pay

C) PIR (գլխարկ)


Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.

Արդյունքները

Միջադեպերի ուժեղ կառավարումը + կարգապահությունն է 'նախապես համաձայնեցված դերեր, SLO-gatts, պատրաստված ռունաբուկներ, թափանցիկ հաղորդակցություններ և «անխուսափելի» PIR։ Սա նվազեցնում է MTTA/MTTR-ն, նվազեցնում է հոսքերի արժեքը, ամրացնում օգտագործողների վստահությունը և թույլ է տալիս ավելի համարձակ, բայց ապահով։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։