Միջադեպերի կառավարում
(Բաժին ՝ Տեխնոլոգիաներ և ենթակառուցվածքներ)
Live ռեզյումե
Միջադեպերի կառավարումը կրկնվող գործընթաց է, որը արագ վերականգնում է ռուսական արժեքը և նվազեցնում բիզնեսի վնասը։ Օպորան հստակ դերեր են (Incident System, Tech Lead, Comics), SLO-գեյտեր, էսկալացիա, ChatOps գործընթացներ, պատրաստված ռունաբուկներ և «անխուսափելի» հետբուհական վերլուծություններ, որոնք չափված են items գործողությամբ։
1) Նպատակներն ու սկզբունքները
Արագությունն ու անվտանգությունը 'արագ ախտորոշումը հաստատվում է անվտանգ կայունացումով։
Միակ սեփականատերը 'նշանակված Incident Express (IM) ընդունում է պրոցեսորային լուծումներ։
Հաղորդակցությունը որպես ապրանք 'կանխատեսելի ապդեյտներ սթեյքհոլդերների և օգտագործողների համար։
Տվյալները> կարծիքները ՝ SLO/metrics/treiss/loga - ճշմարտության աղբյուրը։
Blameless: պատճառների վերլուծություն առանց անձնական գործողությունների; ֆոկուս տեխնոլոգիական բարելավումների վրա։
2) Կոդավորման դասակարգումը (Severity/Impact/Urgency)
Severity (օրինակ)։
SEV1 (կրիտիկական) 'եկամուտների լուրջ վնասը/TTW/www.am, օգտագործողների> 20 տոկոսը կամ ամբողջ տարածքները։ SLA-ն խախտված է/PII վտանգը։
SEV2 (բարձր) 'հիմնական հոսքերի մասնակի քայքայումը (պահեստային/տոկոսադրույքը/խաղերի մեկնարկը), 5-20 տոկոսի ազդեցությունը։
SEV3 (միջին) 'էքսպորտային ծառայությունների նկատելի քայքայումը, շրջանցումը։
SEV4 (ցածր) 'մինոր, սահմանափակ ազդեցություն, առանց SLO/SLA ազդեցության։
Impact: Ո՞ վ կանդրադառնա (բոլոր/տարածաշրջանը/տենանտ/ջրանցքը)։ Urgency: դեգրադացիայի արագությունը (fox-burn/slow-burn սխալներով)։
3) Կյանքի ցիկլը
1. Detault - ազդանշան ալերտներից/SLO/սինթետիկ/ռեպորտերից։
2. Acknowledge-on-call-ը ապացուցում է ընդունումը, որը կոչվում է IM։
3. Triage-ը SEV/Impact-ի գնահատականն է, հիպոթեզների հավաքումը, War-Room բացահայտումը։
4. Mitigate-ը էքսպիլիզացիա է (նվազեցում/անջատումը/ֆիչեֆլագի/մեծացումը)։
5. Communicate-ը ռուսական apdeit (ներսում/արտաքին) է։
6. Recover-ը SLO/բիզնես մետրի ամբողջական վերականգնումն է։
7. Close-ը քրոնոլոգիայի ամրագրումն է, արտեֆակտների հավաքումը, PIR (RCA + action items)։
4) Դերեր և պատասխանատվություններ (RACI-սխեմա)
Incident Express (IM) - գործընթացի սեփականատերը, որը կոչվում է դերեր, հետևում է ժամանակի ընթացքում, ընդունում է գործընթացային լուծումներ (R)։
Medical Lead (TL) - ախտորոշում/հիպոթեզներ/ֆիքսներ, արտադրում է ինժեներներ (A/R)։
Communications (Comics) - ապդեյտայի կարգավիճակ, կապ աջակցության/բիզնեսի/PR, կարգավիճակ-էջ (R)։
Scribe-ը արձանագրություն է (timline, լուծումներ, հղումներ, արտեֆակտներ) (R)։
Stakeholders - ապրանք/վճարումներ/խաղային պրովայդերներ/անվտանգություն (C/I)։
Առնվազն SEV1: IM + TL + Comics + Scribe-ում։ SEV2-ում նշված է դերերի պետական։
5) War-Room и ChatOps
Առանձին ալիքներ ՝ <# incident-warrome
Մոդելային թիմերը ՝ "/incident start ", "/status corate", "/call
Բոտը քաշում է համատեքստը 'վերջին ալգորիթմները, dashbords, որոնք կապված են alerts, trace exemplars, կախվածության սխեմաներ։
Հաղորդակցության կանոնները 'հակիրճ, փաստերով, մեկ բանախոսը (TL), IM-ն մոդերիզացնում է։
6) Ջիգերներ և խաղացողներ
SLO-gatts: fox/slow burn, վճարման հակադարձման նվազում, TTW p95> շեմն, p99 API-ը, ռուսական գծերը «այրվում են»։
Autage: stop canary, rollback, degrade ռեժիմի (գործառույթների սահմանափակում), բարձր հաճախականության սինթետիկ։
Freeze: Բոլոր թողարկումները/www.stop մինչև 2019 և PIR-ը։
7) Տիպիկ սցենարներ (ռունաբուկ-փամփուշտներ)
A) Վճարումներ ՝ թայմաուտների/ձախողումների աճ PBS-ում
1. Stop promote-ը և մետրոպոլիտենի խառնուրդի ածխաջրածինների սառեցումը։
2. Անցեք PSA-ի երթուղին պահեստային, բարձրացրեք թայմաուտ/ռետտա քաղաքականության վրա։
3. Ձախողված գործարքների իջեցում, կուռքեր ունեցող խոհարար։
4. Comics-ի հաղորդակցությունը sapport է. Արդյո՞ ք դուք աշխատում եք պահուստ։ ETA.
B) APIP p99 no և 5xx հետո
1. (blue-green/canary no stable)։
2. Ստուգել քաշ-հիթը, հերթերի խորությունը, ԲԴ/պրովայդերների տաք կետերը։
3. Ժամանակավոր մեծացումը, ծանր ֆիգների սահմանափակումը feature flags-ի միջոցով։
C) Խաղերի պրովայդերը հասանելի չէ
1. Անջատել մուտքը հասանելի ստուդիաների/խաղի վրա, ցույց տալ կարգավիճակի դրոշը։
2. Միացրեք սինթետիկ ստուգումները յուրաքանչյուր 30-60s։
3. Համաձայնեցնել փոխհատուցումը/բոնուսները (քաղաքականությամբ) - ներկայացնել PIR-ում։
D) Արտահոսք/կասկածություն PII
1. Բաղադրիչի մեկուսացումը, շարժիչների/հոսանքների վերականգնումը, լոգարանների հավաքումը (WORM)։
2. Իրավական հաղորդակցության/կարգավորողների իրականացումը։
3. Հետպատերազմյան գործողությունները 'գաղտնիություն-ռոտացիա, դիմակավորում, հասանելի։
8) Հաղորդակցություն (ներքին/արտաքին)
Ապդեյթի հաճախականությունը 'SEV1 - յուրաքանչյուր 15-30 րոպե, SEV2-30-60 ռուբլիներ
Ներքին կարգավիճակի ձևանմուշները
Ի՞ նչն է կոտրված. <<Դեպոզիտները PMS-X-ի միջոցով 'թայմաուտների աճը>>։
Ովքե՞ ր են ազդել «TR/RF» -ը, որը կազմում է հոսքի օգտագործողների 18 տոկոսը։
Երբ սկսվեց. <<12: 07 EET, SEV1>>։
Ի՞ նչ ենք անում, «Մենք տեղափոխում ենք երթուղին PMS-Y-ում, ներառում են ռելսեր/սահմանափակումներ»։
Հաջորդ ապդեյթը '«20 րոպե անց»։
Կոնտակտը ՝ «IM @ duty-im, TL @ oncall-2019»։
Հանրային կարգավիճակը (էջ/սոցիալական ցանցեր) կրճատված է, առանց PII և ավելացված մասերի, ETA-ից և հղում հետագա նորարարություններին։
9) Արտեֆակտների հավաքումը և աուդիտը
Իրադարձությունների թայմլինը (րոպեանոց ճշգրտություն), ծառայությունների, ֆիչի դրոշի տարբերակները, եզրերի փոփոխությունները։
Dashbords նկարները, մոտավոր հետքերը (trace _ id), լոգները «մինչև/հետո»։
Հղումները հյուսետներին, PR-ին, ալյումիններին, ռունաբուկներին։
Հաղորդակցության զեկույցը (երբ/ում/որ)։
Ամեն ինչ տեղադրվում է քարտեզի մեջ։
10) Մոսկվա և PIR (Post-Incident Review)
PIR ձևաչափը (կարճ)
Ռեզյումե 'ինչ տեղի ունեցավ, մասշտաբը, տևողությունը, SEV-ը։
Ազդեցությունը 'օգտագործողներ/տարածքներ, SLO/SLA, ֆին։ էֆեկտը։
Թայմլին 'մանրամասն, րոպեներով։
Root Cause: Տեխնիկական + կազմակերպական (ինչու՞ նախկինում չգնահատեցին)։
Detections & Corpores: Ի՞ նչն օգնեց/alerts, սինթետիկ, ֆիչեֆլագներ)։
Action Items: հատուկ առաջադրանքներ, սեփականատերեր, ժամկետներ (և ինչպես ստուգենք ազդեցությունը)։
Lessons Learned: Մենք փոխում ենք գործընթացը/ճարտարապետությունը/դիտարկումը։
Կանոնները 'առանց պահանջների, առավելագույն փաստերը, պարտադիր follow-up 2-4 շաբաթվա ընթացքում կատարված կետերի ստուգման միջոցով։
11) Գործընթացի հուսալիությունը
MTD (Mean Time To Detair) հայտնաբերման միջին ժամանակն է։
MTTA (… Acknowledge) - մինչև on-call հաստատումը։
MTTR (… Restore) - մինչև SLO վերականգնումը։
Change Failure Rate-ը ածխաջրածինների տոկոսն է, որոնք հանգեցրել են միջադեպերին։
Incident Rate-ը SEV-ով, տարածումը (Payments/Games/Infra)։
Alts Quality-ը աղմկոտ/կեղծ մասն է, ժամանակը մինչև ալերտից հետո։
Comm-SLA-ն 'պարբերականության պահպանումը ապդեյտների կարգավիճակը։
12) Համագործակցել SLO-ի և թողարկումների հետ
CD-ում գեյտերը 'կոյուղաջրերը միայն կանաչ SLO-2019 (availability, p95, conv, TTW)։
Freeze-ընթացակարգերը 'fox-burn/SEV1-ի դեպքում, մինչև PIR-ը։
Գրաֆիկներում 'ֆոսֆորներ/դրոշներ/105 տեսանելի են դաշբորդների վրա։
13) Կարգավորողականությունը և կոմպլենսը
PII 'դիմակավորում/կեղծանունացում լոգարաններում/թրեյսներում, WORM-international-ում, մուտքի վերահսկում։
Իրողությունն այն է, որ օգտագործողի տվյալները չթողնել թույլատրված միգրացիայից դուրս։
Հաշվետվություններ ՝ ձևավորված նամակներ/ծանուցումներ կարգավորողներին 'ձևանմուշներ և էսկալացիայի գործընթաց։
14) Ուսուցում և պատրաստակամություն (Game-Day)
Եժեքվարտական ուսուցումները ՝ «PFC», «խաղերի պրովայդերը անհասանելի է», «p99 բարձրացում», «ստեղնաշարի արտահոսք»։
Timers MTTA/MTTR-ում, վարժությունների ռետրո։
Ռունաբուկների և կոնտակտների նորարարությունը, ChatOps թիմերի ստուգումը։
15) Չեկի թուղթ (մինչև 1934)
1. Համաձայնված SEV կանոնները և շարժասանդուղքների մատրիցը։
2. Նշանակված է on-call, IM/TL/Comics/Scribe։
3. Ռունաբուկները հիմնական սցենարներով (վճարումներ, խաղեր, BD, kashi, հերթեր)։
4. SLO քարտեզ և burn-rate ալերտներ, կարգավիճակ-էջ։
5. ChatOps-բոտ 'թիմեր, ավտոկոնտեքստ, ստատուսների օրինակներ։
6. PIR-ի ձևանմուշները և կոդավորման քարտերը։
7. Disgame-day-ը և հաղորդակցման/իրավունքների իրականացումը։
8. Freeze քաղաքականությունը և «կարմիր կոճակը» (rollback/kill-switch)։
16) Անտիպատերնի
Չկա մեկ IM, «ամբոխը առաջնորդում է» ռուսական քաոսը և ուշացումը։
SLO խաղացողների բացակայությունը ավելի ուշ դետեկտիվ է, աղմկոտ ալերտներ։
Ռելիզը առանց freeze-ի հանդիպման ժամանակ բացատրում է կասկադային ձախողումները։
Լոգերն ու թրեյսները բավարար չեն, չկա արտեֆակտներ, որոնք թույլ PIR-ն են։
Մեղադրական մշակույթը բացատրում է թաքնված սխալները, էսկալացիայի վախը։
«Ոգեշնչման» հաղորդակցությունը բացատրում է բիզնեսի/օգտագործողների վստահության կորցումը։
17) Ձևանմուշներ (պատճենեք ձեր wiki)
A) Մրցույթի քարտը (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) Կարգավիճակ-ապդեյթ (ներքին)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (գլխարկ)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
Արդյունքները
Միջադեպերի ուժեղ կառավարումը + կարգապահությունն է 'նախապես համաձայնեցված դերեր, SLO-gatts, պատրաստված ռունաբուկներ, թափանցիկ հաղորդակցություններ և «անխուսափելի» PIR։ Սա նվազեցնում է MTTA/MTTR-ն, նվազեցնում է հոսքերի արժեքը, ամրացնում օգտագործողների վստահությունը և թույլ է տալիս ավելի համարձակ, բայց ապահով։