Էսկալացիայի մատրիցա
1) Մատրիցայի նշանակումը
Շարժասանդուղքների մատրիցը միասնական կանոններ է, որոնք միացված են, որպեսզի միջադեպերը արագ տեղափոխվեն քաոսից դեպի կառավարվող գործընթաց։ Նա ասում է
SEV մակարդակները և նրանց չափանիշները.
Թայմինգները (հայտնաբերումը www.apdayta);
դերեր/ալիքներ յուրաքանչյուր կոմպոզիցիայի համար;
բացառություններ (առանց «հանգիստ ժամերի» մրցույթի և կոմպլենսի համար);
կապակցում պլեյբուսների և դիրքի հետ։
2) Ծանրության դասակարգումը (SEV)
Հստակեցրեք թվերը ձեր տիրույթի և SLO-ի տակ։
3) Մոսկովյան մատրիցը «ով/երբ/որտեղ»
4) Էսկալացիայի ծառը (էությունը)
1. Կա՞ SLO-ի վրա հաստատված իմպակտ։
Այո 'նշանակել IC, հայտարարել SEV, բացել war-room։
Ոչ: ticket/դիտարկումը, առանց լանդշաֆտի։
2. Կա՞ ACK-ն ժամանակում։
Այո, մենք շարունակում ենք պլեյբուսով։
Ոչ: P2 www.IC 35DM (ժամանակի անտառ)։
3. Մոսկվա/արտահոսք/PII?
MedIR + Legal-ը միշտ համաձայնվում է։
4. Արտաքին պրովայդերը։
No. Vendor Owner-ի էսկալացիան, երթուղիների փոխակերպումը, կարգավիճակի ֆիքսը։
5) Դերերն ու պարտականությունները էսկալացիայի մեջ (կարճ)
P1 (Primary) 'եռյակը, պլեյբուկի սկիզբը, կապը IC-ի հետ։
P2 (Secondary) 'bakap, բարդ գործողություններ, կոնտեքստի պահպանում։
IC (Incident Commander), հայտարարում է SEV, լուծում է freeze/rollback, պահում տեմպը։
Duty Live: հեռացնում է արգելափակումները, վերաբաշխում ռեսուրսները, որոշում կայացնում։
Comics: կարգավիճակ-էջ, SLA-ի ապդեյտներ։
MedIR 'մեկուսացում, ֆորենզիկա, իրավաբանական ծանուցումներ։
Vendor Owner: արտաքին պրովայդերներ, switchover/fallback։
6) Ժամանակավոր դելդաները (արժեքները)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Էսկալացիոն անտառը ՝ P1 35P2 (5 մ) 35IC (10 մ) 35Duty Exec-call (30 մ)։
Տե՛ ս ՝ առանց ուշացումների և «հանգիստ ժամ», ապդեյտա q = 15 մ։
7) Միկրոօրգանիզացիա և սեգմենացիա
Ծառայության/տարածաշրջանի/տենանտին 'ուղղորդման բանալին = «07 + region + ten.ru»։
Զոնդերի Քվվորում 'ուղեկցել միայն 242 ռուսական աղբյուրների հաստատման ժամանակ (www.nthetic 2 տարածաշրջաններից + RUM/բիզնես SLI)։
Դեդուպը 'մեկ վարպետության ալերտ տասնյակ ախտանիշների փոխարեն (BD «կարմիր» կուլ է տալիս 5xx-աղմուկը)։
8) Բացառություններ և հատուկ ռեժիմներ
System/Legal: Express IR և Legal-ը հերթից դուրս; հանրային տեքստերը միայն կոդերի միջոցով։
Պրովայդերներ 'OLA/SLA առանձին մատրիցա (շփումներ, ժամացույցի գոտիներ, գերակայություն)։
Change Freeze-ը 'SEV-1/0-ում, ավտոմատ freeze ածխաջրածինների և ածխաջրածինների։
9) Մատրիցայի հասունության մետրիկները
Ack p95 (SEV-1/0) 245 ռուբլիներ
Time to Declare (մեդիան) թիվ 10
Comms SLA Adherence ≥ 95%.
Escalation Success (որոշվել է P1/P2 մակարդակում) 3870 տոկոսն է։
No-ACK escalations ↓ QoQ.
Vendor Response Time-ը կրիտիկական պրովայդերների մասին պայմանագրի սահմաններում։
10) Չեկ թերթերը
Ստացիոնար (on-call համար)
- Ռուսական իմպակտը SLO-ում և պոտենցիալ SEV-ում։
- Պատրաստվել է ACK-ը և նշանակվել IC (SEV-1/0 համար)։
- Բաց է war-room, պլեյբուկը կցված է։
- Ապդեյթ կարգավիճակը հրապարակվում է/պլանավորված է SLA-ով։
- Ներառված է freeze (եթե անհրաժեշտ է), պրովայդեր/անվտանգություն։
Պրոցեսոր (շաբաթական ակնարկ)
- Էսկալացիայի սանդուղքը աշխատել է SLA-ում։
- Արդյո՞ ք ավելորդ էսկալացիա չկար մինչև IC։
- Հաճախորդների ծանուցումները ժամանակին և ճշգրիտ են։
- Արդյո՞ ք կային բլոկներ (հասանելի, պրովայդերների շփումներ, «լուռ» ալիք)։
[CAPA-ը ձախողումների համար նույնպես աշխատանքի մեջ է։
11) Ձևանմուշներ
11. 1 Էսկալացիայի քաղաքականությունը (YAML գաղափար)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 «Ժամանակի էսկալացիա» (բոտի համար)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Առաջին հանրային ապդեյթ
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Մոսկվան
Alms-as-Code: Յուրաքանչյուր Page-կանոն տեղադրված է ուղիղ մեկ պլեյբուսի վրա և գիտի իր շարժասանդուղքների մատրիցը։
ChatOps: «/declare sev1 », «/page p2», «/status dementate », avto-timers apdeits։
CMDB/Կատալոգը ', on-call, մատրիցա, պրովայդերներ, ալիքներ։
Status page: SEV-1/0, apdeit պատմությունը, RCA հղումները։
13) Anti-patterna
«Մենք ամեն ինչ անմիջապես շրջում ենք» աղմուկը և պատասխանատվությունը։
Ոչ IC/war-room, լուծումները տարածվում են չատների վրա։
Առաջին ապդեյթի ուշացումը բողոքների ավելացումն է և PR ռիսկերը։
Միգրանցների համար բացառությունների բացակայությունը իրավաբանական ռիսկեր են։
Արտաքին պրովայդերները առանց սեփականատիրոջ և շփումների։
Սանդուղքը ավտոմատացված չէ, ամեն ինչ «բռնակի վրա»։
14) Ճանապարհի քարտեզը (3-5 շաբաթ)
1. Մոսկվան։ 1: ամրագրել SEV չափանիշները և թայմինգները; հավաքել դերերի/պրովայդերների շփումները; ընտրել ալիքները։
2. Մոսկվան։ 2: նկարագրել քաղաքականությունը (YAML), կապել Alert-as-Code-ին, ներառել փայտանյութը լայգերում/բոտում։
3. Մոսկվան։ 3: օդաչու 2-3 քննադատական ծառայություններում; կարգաբերել Comics SLA-ը և ձևանմուշները։
4. Մոսկվան։ 4-5 'ընդլայնել ծածկույթը, ներդնել շաբաթական Escalation Review-ը և հասունությունը։
15) Արդյունքը
Էսկալացիայի մատրիցը վիրահատական Մոսկվան է ՝ ով, երբ և ինչպես է միանում։ Պարզ SEV, timings, ալիքներ, բացառություններ պլեյբուսների և դիրքի ինտեգրման համար, թիմը արձագանքում է արագ, համակարգված և թափանցիկ, իսկ օգտագործողները տեսնում են կանխատեսելի դեղամիջոցներ և վստահելի վերականգնումներ։