Դերերն ու պարտականությունները վիրահատություններում
1) Ինչո՞ ւ ձևավորել դերերը
Դերերի ռուսական բաշխումը նվազեցնում է MTTA/MTTR-ը, վերացնում է «մոխրագույն գոտիները», արագացնում ալգորիթմները և դարձնում SLO/կոմպլաենսին վերարտադրված։ Դերերը = պատասխանատվություն + լիազորություններ + ինտերֆեյսներ (ում մենք գրում ենք, թե ում ենք մենք, ինչ որոշումներ են լիազորված)։
2) DirectRACI-մոդելը
R (Responsible) - կատարում է աշխատանքը։
A (Accountable) - պատասխանատու է և որոշումներ կայացնում։
C (Consensed) - փորձագետ, խորհրդակցում է մինչև/ժամանակ։
I (Informed) - տեղեկացված է SLA-ով։
Բարձր մակարդակի օրինակ
3) Դերերի կատալոգը (նկարագրություններ և պարտականություններ)
3. 1 Incident Commander (IC)
Նպատակը 'առաջնորդում է SEV-1/0 պատահարի պատասխանը։
Լիազորությունները 'հայտարարել SEV, սառեցնել ածխաջրածինները, անցնել կոդերը, էսկալացնել։
Հիմնական առաջադրանքները ՝ թայմլայնը, որոշումների ընդունումը, ֆոկուսի պահպանումը, առաջադրանքների բաշխումը, Go/J-Go։
Արտեֆակտներ ՝ մրցույթի քարտը, SLA-ն, AAR-ը։
3. 2 P1/P2 On-Call (Primary/Secondary)
Նպատակը 'առաջնային արձագանք և տեխնոլոգիական գործողություններ։
P1: Եռյակը, պլեյբուսների արձակումը, կապը IC-ի հետ։
P2: bakap, բարդ փոփոխություններ, համատեքստը պահպանելը, փոթորիկների ժամանակ, վերցնում է սաբպոտոկները։
3. 3 SRE / Platform Engineer
Նպատակը 'պլատֆորմի և փետուրի (SLO, ալերտներ, GitOps, ավտո սկեյլ, DR)։
Առաջադրանքները ՝ SLI/SLO, alert-հիգիենան, առաջադեմ ենթակառուցվածքները, որպես կոդ, capacity, observability։
Հետաքննության ընթացքում 'արմատի ախտորոշումը, ցողունները/ֆոլբեքները, degrade-UX-ը։
3. 4 Service Owner / Product Owner
Նպատակը 'գործընկերության որակը բիզնեսի իմաստով։
Առաջադրանքները 'SLO/առաջնահերթություններ, օրինագծեր/պատուհաններ, մասնակցություն Go/J-Go-ում։
Կոմս 'լուծում, երբ և ինչ խոսել հաճախորդներին Comics-ի հետ։
3. 5 Release Manager
Նպատակը 'փոփոխությունների անվտանգ տեղափոխումն է։
Առաջադրանքներ 'առյուծների նվագախումբ, խաղացողների ստուգում, կանարեյկա/կապույտ-գրեեն, օրինագծերի ծանոթագրություններ, միջադեպերի ժամանակ ֆրեզե։
3. 6 CAB Chair / Change Manager
Նպատակը վարչական փոփոխությունների ղեկավարումն է։
Առաջադրանքները ՝ RFC գործընթացը, պլանը/backout, հակամարտությունների օրացույցը, high-risk հաստատումը։
3. 7 RCA Lead / Problem Manager
Նպատակը 'հետպատերազմյան վերլուծություն, CAPA։
Առաջադրանքները ՝ թայմլայնը, ապացույցները, գործողությունները շտկելու/կանխելու, D + 14/D + 30 վերահսկողությունը։
3. 8 Security (IR Lead, AppSec/CloudSec)
Նպատակը 'անվտանգությունն ու արձագանքը անվտանգության միջադեպերին։
Առաջադրանքները 'triage-իրադարձությունների, միգրացիայի լուծումը, մեկուսացումը, ֆորենզիկան, կարգավորող ծանուցումները, WORM-աուդիտը։
3. 9 DataOps / Analytics
Նպատակը 'տվյալների և պլայնների տեղադրումը։
Առաջադրանքները 'թարմ/որակը (DQ), տվյալների պայմանագրերը, lineage, backfill, SLA BI/2019։
3. 10 FinOps
Նպատակը 'կառավարվող արժեքը։
Առաջադրանքներ ՝ քվոտաներ/լիմիտներ, ԱՄՆ դոլար/միավորի հաշվետվություններ, ռուսական խաղացողներ, օպտիմիզացում (լոգ ծավալներ, egress, պահեստավորում)։
3. 11 Compliance / Legal
Նպատակը կարգավորիչի և պայմանագրերի համապատասխանությունն է։
Առաջադրանքները 'ծանուցումների ժամկետները, վերականգնումը/էվիդենցիայի անփոփոխությունը, հանրային տեքստերի իրականացումը։
3. 12 Support / Comms
Նպատակը 'հաղորդակցվել հաճախորդների հետ/ներքին սթեյքհոլդերների հետ։
Առաջադրանքներ 'կարգավիճակ-էջ, ապդեյտների մոդելներ, հաղորդագրությունների հաճախականությունը և հստակությունը, հետադարձ կապի հավաքումը։
3. 13 Vendor Manager / Provider Owner
Նպատակը 'արտաքին պրովայդերների հետ հարաբերությունները (PMS/KYC/CDN և այլն)։
Առաջադրանքները 'էսկալացիա, SLA/OLA, պահեստային երթուղիներ, պատուհանների կոորդինացիա։
4) Հերթափոխի և էսկալացիայի դերերը
Փոփոխությունը ՝ P1/P2 + IC-of-the-day (չմիացնել P1)։
Ժամանակի էսկալացիաները ՝ P1 no P2 (5 րոպե առանց ack) No. IC (10 րոպե) No. Duty Express (15 րոպե)։
Quiet Hours: P2/P3 ազդանշանները չեն ընկնի։ ազդանշաններ միշտ։
5) Փոխազդեցության ինտերֆեյսները (ով և ինչպես)
IC no Rele.Ru: freeze/rollback լուծումներ։
IC no Comics: apdeit տեքստերը և հաճախականությունը։
MSE Windows Ops: բիզնես SLI (վճարումների հաջողությունը, տվյալների թարմությունը) SLO գարդրեյներում։
Internet Legal: հաղորդագրությունները պատահականության մասին, ծանուցումների ժամկետները։
Vendor Owner no IC 'պրովայդերի կարգավիճակ, switchover/folbek։
6) KPI դերերով (ուղեցույցներ)
IC: Time-to-Declare, Comics SLA, MTTR-1/0։
P1/P2: MTTA, Time-to-First-Action, պլեյբուսների հետևման տոկոսը։
MSE/Platform: SLO coverage, Alts Hygiene, ավտոմեքենաների տոկոսը հաջողակ է։
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
WindoOps: Freshness SLO Adherence, Success Rate backfill։
Comics: Status Accuracy, Complaint Rate/պատահականություն։
FinOps: դոլար/միավոր, QoQ խնայողությունների տոկոսը, քվոտաների պահպանումը։
7) Դերերի քարտերի օրինակներ
7. 1 IC քարտը
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 քարտը
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Releant Express քարտը
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Գործընթացներ և դերերի մասնակցություն (կամար)
A — Accountable, R — Responsible, C — Consulted, I — Informed.
9) Չեկ թերթերը
9. 1 Դերերի նշանակումը
- Յուրաքանչյուր դեր ունի սեփականատեր, պաշտպանիչ և գոտի։
- Նկարագրված է լիազորությունները (ո՞ ր որոշումները կարող են կայացնել)։
- Կապվում են պլեյբուսները և հաղորդակցման ալիքները։
- Հրապարակվել է SLA արձագանքի/կոմունայի վրա։
- Դերը հասանելի է յուրաքանչյուր կոմպոզիցիայում (CMDB)։
9. 2 Փոփոխություն և handover
- Փոփոխության քարտը նորարարված է (ակտիվ պատահարներ, ռիսկեր, պատուհաններ)։
- JIT/JLS հասանելի ստուգված են։
- Էխո հաղորդագրությունը ջրանցքում. <<Փոփոխություն/հանձնվել>>։
9. 3 Փոստի պատահականություն
- AAR 2019, RCA նշանակված։
- CAPA սեփականատերերի/ժամկետների հետ, D + 14/D + 30 վերահսկողություն։
- Պլեյբուկները/ալերտները/քաղաքականությունները նորարարված են։
10) Anti-patternes
Անհասկանալի «ով որոշում է» ուշացումներ և ջանքեր։
IC-ը համակցված է P1-ի հետ 'ղեկավարության կորուստ։
Հանրային համայնքները առանց Legal/Comics-ի։
Առանց Releant Tramp-ի և խաղացողների ռելիզը ցույց տվեց CFR-ի աճը։
Ռուսական դերերի բացակայությունը (հիվանդություն/արձակուրդ)։
«Հերոսությունը» գործընթացի փոխարեն 'մենք փրկում ենք ձեռքով, բայց չենք արձանագրում փետուրները։
Դերերը չեն արտահայտվում CMDB/www.ru-ում ռուսական կորցրած էսկալացիաները։
11) Գործիքներ տեղադրելը
ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Կատալոգը/CMDB: Հյուրանոցը սեփականատեր է, on-call, SLO, dashbords, պլեյբուսներ, պատուհաններ։
Alms-as-Code: յուրաքանչյուր Page ունի owner և պլեյբուկ լռելյայն։
GitOps: IC/Rele.ru լուծումները արտահայտվում են ածխաջրածինների և հյուսվածքների սենսացիաներում։
12) Չափահաս դերերի բաշխման մետրիկները
Coverage-ում դերերը ՝ կրիտիկական ծառայությունների 100 տոկոսը։
On-call SLA: Ack p95-5 րոպե; Page Storm p95-ը վերահսկողության տակ է։
Postmortem SLA: Չեռնովիկ No. 72ch; CAPA completion ≥ 85%.
Change governae: % high-risk փոփոխությունը RFC/CAB-ի հետ 95 տոկոսն է։
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.
13) Մինի ձևանմուշները
13. 1 RACI-ի համար (ֆայլը ռեպոյի մեջ)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Դերի պրոֆիլը (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Արդյունքը
Վիրահատությունները կայուն են, երբ դերերը թափանցիկ են, ապահովված են պարամետրերով և ներկառուցված են գործիքների մեջ։ Դերերի կատալոգը, RACI-ը, հստակ ինտերֆեյսները և մետրիկները յուրաքանչյուր դերի վրա վերածում են միջադեպերի, օրինագծերի և փոփոխությունների կառավարման գործընթացների, լուծումները արագ ընդունվում են, ռիսկերը վերահսկվում են, իսկ օգտագործողները տեսնում են կայուն ծառայություն։