GH GambleHub

Դերերն ու պարտականությունները վիրահատություններում

1) Ինչո՞ ւ ձևավորել դերերը

Դերերի ռուսական բաշխումը նվազեցնում է MTTA/MTTR-ը, վերացնում է «մոխրագույն գոտիները», արագացնում ալգորիթմները և դարձնում SLO/կոմպլաենսին վերարտադրված։ Դերերը = պատասխանատվություն + լիազորություններ + ինտերֆեյսներ (ում մենք գրում ենք, թե ում ենք մենք, ինչ որոշումներ են լիազորված)։

2) DirectRACI-մոդելը

R (Responsible) - կատարում է աշխատանքը։

A (Accountable) - պատասխանատու է և որոշումներ կայացնում։

C (Consensed) - փորձագետ, խորհրդակցում է մինչև/ժամանակ։

I (Informed) - տեղեկացված է SLA-ով։

Բարձր մակարդակի օրինակ

ԳործընթացըARCI
(SEV-1/0)ICP1/P2, SRE, Owning TeamSecurity, Product, DataMgmt, Support
ԱլգորիթմներRelease Manager/OwnerDev, Platform/SRESecurity, QASupport, Mgmt
Փոփոխությունները (RFC/CAB)CAB ChairService OwnerSecurity, SRE, DataAffected teams
Ծառայության պատուհաններService OwnerPlatform/SREProduct, SupportCustomers/Partners
Փոստ-մորտեմներRCA LeadOwning Team, ScribeSecurity, Data, ProductMgmt

3) Դերերի կատալոգը (նկարագրություններ և պարտականություններ)

3. 1 Incident Commander (IC)

Նպատակը 'առաջնորդում է SEV-1/0 պատահարի պատասխանը։

Լիազորությունները 'հայտարարել SEV, սառեցնել ածխաջրածինները, անցնել կոդերը, էսկալացնել։

Հիմնական առաջադրանքները ՝ թայմլայնը, որոշումների ընդունումը, ֆոկուսի պահպանումը, առաջադրանքների բաշխումը, Go/J-Go։

Արտեֆակտներ ՝ մրցույթի քարտը, SLA-ն, AAR-ը։

3. 2 P1/P2 On-Call (Primary/Secondary)

Նպատակը 'առաջնային արձագանք և տեխնոլոգիական գործողություններ։

P1: Եռյակը, պլեյբուսների արձակումը, կապը IC-ի հետ։

P2: bakap, բարդ փոփոխություններ, համատեքստը պահպանելը, փոթորիկների ժամանակ, վերցնում է սաբպոտոկները։

3. 3 SRE / Platform Engineer

Նպատակը 'պլատֆորմի և փետուրի (SLO, ալերտներ, GitOps, ավտո սկեյլ, DR)։

Առաջադրանքները ՝ SLI/SLO, alert-հիգիենան, առաջադեմ ենթակառուցվածքները, որպես կոդ, capacity, observability։

Հետաքննության ընթացքում 'արմատի ախտորոշումը, ցողունները/ֆոլբեքները, degrade-UX-ը։

3. 4 Service Owner / Product Owner

Նպատակը 'գործընկերության որակը բիզնեսի իմաստով։

Առաջադրանքները 'SLO/առաջնահերթություններ, օրինագծեր/պատուհաններ, մասնակցություն Go/J-Go-ում։

Կոմս 'լուծում, երբ և ինչ խոսել հաճախորդներին Comics-ի հետ։

3. 5 Release Manager

Նպատակը 'փոփոխությունների անվտանգ տեղափոխումն է։

Առաջադրանքներ 'առյուծների նվագախումբ, խաղացողների ստուգում, կանարեյկա/կապույտ-գրեեն, օրինագծերի ծանոթագրություններ, միջադեպերի ժամանակ ֆրեզե։

3. 6 CAB Chair / Change Manager

Նպատակը վարչական փոփոխությունների ղեկավարումն է։

Առաջադրանքները ՝ RFC գործընթացը, պլանը/backout, հակամարտությունների օրացույցը, high-risk հաստատումը։

3. 7 RCA Lead / Problem Manager

Նպատակը 'հետպատերազմյան վերլուծություն, CAPA։

Առաջադրանքները ՝ թայմլայնը, ապացույցները, գործողությունները շտկելու/կանխելու, D + 14/D + 30 վերահսկողությունը։

3. 8 Security (IR Lead, AppSec/CloudSec)

Նպատակը 'անվտանգությունն ու արձագանքը անվտանգության միջադեպերին։

Առաջադրանքները 'triage-իրադարձությունների, միգրացիայի լուծումը, մեկուսացումը, ֆորենզիկան, կարգավորող ծանուցումները, WORM-աուդիտը։

3. 9 DataOps / Analytics

Նպատակը 'տվյալների և պլայնների տեղադրումը։

Առաջադրանքները 'թարմ/որակը (DQ), տվյալների պայմանագրերը, lineage, backfill, SLA BI/2019։

3. 10 FinOps

Նպատակը 'կառավարվող արժեքը։

Առաջադրանքներ ՝ քվոտաներ/լիմիտներ, ԱՄՆ դոլար/միավորի հաշվետվություններ, ռուսական խաղացողներ, օպտիմիզացում (լոգ ծավալներ, egress, պահեստավորում)։

3. 11 Compliance / Legal

Նպատակը կարգավորիչի և պայմանագրերի համապատասխանությունն է։

Առաջադրանքները 'ծանուցումների ժամկետները, վերականգնումը/էվիդենցիայի անփոփոխությունը, հանրային տեքստերի իրականացումը։

3. 12 Support / Comms

Նպատակը 'հաղորդակցվել հաճախորդների հետ/ներքին սթեյքհոլդերների հետ։

Առաջադրանքներ 'կարգավիճակ-էջ, ապդեյտների մոդելներ, հաղորդագրությունների հաճախականությունը և հստակությունը, հետադարձ կապի հավաքումը։

3. 13 Vendor Manager / Provider Owner

Նպատակը 'արտաքին պրովայդերների հետ հարաբերությունները (PMS/KYC/CDN և այլն)։

Առաջադրանքները 'էսկալացիա, SLA/OLA, պահեստային երթուղիներ, պատուհանների կոորդինացիա։

4) Հերթափոխի և էսկալացիայի դերերը

Փոփոխությունը ՝ P1/P2 + IC-of-the-day (չմիացնել P1)։

Ժամանակի էսկալացիաները ՝ P1 no P2 (5 րոպե առանց ack) No. IC (10 րոպե) No. Duty Express (15 րոպե)։

Quiet Hours: P2/P3 ազդանշանները չեն ընկնի։ ազդանշաններ միշտ։

5) Փոխազդեցության ինտերֆեյսները (ով և ինչպես)

IC no Rele.Ru: freeze/rollback լուծումներ։

IC no Comics: apdeit տեքստերը և հաճախականությունը։

MSE Windows Ops: բիզնես SLI (վճարումների հաջողությունը, տվյալների թարմությունը) SLO գարդրեյներում։

Internet Legal: հաղորդագրությունները պատահականության մասին, ծանուցումների ժամկետները։

Vendor Owner no IC 'պրովայդերի կարգավիճակ, switchover/folbek։

6) KPI դերերով (ուղեցույցներ)

IC: Time-to-Declare, Comics SLA, MTTR-1/0։

P1/P2: MTTA, Time-to-First-Action, պլեյբուսների հետևման տոկոսը։

MSE/Platform: SLO coverage, Alts Hygiene, ավտոմեքենաների տոկոսը հաջողակ է։

Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.

WindoOps: Freshness SLO Adherence, Success Rate backfill։

Comics: Status Accuracy, Complaint Rate/պատահականություն։

FinOps: դոլար/միավոր, QoQ խնայողությունների տոկոսը, քվոտաների պահպանումը։

7) Դերերի քարտերի օրինակներ

7. 1 IC քարտը


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 P1/P2 քարտը


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 Releant Express քարտը


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) Գործընթացներ և դերերի մասնակցություն (կամար)

ԳործընթացըICP1/P2SRE/PlatformOwnerReleaseCABSecurityDataOpsCommsVendor
ՊատահականությունARRCIICCRC
ՌելիզըIICARCCCII
RFC/ՊատուհանIIRACACCCC
Post-MortemARRCCICCII

A — Accountable, R — Responsible, C — Consulted, I — Informed.

9) Չեկ թերթերը

9. 1 Դերերի նշանակումը

  • Յուրաքանչյուր դեր ունի սեփականատեր, պաշտպանիչ և գոտի։
  • Նկարագրված է լիազորությունները (ո՞ ր որոշումները կարող են կայացնել)։
  • Կապվում են պլեյբուսները և հաղորդակցման ալիքները։
  • Հրապարակվել է SLA արձագանքի/կոմունայի վրա։
  • Դերը հասանելի է յուրաքանչյուր կոմպոզիցիայում (CMDB)։

9. 2 Փոփոխություն և handover

  • Փոփոխության քարտը նորարարված է (ակտիվ պատահարներ, ռիսկեր, պատուհաններ)։
  • JIT/JLS հասանելի ստուգված են։
  • Էխո հաղորդագրությունը ջրանցքում. <<Փոփոխություն/հանձնվել>>։

9. 3 Փոստի պատահականություն

  • AAR 2019, RCA նշանակված։
  • CAPA սեփականատերերի/ժամկետների հետ, D + 14/D + 30 վերահսկողություն։
  • Պլեյբուկները/ալերտները/քաղաքականությունները նորարարված են։

10) Anti-patternes

Անհասկանալի «ով որոշում է» ուշացումներ և ջանքեր։

IC-ը համակցված է P1-ի հետ 'ղեկավարության կորուստ։

Հանրային համայնքները առանց Legal/Comics-ի։

Առանց Releant Tramp-ի և խաղացողների ռելիզը ցույց տվեց CFR-ի աճը։

Ռուսական դերերի բացակայությունը (հիվանդություն/արձակուրդ)։

«Հերոսությունը» գործընթացի փոխարեն 'մենք փրկում ենք ձեռքով, բայց չենք արձանագրում փետուրները։

Դերերը չեն արտահայտվում CMDB/www.ru-ում ռուսական կորցրած էսկալացիաները։

11) Գործիքներ տեղադրելը

ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.

Կատալոգը/CMDB: Հյուրանոցը սեփականատեր է, on-call, SLO, dashbords, պլեյբուսներ, պատուհաններ։

Alms-as-Code: յուրաքանչյուր Page ունի owner և պլեյբուկ լռելյայն։

GitOps: IC/Rele.ru լուծումները արտահայտվում են ածխաջրածինների և հյուսվածքների սենսացիաներում։

12) Չափահաս դերերի բաշխման մետրիկները

Coverage-ում դերերը ՝ կրիտիկական ծառայությունների 100 տոկոսը։

On-call SLA: Ack p95-5 րոպե; Page Storm p95-ը վերահսկողության տակ է։

Postmortem SLA: Չեռնովիկ No. 72ch; CAPA completion ≥ 85%.

Change governae: % high-risk փոփոխությունը RFC/CAB-ի հետ 95 տոկոսն է։

Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.

13) Մինի ձևանմուշները

13. 1 RACI-ի համար (ֆայլը ռեպոյի մեջ)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 Դերի պրոֆիլը (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) Արդյունքը

Վիրահատությունները կայուն են, երբ դերերը թափանցիկ են, ապահովված են պարամետրերով և ներկառուցված են գործիքների մեջ։ Դերերի կատալոգը, RACI-ը, հստակ ինտերֆեյսները և մետրիկները յուրաքանչյուր դերի վրա վերածում են միջադեպերի, օրինագծերի և փոփոխությունների կառավարման գործընթացների, լուծումները արագ ընդունվում են, ռիսկերը վերահսկվում են, իսկ օգտագործողները տեսնում են կայուն ծառայություն։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։