GH GambleHub

Операциядагы ролдору жана милдеттери

1) Эмне үчүн ролдорду формалдаштыруу

Ролдорду так бөлүштүрүү MTTA/MTTR азайтат, "боз зоналарды" жок кылат, релиздерди тездетет жана SLO/комплаенс шайкештигин кайталанма кылат. Ролдор = жоопкерчилик + ыйгарым укуктар + интерфейстер (кимге жазабыз, кимге эскалация жасайбыз, кандай чечимдерге ыйгарым укук берилет).

2) Негизги RACI модели

R (Responsible) - ишти аткарат.
A (Accountable) - жыйынтыктоочу жоопкерчилик тартат жана чечимдерди кабыл алат.
C (Consulted) - эксперт, чейин/убагында кеңешет.
I (Informed) - SLA маалымдалат.

Жогорку деңгээлдеги мисал:
ПроцессARCI
Инциденттер (SEV-1/0)ICP1/P2, SRE, Owning TeamSecurity, Product, DataMgmt, Support
РелиздерRelease Manager/OwnerDev, Platform/SRESecurity, QASupport, Mgmt
Өзгөртүүлөр (RFC/CAB)CAB ChairService OwnerSecurity, SRE, DataAffected teams
Тейлөө терезелериService OwnerPlatform/SREProduct, SupportCustomers/Partners
Пост-мортемаларRCA LeadOwning Team, ScribeSecurity, Data, ProductMgmt

3) Ролдор каталогу (сүрөттөөлөр жана милдеттери)

3. 1 Incident Commander (IC)

Максаты: SEV-1/0 окуясына жоопту жетектейт.
Ыйгарым укуктар: SEV жарыялоо, релиздерди тоңдуруу, трафикти которуу, эскалациялоо.
Негизги милдеттери: таймлайн, чечим кабыл алуу, көңүл буруу, тапшырмаларды бөлүштүрүү, Go/No-Go.
Артефакттар: окуянын картасы, SLA боюнча жаңылыктары, акыркы AAR.

3. 2 P1/P2 On-Call (Primary/Secondary)

Максаты: негизги жооп жана техникалык иш-аракеттер.
P1: triage, playbook ишке киргизүү, IC менен байланыш.
P2: арткы, татаал өзгөрүүлөр, контекст сактоо, бороон-чапкын учурунда - сабпотокторду алат.

3. 3 SRE / Platform Engineer

Максаты: платформа жана тосмо ишенимдүүлүгү (SLO, Алерт, GitOps, Autoscale, DR).
Милдеттери: SLI/SLO, кооптуу гигиена, прогрессивдүү релиздер, код катары инфраструктура, capacity, observability.
Окуя учурунда: тамыр диагностикасы, спины/folback, degrade-UX киргизүү.

3. 4 Service Owner / Product Owner

Максаты: кызматтын бизнес маанисинде сапаты.
Милдеттери: SLO/артыкчылыктарын аныктоо, релиздерди/терезелерди макулдашуу, Go/No-Go катышуу.
Coms: чечим, качан жана Comms менен бирге кардарларга эмне деп.

3. 5 Release Manager

Максаты: өзгөрүүлөрдү коопсуз жеткирүү.
Тапшырмалар: релиздерди оркестрлөө, чекап гейтс, канарейка/көк-жашыл, релиздердин аннотациялары, окуяларда freeze.

3. 6 CAB Chair / Change Manager

Максаты: өзгөрүү тобокелдигин башкаруу.
Милдеттери: RFC жараяны, план/backout, чыр-календары, жогорку тобокелдик бекитүү.

3. 7 RCA Lead / Problem Manager

Максаты: пост-окуя талдоо, CAPA.
Милдеттери: таймлайн, далилдүү себеп, иш-аракет туура/алдын алуу, башкаруу D + 14/D + 30.

3. 8 Security (IR Lead, AppSec/CloudSec)

Максаты: коопсуздук жана коопсуздук инциденттерине жооп берүү.
Милдеттери: triage security-окуялар, ачкычтарды айлантуу, изоляция, форензия, жөнгө салуучу билдирүүлөр, WORM-аудит.

3. 9 DataOps / Analytics

Максаты: маалыматтардын жана пайплайндардын ишенимдүүлүгү.
Милдеттери: сергектик/сапат (DQ), маалымат келишимдери, lineage, backfills, SLA BI/отчеттор.

3. 10 FinOps

Максаты: башкарылуучу наркы.
Милдеттери: квоталар/лимиттер, отчеттор $/бирдик, бюджеттик гейтс, оптималдаштыруу (лог-көлөмдөр, egress, резервдер).

3. 11 Compliance / Legal

Максаты: жөнгө салуучу органдарга жана келишимдерге ылайык келүү.
Милдеттери: эскертүүлөрдүн мөөнөттөрү, retents/evidence өзгөрбөстүгү, коомдук тексттерди макулдашуу.

3. 12 Support / Comms

Максаты: кардарлар/ички стейкхолдерлер менен байланыш.
Милдеттери: статус-бет, апдейт макеттери, билдирүүлөрдүн жыштыгы жана тактыгы, пикир чогултуу.

3. 13 Vendor Manager / Provider Owner

Максаты: тышкы провайдерлер менен мамилелер (PSP/KYC/CDN ж.б.).
Милдеттери: эскалация, SLA/OLA, резервдик каттамдар, терезелерди координациялоо.

4) өзгөрүү жана эскалация ролу

Өзгөртүү: P1/P2 + IC-of-the-day (P1 менен айкалыштыруу эмес).
Убакыттын эскалациясы: P1 → P2 (ACK жок 5 мин) → IC (10 мин) → Duty Manager (15 мин).
Quiet Hours: P2/P3 сигналдары ойготпойт; коопсуздук сигналдары - ар дайым.

5) Өз ара интерфейстер (ким менен жана кантип)

IC Release Manager: freeze/rollback solutions.
IC Comms: жаңыртылган тексттер жана жыштык.
SRE, DataOps: бизнес-SLI (төлөмдөрдүн ийгилиги, маалыматтардын сергектиги) SLO-гардрейл.
Security Legal: коопсуздук инциденттери жөнүндө билдирүүлөр, билдирүүлөрдүн мөөнөттөрү.
Vendor Owner IC: провайдер статусу, switchover/фолбэк.

6) Ролдор боюнча KPI

IC: Time-to-Declare, Comms SLA, MTTR SEV-1/0 ылайык.
P1/P2: MTTA, Time-to-First-Action,% ойноткучтарды ээрчип.
SRE/Platform: SLO coverage, Alert Hygiene,% auto racks ийгиликтүү.
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
DataOps: Freshness SLO Adherence, Success Rate арткы.
Comms: Status Accuracy, Complaint Rate/окуя.
FinOps: $/бирдиги,% экономия QoQ, квота сактоо.

7) Ролу карта үлгүлөрү

7. 1 IC карта


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 Карта P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 Release Manager карта


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) Процесстер жана ролдордун катышуусу (кыскача маалымат)

ПроцессICP1/P2SRE/PlatformOwnerReleaseCABSecurityDataOpsCommsVendor
ОкуяARRCIICCRC
ЧыгарууIICARCCCII
RFC/ТерезеIIRACACCCC
Пост-мортемARRCCICCII

A — Accountable, R — Responsible, C — Consulted, I — Informed.

9) Чек-баракчалар

9. 1 Ролдорду дайындоо

  • Ар бир ролу ээси, орун басары жана камтуу аянты бар.
  • Ыйгарым укуктар сүрөттөлөт (кандай чечимдерди кабыл алат).
  • плейбуктар жана байланыш каналдары байланган.
  • Жарыяланган SLA жооп/coms.
  • ролу каталогдо жеткиликтүү (CMDB) ар бир кызмат.

9. 2 өзгөртүү жана handover

  • Карта өзгөртүү (активдүү окуялар, тобокелдиктер, терезелер).
  • JIT/JEA жетүү текшерилген.
  • Каналга жаңырык билдирүү: "өзгөртүү кабыл алынды/берилди".

9. 3 Пост-окуя

  • AAR өткөрүлдү, RCA дайындалды.
  • ээлери/мөөнөттөрү менен CAPA, D + 14/D + 30 көзөмөл.
  • такташты playbook/алерта/саясат.

10) Анти-үлгүлөрү

Бүдөмүк "ким чечет" → кечигүү жана кош күч.
IC P1 менен айкалыштырылган - башкаруу жоготуу.
Legal/Comms менен макулдугусуз коомдук коммс.
Release Manager жана Gates жок бошотуу → CFR өсүшү.
Ролдорду резервациялоонун жоктугу (оору/эс алуу).
"Баатырдык" процесстин ордуна: кол менен куткарабыз, бирок тосмону бекитпейбиз.
Ролдор CMDB/тейлөө каталогунда чагылдырылбайт → жоголгон эскалациялар.

11) Аспаптарга киргизүү

ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Каталог/CMDB: сервисте - ээси, on-call, SLO, дашборддор, плейбуктар, терезелер.
Alert-as-Code: ар бир Page owner жана playbook демейки бар.
GitOps: IC/Release чечимдери релиздердин жана тикеттердин аннотацияларында чагылдырылат.

12) ролдорду бөлүштүрүү жетилгендик Метрика

каталогдордо ролдору Coverage: ≥ 100% маанилүү кызматтар.
On-call SLA: Ack p95 ≤ 5 мин; Page Storm p95 көзөмөлдө.
Postmortem SLA: долбоор ≤ 72h; CAPA completion ≥ 85%.
Өзгөрүү башкаруу: RFC/CAB менен жогорку тобокелдик өзгөрүүлөр% ≥ 95%.
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.

13) Mini үлгүлөрү

13. 1 кызмат үчүн RACI (репо файл)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 ролу кароо (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) Жыйынтык

Ролдор ачык-айкын, ыйгарым укуктар менен камсыз болгондо жана инструменттерге орнотулганда операциялар туруктуу. Ролдордун каталогу, RACI, ар бир ролу боюнча так интерфейстер жана метриктер инциденттерди, релиздерди жана өзгөрүүлөрдү башкарылуучу процесстерге айландырат: чечимдер тез кабыл алынат, тобокелдиктер көзөмөлдөнөт жана колдонуучулар туруктуу кызматты көрүшөт.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.