Operatsiyalardagi roli va majburiyatlari
1) Nega rollarni rasmiylashtirish
Rollarning aniq taqsimlanishi MTTA/MTTRni kamaytiradi, «kulrang zonalarni» yo’q qiladi, relizlarni tezlashtiradi va SLO/komplayensni takrorlanuvchan qiladi. Rollar = javobgarlik + vakolatlar + interfeyslar (kimga yozamiz, kimga eskalatsiya qilamiz, qanday qarorlar qabul qilishga vakolatli).
2) Bazaviy RACI-model
R (Responsible) - ishni bajaradi.
A (Accountable) - yakuniy javobgar bo’ladi va qarorlar qabul qiladi.
C (Consulted) - ekspert.
I (Informed) - SLA bo’yicha xabardor qilinadi.
3) Rollar katalogi (tavsiflari va majburiyatlari)
3. 1 Incident Commander (IC)
Maqsad: SEV-1/0 hodisasiga javobni boshqaradi.
Vakolatlari: SEV e’lon qilish, relizlarni muzlatish, trafikni o’zgartirish, eskalatsiya qilish.
Asosiy vazifalar: taymline, qaror qabul qilish, diqqatni saqlash, vazifalarni taqsimlash, Go/No-Go.
Artefaktlar: hodisa kartochkasi, SLA bo’yicha yangilanishlar, yakuniy AAR.
3. 2 P1/P2 On-Call (Primary/Secondary)
Maqsad: birlamchi javob va texnik harakatlar.
P1: triaj, pleybuklarni ishga tushirish, IC bilan aloqa.
P2: bekap, murakkab o’zgarishlar, kontekstni ushlab turish, bo’ronlar paytida - sabpotoklarni oladi.
3. 3 SRE / Platform Engineer
Maqsad: platforma va panjara ishonchliligi (SLO, alertlar, GitOps, avtoskeyl, DR).
Vazifalar: SLI/SLO, alert gigiyena, progressiv relizlar, kod sifatida infratuzilma, capacity, observability.
Hodisa paytida: ildiz diagnostikasi, orqaga qaytish/folbeklar, degrade-UX yoqish.
3. 4 Service Owner / Product Owner
Maqsad: biznes nuqtai nazaridan xizmat ko’rsatish sifati.
Vazifalar: SLO/ustuvorliklarni aniqlash, relizlar/derazalarni kelishish, Go/No-Go’da ishtirok etish.
Comms: Comms bilan birga mijozlarga qachon va nima deyish kerak.
3. 5 Release Manager
Maqsad: o’zgarishlarni xavfsiz yetkazib berish.
Vazifalari: relizlarni orkestrlash, chekap geytlari, kanareyka/blue-green, relizlarni izohlash, hodisalarda freeze.
3. 6 CAB Chair / Change Manager
Maqsad: o’zgarish xavfini boshqarish.
Vazifalar: RFC jarayoni, reja/backout, mojarolar taqvimi, yuqori xavfni tasdiqlash.
3. 7 RCA Lead / Problem Manager
Maqsad: hodisadan keyingi tahlil, CAPA.
Vazifalar: taymline, dalillar sababi, xatti-harakatlarni tuzatish/oldini olish, nazorat D + 14/D + 30.
3. 8 Security (IR Lead, AppSec/CloudSec)
Maqsad: xavfsizlik va xavfsizlik hodisalariga javob berish.
Vazifalar: triage security-hodisalar, kalitlarni almashtirish, izolyatsiya, forenzika, tartibga soluvchi bildirishnomalar, WORM-audit.
3. 9 DataOps / Analytics
Maqsad: maʼlumotlar va payplaynlarning ishonchliligi.
Vazifalar: yangilik/sifat (DQ), ma’lumotlar kontraktlari, lineage, backfilllar, SLA BI/hisobotlar.
3. 10 FinOps
Maqsad: boshqariladigan qiymat.
Vazifalari: kvotalar/limitlar, $/birlik hisobotlari, budjet geytlari, optimallashtirish (log-hajmlar, egress, zaxiraga qo’yish).
3. 11 Compliance / Legal
Maqsad: tartibga solish va kontraktlarga muvofiqlik.
Vazifalar: xabardor qilish muddatlari, retensiya/evidence o’zgarmasligi, ommaviy matnlarni kelishish.
3. 12 Support / Comms
Maqsad: mijozlar/ichki steykxolderlar bilan muloqot qilish.
Vazifalar: maqom-sahifa, yangiliklar maketlari, xabarlarning chastotasi va aniqligi, fikr-mulohazalarni toʻplash.
3. 13 Vendor Manager / Provider Owner
Maqsad: tashqi provayderlar bilan munosabatlar (PSP/KYC/CDN va h.k.).
Vazifalar: eskalatsiyalar, SLA/OLA, zaxira yo’nalishlar, oynalarni muvofiqlashtirish.
4) Smena va eskalatsiyadagi roli
Smena: P1/P2 + IC-of-the-day (P1 bilan birlashtirilmasin).
Vaqt boʻyicha eskalatsiyalar: P1 → P2 (acksiz 5 daqiqa) → IC (10 daqiqa) → Duty Manager (15 daqiqa).
Quiet Hours: P2/P3 signallari uyg’otmaydi; security-signallar - har doim.
5) O’zaro ta’sir interfeyslari (kim va kim bilan)
IC Release Manager: freeze/rollback yechimlari.
IC Comms: yangilangan matnlar va chastota.
SRE DataOps: SLO-gardreyllarda biznes-SLI (to’lovlarning muvaffaqiyati, ma’lumotlarning yangiligi).
Security Legal: security-hodisalar haqida xabarlar, ogohlantirish muddatlari.
Vendor Owner IC: provayder maqomi, switchover/folback.
6) Rollar bo’yicha KPI (mo’ljallar)
IC: Time-to-Declare, SEV-1/0 bo’yicha Comms SLA, MTTRga rioya qilish.
P1/P2: MTTA, Time-to-First-Action, pleybuklarga amal qilish%.
SRE/Platform: SLO coverage, Alert Hygiene, avto qaytish% muvaffaqiyatli.
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
DataOps: Freshness SLO Adherence, Success Rate backfill.
Comms: Status Accuracy, Complaint Rate/hodisa.
FinOps: dollar/birlik,% QoQ tejash, kvotalarga rioya qilish.
7) Rol kartochkalarining shablonlari
7. 1 IC kartochkasi
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 Kartochka P1/P2
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Release Manager kartochkasi
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Jarayonlar va rollarning ishtiroki (yig’ma)
A — Accountable, R — Responsible, C — Consulted, I — Informed.
9) Chek-varaqlar
9. 1 Rollarning vazifasi
- Har bir rolning egasi, o’rinbosari va qamrovi bor.
- Vakolatlar tavsiflangan (qanday qarorlar qabul qilishi mumkin).
- Pleybuklar va aloqa kanallari bogʻlangan.
- SLA tomonidan reaksiya/komms asosida nashr etilgan.
- Rol har bir xizmatda mavjud.
9. 2 Smena va handover
- Smena kartochkasi yangilandi (faol hodisalar, xavflar, derazalar).
- JIT/JEA ulanishi tekshirildi.
- Kanalga aks-sado: «smena qabul qilindi/topshirildi».
9. 3 Voqeadan keyingi
- AAR o’tkazildi, RCA tayinlandi.
- CAPA egalari/muddatlari, D + 14/D + 30 nazorati.
- Yangilangan pleybuklar/alertlar/siyosatlar.
10) Anti-patternlar
Noaniq «kim hal qiladi» → kechikishlar va qo’shimcha harakatlar.
IC P1 bilan birlashtirilgan - rahbariyatni yo’qotish.
Legal/Comms bilan kelishilmagan ochiq komms.
Release Manager va geytlarsiz chiqariladi → CFR o’sishi.
Rollarni zaxiralashning yo’qligi (kasallik/ta’til).
Jarayon o’rniga «qahramonlik»: qo’lda qutqaramiz, lekin panjarani tuzatmaymiz.
Rollar CMDB/servis katalogida aks ettirilgan emas → yoʻqotilgan eskalatsiyalar.
11) Asboblarga joylashtirish
ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Katalog/CMDB: servisda - egasi, on-call, SLO, dashbordlar, pleybuklar, derazalar.
Alert-as-Code: Har bir Page uchun owner va pleybuk andoza.
GitOps: IC/Release qarorlari relizlar va tiketlarning izohlarida aks etadi.
12) Rollarni taqsimlashning etuklik metrikasi
Kataloglardagi rollar Coverage: 100% tanqidiy xizmatlardan ≥.
On-call SLA: Ack p95 ≤ 5 min; Page Storm p95 nazorat ostida.
Postmortem SLA: loyiha ≤ 72 soat; CAPA completion ≥ 85%.
Change governance: RFC/CAB bilan o’zgarishlar darajasi 95% ≥.
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.
13) Mini-shablonlar
13. Server uchun 1 RACI (repo fayl)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Rol profili (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Jami
Rollar shaffof bo’lganda, vakolatlar bilan ta’minlanganda va asboblarga o’rnatilganda operatsiyalar barqaror bo’ladi. Rollar katalogi, RACI, aniq interfeyslar va metriklar har bir rol bo’yicha noxush hodisalar, relizlar va o’zgarishlarni boshqariladigan jarayonlarga aylantiradi: qarorlar tez qabul qilinadi, xavflar nazorat qilinadi, foydalanuvchilar esa barqaror xizmatni ko’radi.