Operatsion qatlamning arxitekturasi
1) Operatsion qatlamning vazifasi
Operatsion qatlam - bu tezkor relizlar, past MTTR, komplayens va boshqariladigan qiymatni ta’minlaydigan platforma va amaliyotlar to’plamidir. U mahsulotlar va infratuzilma uchun panjara yaratadi: standartlar, avtomatlashtirish, kuzatish, o’zgarishlarni boshqarish va xavfsiz kirish.
2) Mantiqiy model (tekisliklar va domenlar)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
Asosiy domenlar:
- Servis katalogi/CMDB: xizmatlar, egalari, SLO, qaramliklar yagona reyestri.
- Orkestr: payplaynlar, vazifalar, kronlar, bekaplar, DR.
- Siyosatlar (Policy-as-Code): alertlar, kirish, retentions, change-gates.
- Kuzatilganlik: metriklar/treyslar/loglar, SLI/SLO, alertlar va maqom sahifasi.
- Foydalanish imkoniyatlari/sirlari: JIT/JEA, tokenlar, kripto, KMS/Vault.
- Hodisalar/o’zgarishlar: ITSM/biletlar, CAB/RFC, post-mortemalar, simulyatsiyalar.
- DataOps: ma’lumotlar shartnomalari, yangilik, lineage, sifat.
- FinOps: xarajatlar hisobi, limitlar, kvotalar, optimallashtirish.
3) Referens-oqimlar
3. 1 Reliz (CI/CD → GitOps)
1. Kod/manifestli PR → testlar/skanerlar → artefaktlar imzosi.
2. Progressiv deploy (kanareyka/blue-green) bilan SLO-gardreylar.
3. Degradatsiyada avto-rollbek; relizning telemetriyadagi izohlari.
3. 2 Hodisa (Detect → Respond → Recover)
1. Burn-rate/simptomlar + kvorum → Page + war-room.
2. Trassalar/loglar bo’yicha diagnostika; pleybuklar.
3. Qaytish/folbek/limitlar → AAR/RCA → CAPA.
3. 3 Oʻzgartirish (RFC/CAB)
1. Tavakkalchilik tahlili + xizmat ko’rsatish oynasi + backout-reja.
2. Suppression nekritik alertlar, SLO-signallar faol.
3. Evidence va hisobot, siyosatni qayta ko’rib chiqish.
4) Servis-katalog va CMDB
Atributlar: egasi, SLI/SLO, qaramliklar (ichki/tashqi), dashbordlar, alertlar, runbook’i, ma’lumotlar klasslari (PII/moliya), zonalar (prod/stage/dev).
Avto-to’ldirish: CI/CD, telemetriya va repozitoriyalardan.
Foydalanish: alertlar, eskalatsiyalarni yo’naltirish, blast radiusni hisoblash, yetuklik bo’yicha hisobot berish.
5) Kod sifatida siyosatlar (Policy-as-Code)
Toifalar: kirish (RBAC/ABAC), xavfsizlik (SAST/SCA/DAST), alertlar/SLO, retenslar, change-gates, resurslar/kvotalar.
Mexanika: deklarativ qoidalar (YAML/Rego/CEL), CI da validatsiya, Control Plane da majburiy ijro.
Misol uchun: «Agar barcha SLOlar yashil bo’lsa, faol SEV-1 bo’lmasa, testlar o’tgan bo’lsa, imzolar haqiqiy bo’lsa».
6) Orkestrlash va bajarish
CI/CD: build → scan → sign → promote.
Jobs/CronJobs/DAG: bekaplar/rotatsiyalar/bekfillar; muddatlar va raqobat (Forbid/Replace).
Idempotentlik va orqaga qaytish: check-then-act, qadam belgilari, circuit-breaker.
Ishga tushirish huquqi: JIT hisoblari, cheklangan scope; audit.
7) Signallarning kuzatilishi va sifati
SLI/SLO domenlar boʻyicha: biznes operatsiyalarining ochiqligi/yashirligi/muvaffaqiyati, maʼlumotlarning yangiligi.
Alertlar: ikki oynada burn-rate, kvorum, dedup/rate-limit, runbook va egasi.
Logi/metrika/treys bog’langan trace_id; grafiklardan loglarga kanallar.
Maqom sahifasi: shablonlar, yangilanish chastotalari, nashr auditi.
8) Kirishlar, sirlar, kripto
Maxfiy saqlash (KMS/Vault), rotatsiya, repo sirlarini taqiqlash.
JIT/JEA: operatsiya/smena vaqtiga huquqlarni berish.
mTLS/OIDC servislar o’rtasida; rasmlar/SBOM imzosi.
Audit: oʻzgarmas jurnallar, tanqidiy harakatlar uchun WORM.
9) Noxush hodisalar, o’zgarishlar, xizmat ko’rsatish oynalari
Hodisalar: SEV matritsasi, IC/TL/Comms/Scribe, yangilanish shablonlari, AAR → RCA → CAPA.
Oʻzgarishlar: RFC/CAB, tavakkalchilik, kanareykalar, backout.
Xizmat koʻrsatish oynalari: vaqt, aloqa, suppression qoidalari, evidence.
10) Operatsion qatlamdagi DataOps
Ma’lumotlar kontraktlari (sxemalar, yangi/to’liq SLA).
Har bir qatlamda DQ-testlar (Bronze/Silver/Gold).
Lineage va kataloglar; nikoh uchun karantin.
Yangilik/dreyf bo’yicha ma’lumotlar va alertlar SLO.
11) FinOps va qiymati
Unit-iqtisodiyot: $/1k so’rovlar, $/muvaffaqiyatli tranzaksiya, $/GiB log, $/SLO punkti.
Kvotalar/limitlar: egress, log-hajmlar, vazifalarning davomiyligi.
Optimallashtirish: partiyalar/kesh/materiallashtirish/arxivlar (hot-warm-cold).
Hisobotlar: arzon «qimmat» servislar/so’rovlar, ortiqcha xarajat uchun alertlar.
12) Interfeyslar: ChatOps/Portals/API
Platforma portali: servislar katalogi, «deploy/qaytarish» tugmalari, SLO maqomi, oyna slotlari, siyosat.
ChatOps: `/deploy`, `/handover start`, `/mw create`, `/status update` — с аудитом и evidence.
API: ITSM/HR/billing/provayderlar bilan integratsiya qilish uchun.
13) Javobgarlik modeli (RACI)
Platform/SRE: nazorat tekisligi, siyosat, kuzatuv, rotatsiya.
Product/Dev: SLO services, relizlar, pleybuklar.
Security: sirlar, zaifliklar, IR.
Data/Analytics: DataOps, yangi/sifatli SLA.
Compliance/Legal: regulyator, evidence saqlash.
Support/Comms: maqom sahifasi, mijoz xabarlari.
14) Operatsion qatlamning etuklik metrikasi
SLO coverage: muayyan SLI/SLO va burn-rate bilan xizmatlar%.
Alert hygiene: actionable ≥80%, FP ≤5%, alerts/on-call-hour (p95).
DORA: deploylar chastotasi, lead time, MTTR, change-failure-rate.
Change governance: RFC boʻyicha oʻzgarishlar%, «on-time» oynalari%, qaytishlar%.
Security: sirlarni/sertifikatlarni almashtirishning o’rtacha vaqti, zaifliklarni yopish.
FinOps: QoQ birligi va% tejash.
Docs: runbook/SOP qoplash, yangilik (90 kundan ≤).
15) «Eng kam hayotiy operatsion qatlam (MVP)» chek-varaqasi
- Xizmat katalogi/CMDB egalari, SLO, qaramliklar va dashbordlar bilan.
- CI/CD + GitOps, artefaktlar imzosi, progressiv relizlar, avto-orqaga qaytish.
- trace_id va SLO-alertli birlashgan telemetriya (logi/metrika/treyslar) (ikki oynali, kvorum).
- Policy-as-Code: kirish, alerta, retensiya, change-gates.
- Maxfiy saqlash, JIT/JEA, mTLS/SSO, o’zgarmas audit.
- ITSM/hodisalar: SEV matritsasi, pleybuklar, maqom sahifasi, yangilanish shablonlari.
- Xizmat koʻrsatish oynalari: taqvim, RFC namunalari, backout rejalari, evidence.
- FinOps: xarajatlar ko’rinishi, kvotalar/limitlar, hisobotlar.
- Hujjatlar (Docs-as-Code), SOP/Runbook shablonlari, mahsulotga tayyorlik chek varaqasi.
16) Anti-patternlar
Nazorat tekisligi va siyosati boʻlmagan «Platform = skriptlar toʻplami».
Monitoring «dan» → alert ko’chkisi, alert fatigue.
GitOps/auditsiz qoʻlda proto-oʻzgarishlar.
Omborsiz va rotatsiyasiz o’zgaruvchan muhitdagi sirlar.
SLO yo’qligi: sifat maqsadlari haqida emas, hissiyotlar haqida bahslashamiz.
Egalarining tarqoq kataloglari/jadvallari → yoʻqolgan eskalatsiyalar.
Yuqori-xavf o’zgarishi uchun backout-reja yo’q.
Tuzilmasiz/korrelyatsiyasiz loglar → uzoq tergov.
17) Mini-shablonlar
17. 1 Servis kartochkasi (katalog)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. 2 Alert siyosati (g’oya)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 Gate deploi (psevdo)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) Joriy etish yo’l xaritasi (8-12 hafta)
1. Ned. 1-2: xizmatlarni inventarizatsiya qilish → katalog/CMDB; bazaviy SLI/SLO va dashbordlar.
2. Ned. 3-4: GitOps + progressiv relizlar; Policy-as-Code (alerta/retensiya).
3. Ned. 5-6: yagona telemetriya va maqom-sahifa; kvorumli burn-rate; runbook qoplash.
4. Ned. 7-8: sirlar/JIT, o’zgarmas audit; RFC/Xizmat oynalari.
5. Ned. 9-10: FinOps hisoboti, kvotalar/limitlar; loglar va saqlashni optimallashtirish.
6. Ned. 11-12: hodisalar simulyatsiyasi/DR; etuklik metrikasi; uzluksiz yaxshilash rejasi.
19) Jami
Operatsion qatlamning arxitekturasi - bu nazorat tekisligi va foydalanishni takrorlanadigan, o’lchanadigan va xavfsiz jarayonga aylantiradigan standartlashtirilgan amaliyotlar. Servis-katalog, GitOps, telemetriya, siyosat, xavfsiz kirish va boshqariladigan oʻzgarishlar barqaror relizlar, tezkor tiklanish va shaffof xarajatlar, yaʼni biznes uchun operatsion bashorat qilish imkonini beradi.