Operatsion dashbord
(Bo’lim: Operatsiyalar va Boshqaruv)
1) Vazifasi va prinsiplari
Operatsion dashbord - bu platforma salomatligini monitoring qilish va harakat qilish uchun «yagona darcha». U foydalanuvchi roli (SRE, Product, Moliya, Compliance, Support, Sheriklar) kontekstida metriklar, voqealar, alertalar va biznes ko’rsatkichlarini birlashtiradi.
Prinsiplar:- Actionable by design: har bir vidjetda harakat tugmasi (rollback, pauze, re-run, re-route) mavjud.
- Role-aware: tafsilotlar/tenant/mintaqaning roliga bog’liq.
- Source-of-truth: raqamlar billing/jurnal/kvitansiyalarga mos keladi.
- Near-real-time + tarixiylik: hodisalar uchun soniya/daqiqa, trendlar uchun oylar/yillar.
- Explainability: har qanday agregat’trace _ id’bilan xom hodisaga aylanadi.
2) Rollar va ssenariylar (kim va nima uchun keladi)
SRE/Platforma: foydalanish imkoniyati, yashirin p50/p95/p99, xato/retray, capacity, cost per 1k voqealar.
Mahsulot/Operatsiyalar: E2E-Success Rate, konvertatsiya, hamkorlarning onbording vaqti, jismoniy nafaqa.
Moliya/FinOps: tushum/COGS/CM birligiga, egress/ingress, byudjet va kaplar, chetga chiqishlar.
Komplayens/Xavfsizlik: kvitansiyalar/imzolar, PII-so’rovlar, SoD-buzilishlar, retsertifikatsiya maqomi.
Support/CS: chiptalar navbati, sheriklar va hududlar bo’yicha MTTA/MTTR, SLA.
Hamkorlar/Tenantlar: SLO ning o’z metrikasi, vebxuk maqomi, usage va kvotalar.
3) North Star va asosiy SLI/SLO
North Star: E2E Success Rate har bir mintaqada maqsadli p95 bo’lgan muhim yo’nalishlar bo’yicha.
SLI (misol):- per-kanal/mintaqa.
- Latentlik p50/p95/p99.
- Error-rate va retraylar ulushi.
- Vebxuklarni yetkazib berish muvaffaqiyati (kvitansiyalar bilan%).
- Birligiga 1k hodisa va egress/ingress qiymati.
- Hodisalar sarhisobi: MTTA, MTTR, error-budget burn.
- Foydalanish imkoniyati ≥ 99. 95 %/mintaqa/kanal.
- p95 ≤ 120 ms (vitrin), ≤ 250 ms (checkout/quote).
- Vebxuklarning muvaffaqiyati ≥ 99. 5 daqiqada 5% oyna.
- Δ = 0 (± 1 minor unit taqsimlash qoidalari boʻyicha).
- Reaksiya vaqti P1 ≤ 10 min., MTTR ≤ 60 min.
4) Dashbord ma’lumotlari arxitekturasi
Hodisa shinasi: telemetriya (traces/metrics/logs), biznes-iventlar, billing, komplayens.
Striming/agregatsiyalar: near-real-time uchun T + 5s/T + 1m derazalar; Kafolatlangan yetkazib berish uchun CDC/outbox.
Omborlar: time-series (tezkor), OLAP (uzoq tarix), WORM-jurnallar (audit).
Semantik qatlam: metriklar lug’ati, o’lchov birliklari, mintaqalar va tenantlar bo’yicha normallashtirish.
Xomashyo linki: drill-down do’trace _ id ’/’ event _ id’va imzolar (receipt_hash).
5) Interfeys va vidjetlar dizayni
Global shlyapa: filtrlar (vaqt, hudud, tenant, mahsulot, muhit), holat indikatorlari.
Plitkalar (KPIs): E2E Success, foydalanish imkoniyati, p95, error-rate, cost/1k, egress.
Grafiklar: sparkline trendlar, mintaqalar bo’yicha heat-map, pertsentil grafiklar.
Jadvallar: top-xatolar, tanazzulga uchragan sheriklar, kvotalarning oshib ketishi, yopilmagan hodisalar.
Harakatlar seksiyalari: «Promo pauza», «Chitni qaytarish», «Kvotani oshirish», «Yetkazib berishni qayta boshlash».
Context-help: metrika/metodika bo’yicha maslahatlar va SLO bilan aloqa.
6) Dashbord modullari (tavsiya etiladigan to’plam)
1. Platforma salomatligi: qulaylik/yashirin/xato, burn-down error-budjet.
2. Hamkorlik integratsiyalari: vebxuk maqomi, kvitansiyalar, idempotent dubllar, lag navbatlar.
3. Checkout & Narxlar: vitrin, «fx _ version», «tax _ rule _ version», rad-keyslar.
4. Kontent/Kataloglar: chop etish vaqti, kesh/nogiron xatolari, freshness.
5. RTP & Limits (iloji boʻlsa): teor. vs observed RTP, ishga tushirish limitlari, ekspozitsiya.
6. FinOps: COGS/birlik, egress/ingress, compute/storage, budjetlar/kap-alertlar.
7. Security/Compliance: SoD, JIT, MFA, imzolangan operatsiyalar, PII-soʻrovlar va jurnallar.
8. Support: navbatlar, MTTA/MTTR, sabablar, avto-runbuklar.
9. Release/Feature Flags: relizlar maqomi, kanar mintaqalari, regressiya avtoskleykasi.
10. Experiments: A/B guardrails, SLI/ROI ta’siri.
7) Alertlar, runalar va eskalatsiyalar
’trace _ id’ bo’yicha shovqinni kamaytirish va duplikatsiya bilan P1-P3 darajasidagi alertlar.
Avto-runbuklar: ishga tushirilganda - tekshirishlarni/fikslarni ishga tushirish (keshni tozalash, routingni o’zgartirish, promo pauzasi).
Eskalatsiyalar: matris 24 × 7, javob SLO, kanallar (chat/voice/SMS), «qizil tugma».
Post-incident: sababiy aloqalar va action items bilan hisobot namunalari.
8) Multiregionallik va multi-tenant
Kesmalar: mintaqa/tenant/kanal/provayder, mustaqil SLO va byudjetlar.
Ishonch zonalari: PII/moliya ma’lumotlari - faqat tegishli sohalarda, qolganlari - agregatlarda ko’rinadi.
Cost-aware: bir xil p95 narxda yo’nalishlarni taqqoslash; optimallashtirish bo’yicha tavsiyalar.
9) Xavfsizlik va maxfiylik
RBAC/ABAC: rollar bo’yicha ko’rinish va harakatlar; Mahsulot/tenantga egalik qilish uchun ReBAC.
Imzolar va kvitansiyalar: moliyaviy/tanqidiy voqealar uchun - xeshlar va DSSE-kvitansiyalar.
PII-gigiyena: tokenlash, niqoblash, faqat tasdiqlangan joblar orqali kirish.
Audit: konfiguratsiyalar/rollar/limitlarni o’zgartirish uchun WORM-jurnallar, takrorlanuvchanlik.
10) Metrik ma’lumotlar modeli (misol)
`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`
`dim` `{region, tenant, product, provider, version, environment}`
`point` `{metric, value, ts, dims{}, trace_id, signature?}`
`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`
`slo` `{name, target, window, burn_rate, owners[], runbook_url}`
`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`
11) Dashbordning API/vebxuklari
’POST/ingest/metrics’ - metriklarni qabul qilish (sxema, limitlar, autentifikatsiya).
’POST/ingest/events’ - biznes voqealar (versiyalar/imzolar).
`GET /kpis? filters...’- vidjetlar uchun agregatlar.
’GET/traces/{ trace _ id}’ - chuqur targʻibot.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.
12) Ma’lumotlar sifati va testlar
Data contracts: qabul qilish sxemalari va validatsiya, versiya (’expand → migrate → contract’).
Anomaliyalar: o’tish/sakrash monitoringi, «flatline »/» noise» chegaralari.
Semplash: high-QPS uchun metrik - harakatlanuvchi, reprezentativlikni saqlab qolgan holda.
Backfill: xavfsiz qaytarish.
13) Dashbordning o’zi metrikasi (metriklar metrikasi)
UI/API foydalanish imkoniyati ≥ 99. 9%.
Latency p95 API so’rovlari ≤ 300 ms.
Completeness: oynaga maʼlumot yuborgan manbalar ulushi 99 ≥. 5%.
Freshness: lag inkremental yangilanishlar ≤ 30 s
Correctness: etalon hisobotlari bilan tafovut ≤ 0. 1%.
14) Iqtisodiyot va FinOps dashbordda
Cost per 1k provayder/mintaqa boʻyicha parchalanish hodisalari.
Egress/Ingress issiqlik xaritalari, keshlash/routing tavsiyalari.
Budjetlar/kap- alertlar: 80/90/100%, avtotrotling va ustuvorlik.
15) Foydalanish imkoniyati va UX
Tungi mavzu, qisqa imzolar, maqom belgisi.
Klaviatura navigatsiyasi va a11y: kontrast, alt, aria-belgilar.
Saqlangan presetalar: «SRE navbatchiligi», «moliya», «sherik».
Snapshotlar va shering: filtrlar va havola/eksport holatini qayd etish.
16) Xatarlar va anti-patternlar
Dash-sprawl: bitta metrik lug’atsiz 20 xil dashbordlar.
Vanity-metriklar: SLO/harakatlar bilan bog’lanmagan chiroyli grafiklar.
Raqamlarning mos kelmasligi: hisobotlar ≠ billing/audit.
Shovqinli alertlar: charchoq va P1 o’tkazib yuborish.
Drill-down yoʻqligi: birlamchi va sabablarga yetib boʻlmaydi.
17) Joriy etish chek-varaqasi
- Rollar va stsenariylarni belgilash; North Star va SLI/SLO bilan kelishish.
- Metriklar va birliklar lug’atini yaratish; data contracts.
- Ingest (metrics/events/traces), OLAP va WORM auditini moslash.
- Asosiy modullarni (salomatlik, hamkorlar, checkout, FinOps, Security) amalga oshirish.
- Run va eskalatsiyali alertlarni yoqish; «qizil tugma».
- Amallarni qoʻshish: rollback/pause/re-route/raise-limit.
- Mintaqalar/tenantlar bo’yicha heat-map qurish; filtrlar va presetlar.
- Raqamlarning billing/kvitansiyalar bilan yig’ilishini tekshirish.
- Kun o’yini (GameDay): provayderni o’chirish, retray ko’chkisi, narxlarni sinxronlashtirish.
- Haftalik SLO va post-mortem sifati.
18) RACI
19) FAQ
Barcha hisobotlarni dashbord bilan almashtirish mumkinmi?
Yo’q. Dashbord - tezkorlik va harakatlar uchun; rasmiy hisobot/audit - alohida artefaktlar.
Qancha vaqt kerak?
Hodisalar uchun - soniya/daqiqa, iqtisodiyot uchun - daqiqa/soat; mutlaq «onlayn» emas, balki muvofiqlik muhimdir.
Alert shovqiniga qarshi qanday kurashish mumkin?
SLO-yo’naltirilgan shartlar, agregatsiya, «trace _ id» bo’yicha deduplikatsiya, prioritetizatsiya va avto-runbuklar.
Metriklarning toʻgʻriligini qanday tekshirish mumkin?
Etalon hisobotlari bilan muntazam solishtirishlar, test fidlari, nazorat namunalari va WORM-jurnallar.
Xulosa: Operatsion dashbord - «chiroyli taxtacha» emas, balki boshqaruv vositasi: yagona SLI/SLO, interfeys harakatlari, xomashyoga traska va billing va audit bilan qat’iy muvofiqligi. Uni voqea arxitekturasiga quring, rollar bo’yicha kontekst bering, run va eskalatsiyalarni qo’shing - va siz oldindan aytib bo’ladigan operatsiyalarni, tez echimlarni va barqaror o’sishni olasiz.