Dashbord infratuzilmasi
1) Nima uchun bu zarur?
Holatning yagona manzarasi: klaster va tarmoqlardan ma’lumotlar bazalari va navbatlargacha.
Tezkor RCA va post-mortemlar: trassalar metrik log.
Services va platforma bo’yicha SLO: foydalanish imkoniyati va yashirin nazorat.
FinOps-shaffoflik: servis, tenant’am va chorshanba bo’yicha hajm/qiymat.
Komplayens/xavfsizlik: patch/zaiflik, kirish, anomaliya holati.
Metodologiyalar: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) so’rovlar uchun, USE (Utilization, Saturation, Errors) resurslar uchun.
2) Yaxshi dashbord prinsiplari
Amal qilish (Actionable): har bir panel «keyingi nima qilish kerak» deb javob beradi.
Ierarxiya: sharh → domenlar → deep dive → raw.
Namunalar/oʻzgaruvchilar:’cluster’,’namespace’,’service’,’tenant’,’env’.
Yagona birliklar: latentlik uchun ms,%, RPS, operatsiya/s, bayt.
Konsistent taympiker: andoza bo’yicha 1-6 soat, tezkor presetalar 5 m/15 m/24 soat.
Drilldown: paneldan logiga (Loki/ELK) va trassaga (Tempo/Jaeger).
Egalik: dashbordda egasi, SLO, runbook, on-call aloqasi koʻrsatilgan.
3) Jildlar tuzilishi va rollari
00_Overview - platformaning yuqori darajali koʻrinishi.
10_Kubernetes - klastyerlar, nodlar, workloads, NRA/VPA, konteynyerlar.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, obyekt ombori.
40_CICD_Runner - payplaynlar, agentlar, artefaktlar, registry.
50_Security_Compliance - zaifliklar, patchlar, RBAC, audit events.
60_FinOps_Cost - servislar/tenant/klaster bo’yicha qiymat, utilizatsiya qilish.
99_Runbooks - yo’riqnoma va SLO-kartochkalarga havolalar.
Rollar: Platform-SRE (toʻliq kirish), Service-Owner (oʻz maydonlari), Security/Compliance, Finance/FinOps, View-only.
4) Platformaning kuzatuv dashbordi (Landing)
Maqsad: ≤ 30 sek ichida hamma narsa joyida ekanini tushunish.
Tavsiya etilgan panellar:- SLO platformasi (API edge foydalanish imkoniyati): maqsadli qiymat, haqiqiy qiymat, xato davri, burn-rate.
- Asosiy kirish nuqtalari boʻyicha latentlik p50/p95/p99.
- 4xx/5xx xatolari va regressiyali top-endpointlar.
- Resurslarning to’yinganligi (CPU, RAM, tarmoq, disk) - klasterlar bo’yicha p95.
- Hodisalar/alertlar (faol) va oxirgi relizlar.
- Narxi/soat (taxminan) va hafta bo’yicha trend.
Oʻzgaruvchining namunalari:’env’,’region’,’cluster’,’tenant’.
5) Kubernetes: klastyerlar va vorkloadlar
Asosiy guruhlar:1. Klaster/nodlar
CPU/Memory, pressure (memory/cpu), IO disk, inode.
Quyi tizimlar: kube-api, etcd, nazoratchilar; kubelet health.
2. Vorkload
RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA targetlari vs haqiqiy metriklar.
3. Klaster ichidagi tarmoq yoʻli
eBPF/Netflow: top talkers, drops, retransmits.
4. Yangiliklar K8s
Rate по Warning/FailedScheduling/BackOff.
PromQL namunalari:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, setka va DNS
Panellar:- Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: trafikni zonalar boʻyicha taqsimlash, hodisaning failoveri.
- DNS: rezolv latentligi, NXDOMAIN/SERVFAIL rate, hit-ratio kesha.
- CDN/WAF: qoidalar bo’yicha blokirovka, g’ayritabiiy trafik (botlar/skreyperlar).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Ma’lumotlar bazalari va storijlar
PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backaplar/muvaffaqiyatsizliklar.
Redis: hit ratio, evictions, xotira, sekin buyruqlar.
Kafka/RabbitMQ: lag consumer guruhlari boʻyicha, rebalances, unacked messages.
Obyekt ombori: soʻrovlar, xatolar, egress, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (misol):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD va artefaktlar
Pipeline overview: muvaffaqiyat/bajarish vaqti, ranner navbati.
Deployment health: versiyalar, canary/blue-green holati, isish vaqti.
Rasmlarni ro’yxatdan o’tkazish: o’lchami, oxirgi push’i, utilizatsiya qilish.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Xavfsizlik va komplayens
Patchlar va zaifliklar: og’ir CVElarga ega nod/tasvirlar ulushi, o’rtacha «patchgacha vaqt».
RBAC va sirlar: muvaffaqiyatsiz kirish urinishlari, sirlarga murojaat qilish.
Audit-hodisalar: muhim komponentlardagi kirish/oʻzgarishlar, drift.
WAF/DLP/PII tahriri: qoidalarni blokirovka qilish, kamuflyaj xatolari.
10) Logi va trassalar: izchil ko’rib chiqish
Log xatolari (Loki/ELK): top exceptions, yangi belgilar.
Filterli loglarga oʻtish tugmasi (LogQL/ES query).
Trass: top slow spans, trace kontekstsiz soʻrovlar foizi.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: qiymat va utilizatsiya
Servislar/tenantlar/klastyerlar bo’yicha qiymati (billing/eksportchilar ma’lumotlari bo’yicha).
Issiq/sovuq tugunlar: idle resurslari, rightsizing tavsiyalari (CPU/Mem).
Data egress, L7 so’rovlari va ularning qiymati.
Dinamika: hafta/oy, prognoz.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- samaradorlik koeffitsiyenti:’RPS/$’yoki’SLO-minuts/$’.
12) SLO, xatolar va burn-rate
Har bir dashborddagi SLO kartochkasi: maqsad, davr, xatolar (budget).
Burn-rate alerta (ikki tezlik: tez/sekin).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Vizualizatsiya standartlari
Panel taypslari: qator uchun time-series, KPI uchun stat, top-N uchun table, latentlik uchun heatmap.
Afsonalar va birliklar: majburiy; qisqartirilgan yorliqlar, SI formati.
Rang zonalari: yashil/sariq/qizil, SLO/threshold (bir xil).
Panel tavsifi: oʻlchanayotgan narsa, manba, runbook-havola, egasi.
14) Panel shablonlari (tez boshlash)
(A) API Overview
KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown’trace _ id = $trace’logida.
(B) Node Health
CPU/Memory/Disk/Network - nod bo’yicha p95, «issiq» ro’yxat.
Pressure, throttling, droplar paketlari.
(C) DB Health
TPS, latency p95, locks, replication lag, slow queries.
Bekap maqomi/oxirgi muvaffaqiyat.
(D) Kafka Lag
Lag guruhlar bo’yicha, iste’mol tezligi vs prodyusing, rebalances.
(E) Cost & Util
Cost/hour services, idle%, rightsizing hints, prognoz.
15) O’zgaruvchilar va teglar (tavsiya etiladigan to’plam)
`env` (prod/stage/dev)
`region`/`az`
`cluster`
`namespace`/`service`/`workload`
`tenant`
`component` (edge/db/cache/queue)
`version` (release/git_sha)
16) Alerting va hodisa-menejment bilan integratsiya qilish
Qoidalar Alertmanager/Grafana-alertlarda kerakli dashbordga havolalar bilan va allaqachon almashtirilgan o’zgaruvchan.
SLO-mezonlar bo’yicha P1/P2, on-call-da auto-assign.
Grafalardagi relizlar/hodisalar izohlari.
17) Dashbordlarning sifati: chek-varaq
- Egasi va aloqasi.
- SLO/thresholds hujjatlashtirilgan.
- Oʻzgaruvchilar ishlaydi va soʻrovlarni cheklaydi.
- Barcha panellarda birlik va afsonalar mavjud.
- Drilldown.
- Panellar 2-3 «ekran» ga joylashtiriladi (bir kilometrga skrollsiz).
- Soʻrovlarga javob berish vaqti ≤ 2-3 c (kesh, downsample).
- «O’lik» panellar va deprecated-metriklar yo’q.
18) Dashbordlarning o’z unumdorligi va qiymati
Og’ir agregatsiyalar uchun Downsampling/recording rules.
Keshlash (query-frontend/repiter) va range/step uchun limitlar.
Test angari: namunaviy dashbord so’rovlarida TSDB/klasterlarga yuk.
Yorliqlarni sanatsiya qilish (past kardinallik), wildcards-dan voz kechish.
19) Joriy etish (iteratsiya) rejasi
1. 1-hafta: Landing + K8s/Edge sharhlar, asosiy SLO, egalari.
2. 2-hafta: DB/Queues, loglar va trassalar integratsiyasi (drilldown), burn-rate alertalar.
3. 3 hafta: FinOps-dashbordlar, rightsizing tavsiyalar, qiymat bo’yicha hisobot.
4. Hafta 4 +: Security/Compliance, SLO-kartochkalarning avtogeneratsiyasi, dashbordlarning regression testlari.
20) Mini-FAQ
Qancha dashbord kerak?
Domenga kamida 1 sharh + bittadan (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Qolganlari - etuklik.
Nimadan muhimroq - metrika yoki logi?
Simptomlar va SLO uchun metriklar, sabablar uchun loglar. ’trace _ id’ va konsistent yorliqlar orqali bogʻlash.
Qanday qilib panellarda «choʻkib ketmaslik» mumkin?
Ierarxiya, aniq egalar, metrika gigiyenasi, muntazam qichqiriq va «o’lik» panellarni olib tashlash.
Jami
Infratuzilma dashbordlari «chiroyli grafiklar» emas, balki boshqaruv vositasi: SLO nazorati, tezkor RCA va ongli FinOps. Oʻzgaruvchilarni, vizual namunalarni va egalarini standartlashtiring; loglar/trassalarga drilldown bering va burn-rate alertalarini avtomatlashtiring. Bu butun platforma darajasida oldindan aytib bo’ladigan, reaktsiya tezligi va qiymatning shaffofligini beradi.