Dashbord infratuzilmasi

1) Nima uchun bu zarur?

Holatning yagona manzarasi: klaster va tarmoqlardan ma’lumotlar bazalari va navbatlargacha.
Tezkor RCA va post-mortemlar: trassalar metrik log.
Services va platforma bo’yicha SLO: foydalanish imkoniyati va yashirin nazorat.
FinOps-shaffoflik: servis, tenant’am va chorshanba bo’yicha hajm/qiymat.
Komplayens/xavfsizlik: patch/zaiflik, kirish, anomaliya holati.

Metodologiyalar: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) so’rovlar uchun, USE (Utilization, Saturation, Errors) resurslar uchun.

2) Yaxshi dashbord prinsiplari

Amal qilish (Actionable): har bir panel «keyingi nima qilish kerak» deb javob beradi.
Ierarxiya: sharh → domenlar → deep dive → raw.
Namunalar/oʻzgaruvchilar:’cluster’,’namespace’,’service’,’tenant’,’env’.
Yagona birliklar: latentlik uchun ms,%, RPS, operatsiya/s, bayt.
Konsistent taympiker: andoza bo’yicha 1-6 soat, tezkor presetalar 5 m/15 m/24 soat.
Drilldown: paneldan logiga (Loki/ELK) va trassaga (Tempo/Jaeger).
Egalik: dashbordda egasi, SLO, runbook, on-call aloqasi koʻrsatilgan.

3) Jildlar tuzilishi va rollari

00_Overview - platformaning yuqori darajali koʻrinishi.
10_Kubernetes - klastyerlar, nodlar, workloads, NRA/VPA, konteynyerlar.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, obyekt ombori.
40_CICD_Runner - payplaynlar, agentlar, artefaktlar, registry.
50_Security_Compliance - zaifliklar, patchlar, RBAC, audit events.
60_FinOps_Cost - servislar/tenant/klaster bo’yicha qiymat, utilizatsiya qilish.
99_Runbooks - yo’riqnoma va SLO-kartochkalarga havolalar.

Rollar: Platform-SRE (toʻliq kirish), Service-Owner (oʻz maydonlari), Security/Compliance, Finance/FinOps, View-only.

4) Platformaning kuzatuv dashbordi (Landing)

Maqsad: ≤ 30 sek ichida hamma narsa joyida ekanini tushunish.

Tavsiya etilgan panellar:

SLO platformasi (API edge foydalanish imkoniyati): maqsadli qiymat, haqiqiy qiymat, xato davri, burn-rate.
Asosiy kirish nuqtalari boʻyicha latentlik p50/p95/p99.
4xx/5xx xatolari va regressiyali top-endpointlar.
Resurslarning to’yinganligi (CPU, RAM, tarmoq, disk) - klasterlar bo’yicha p95.
Hodisalar/alertlar (faol) va oxirgi relizlar.
Narxi/soat (taxminan) va hafta bo’yicha trend.

Oʻzgaruvchining namunalari:’env’,’region’,’cluster’,’tenant’.

5) Kubernetes: klastyerlar va vorkloadlar

Asosiy guruhlar:

1. Klaster/nodlar

CPU/Memory, pressure (memory/cpu), IO disk, inode.
Quyi tizimlar: kube-api, etcd, nazoratchilar; kubelet health.

2. Vorkload

RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA targetlari vs haqiqiy metriklar.

3. Klaster ichidagi tarmoq yoʻli

eBPF/Netflow: top talkers, drops, retransmits.

4. Yangiliklar K8s

Rate по Warning/FailedScheduling/BackOff.

PromQL namunalari:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, setka va DNS

Panellar:

Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: trafikni zonalar boʻyicha taqsimlash, hodisaning failoveri.
DNS: rezolv latentligi, NXDOMAIN/SERVFAIL rate, hit-ratio kesha.
CDN/WAF: qoidalar bo’yicha blokirovka, g’ayritabiiy trafik (botlar/skreyperlar).

Misol (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Ma’lumotlar bazalari va storijlar

PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backaplar/muvaffaqiyatsizliklar.
Redis: hit ratio, evictions, xotira, sekin buyruqlar.
Kafka/RabbitMQ: lag consumer guruhlari boʻyicha, rebalances, unacked messages.
Obyekt ombori: soʻrovlar, xatolar, egress, lat p95.

PostgreSQL (misol):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (misol):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD va artefaktlar

Pipeline overview: muvaffaqiyat/bajarish vaqti, ranner navbati.
Deployment health: versiyalar, canary/blue-green holati, isish vaqti.
Rasmlarni ro’yxatdan o’tkazish: o’lchami, oxirgi push’i, utilizatsiya qilish.

Misol:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Xavfsizlik va komplayens

Patchlar va zaifliklar: og’ir CVElarga ega nod/tasvirlar ulushi, o’rtacha «patchgacha vaqt».
RBAC va sirlar: muvaffaqiyatsiz kirish urinishlari, sirlarga murojaat qilish.
Audit-hodisalar: muhim komponentlardagi kirish/oʻzgarishlar, drift.
WAF/DLP/PII tahriri: qoidalarni blokirovka qilish, kamuflyaj xatolari.

10) Logi va trassalar: izchil ko’rib chiqish

Log xatolari (Loki/ELK): top exceptions, yangi belgilar.
Filterli loglarga oʻtish tugmasi (LogQL/ES query).
Trass: top slow spans, trace kontekstsiz soʻrovlar foizi.

LogQL namunalari:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: qiymat va utilizatsiya

Servislar/tenantlar/klastyerlar bo’yicha qiymati (billing/eksportchilar ma’lumotlari bo’yicha).
Issiq/sovuq tugunlar: idle resurslari, rightsizing tavsiyalari (CPU/Mem).
Data egress, L7 so’rovlari va ularning qiymati.
Dinamika: hafta/oy, prognoz.

Asosiy metriklar:

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
samaradorlik koeffitsiyenti:’RPS/$’yoki’SLO-minuts/$’.

12) SLO, xatolar va burn-rate

Har bir dashborddagi SLO kartochkasi: maqsad, davr, xatolar (budget).
Burn-rate alerta (ikki tezlik: tez/sekin).

PromQL misollari («5xx yoki p95> chegara» xatosi):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 Sizning’SLO’va koeffitsiyentlaringizni multi-window, multi-burn usulida almashtiring.

13) Vizualizatsiya standartlari

Panel taypslari: qator uchun time-series, KPI uchun stat, top-N uchun table, latentlik uchun heatmap.
Afsonalar va birliklar: majburiy; qisqartirilgan yorliqlar, SI formati.
Rang zonalari: yashil/sariq/qizil, SLO/threshold (bir xil).
Panel tavsifi: oʻlchanayotgan narsa, manba, runbook-havola, egasi.

14) Panel shablonlari (tez boshlash)

(A) API Overview

KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown’trace _ id = $trace’logida.

(B) Node Health

CPU/Memory/Disk/Network - nod bo’yicha p95, «issiq» ro’yxat.
Pressure, throttling, droplar paketlari.

(C) DB Health

TPS, latency p95, locks, replication lag, slow queries.
Bekap maqomi/oxirgi muvaffaqiyat.

(D) Kafka Lag

Lag guruhlar bo’yicha, iste’mol tezligi vs prodyusing, rebalances.

(E) Cost & Util

Cost/hour services, idle%, rightsizing hints, prognoz.

15) O’zgaruvchilar va teglar (tavsiya etiladigan to’plam)

`env` (prod/stage/dev)

`region`/`az`

`cluster`

`namespace`/`service`/`workload`

`tenant`

`component` (edge/db/cache/queue)

`version` (release/git_sha)

16) Alerting va hodisa-menejment bilan integratsiya qilish

Qoidalar Alertmanager/Grafana-alertlarda kerakli dashbordga havolalar bilan va allaqachon almashtirilgan o’zgaruvchan.
SLO-mezonlar bo’yicha P1/P2, on-call-da auto-assign.
Grafalardagi relizlar/hodisalar izohlari.

17) Dashbordlarning sifati: chek-varaq

Egasi va aloqasi.
SLO/thresholds hujjatlashtirilgan.
Oʻzgaruvchilar ishlaydi va soʻrovlarni cheklaydi.
Barcha panellarda birlik va afsonalar mavjud.
Drilldown.
Panellar 2-3 «ekran» ga joylashtiriladi (bir kilometrga skrollsiz).
Soʻrovlarga javob berish vaqti ≤ 2-3 c (kesh, downsample).
«O’lik» panellar va deprecated-metriklar yo’q.

18) Dashbordlarning o’z unumdorligi va qiymati

Og’ir agregatsiyalar uchun Downsampling/recording rules.
Keshlash (query-frontend/repiter) va range/step uchun limitlar.
Test angari: namunaviy dashbord so’rovlarida TSDB/klasterlarga yuk.
Yorliqlarni sanatsiya qilish (past kardinallik), wildcards-dan voz kechish.

19) Joriy etish (iteratsiya) rejasi

1. 1-hafta: Landing + K8s/Edge sharhlar, asosiy SLO, egalari.
2. 2-hafta: DB/Queues, loglar va trassalar integratsiyasi (drilldown), burn-rate alertalar.
3. 3 hafta: FinOps-dashbordlar, rightsizing tavsiyalar, qiymat bo’yicha hisobot.
4. Hafta 4 +: Security/Compliance, SLO-kartochkalarning avtogeneratsiyasi, dashbordlarning regression testlari.

20) Mini-FAQ

Qancha dashbord kerak?
Domenga kamida 1 sharh + bittadan (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Qolganlari - etuklik.

Nimadan muhimroq - metrika yoki logi?
Simptomlar va SLO uchun metriklar, sabablar uchun loglar. ’trace _ id’ va konsistent yorliqlar orqali bogʻlash.

Qanday qilib panellarda «choʻkib ketmaslik» mumkin?
Ierarxiya, aniq egalar, metrika gigiyenasi, muntazam qichqiriq va «o’lik» panellarni olib tashlash.

Jami

Infratuzilma dashbordlari «chiroyli grafiklar» emas, balki boshqaruv vositasi: SLO nazorati, tezkor RCA va ongli FinOps. Oʻzgaruvchilarni, vizual namunalarni va egalarini standartlashtiring; loglar/trassalarga drilldown bering va burn-rate alertalarini avtomatlashtiring. Bu butun platforma darajasida oldindan aytib bo’ladigan, reaktsiya tezligi va qiymatning shaffofligini beradi.

Dashbord infratuzilmasi

(B) Node Health

(C) DB Health

(D) Kafka Lag

(E) Cost & Util

Jami

Biz bilan bog‘laning

Tez aloqa

Video tez orada yangilanadi

Hozir loyihalar bilan juda bandmiz