Daşbordlar
1) Bu näme üçin zerur?
Ýagdaýyň ýeke-täk suraty: klasterden we torlardan maglumat bazalaryna we nobatlara çenli.
Çalt RCA we post-mortemalar: bir topar metrik log trassalar.
Hyzmatlar we platforma boýunça SLO: elýeterlilige we gizlinlige gözegçilik.
FinOps-aç-açanlyk: hyzmatlar, tenantam we çarşenbe günleri boýunça göwrümi/bahasy.
Laýyklyk/howpsuzlyk: ýamalaryň/gowşaklyklaryň, elýeterlilikleriň, anomaliýalaryň ýagdaýy.
Usulyýet: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration), USE (Utilization, Saturation, Errors).
2) Gowy daşbordyň ýörelgeleri
Hereket (Actionable): Her panel "indiki näme etmeli" diýip jogap berýär.
Iýerarhiýa: gözden geçirmek → domenler → deep dive → raw.
Şablonlar/üýtgewler: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Bitewi birlikler: latentlik üçin ms,%, RPS, amallar/s, baýtlar.
Konsistent taýmpiker: 1-6 sagat, çalt presetler 5m/15m/24h.
Drilldown: panelden logä (Loki/ELK) we trasa (Tempo/Jaeger).
Eýelik: Daşbordda eýesi, SLO, runbook, on-call aragatnaşygy görkezilýär.
3) Bukjalaryň gurluşy we rollary
00_Overview - platformanyň ýokarky derejeli görnüşi.
10_Kubernetes - toplar, nodlar, workloads, NRA/VPA, konteýnerler.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, obýekt ammary.
40_CICD_Runner - paýlaýynlar, agentler, artefaktlar, registry.
50_Security_Compliance - gowşaklyklar, ýamalar, RBAC, audit events.
60_FinOps_Cost - hyzmatlar/tenant/klaster boýunça bahasy, gaýtadan işlemek.
99_Runbooks - görkezmelere we SLO kartoçkalaryna salgylanmalar.
Rollar: Platform-SRE (doly elýeterlilik), Service-Owner (öz ýerleri), Security/Compliance, Finance/FinOps, View-only.
4) Platforma gözden geçiriş tagtasy (Landing)
Maksat: 30 sekunt ≤ hemme zadyň tertiplidigine düşünmek.
Maslahat berilýän paneller:- SLO platformasy (API edge elýeterliligi): maksatly, hakyky, ýalňyşlyk döwri, burn-rate.
- Esasy giriş nokatlary boýunça gizlinlik p50/p95/p99.
- 4xx/5xx ýalňyşlyklary we regressiýalar bilen ýokarky nokatlar.
- Çeşmeleriň doýmagy (CPU, RAM, tor, disk) - toparlar boýunça p95.
- Wakalar/alertler (işjeň) we soňky neşirler.
- Bahasy/sagat (takmynan) we hepdelik tendensiýa.
Üýtgeýän şablonlar: 'env', 'region', 'cluster', 'tenant'.
5) Kubernetes: toparlar we workloadlar
Esasy toparlar:1. Klaster/nodlar
CPU/Memory, pressure (memory/cpu), IO disk, inode.
Kiçi ulgamlar: kube-api, etcd, gözegçiler; kubelet health.
2. Workload
RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA nyşanlary vs hakyky metrikler.
3. Klaster içindäki tor ýoly
eBPF/Netflow: top talkers, drops, retransmits.
4. Wakalar K8s
Rate по Warning/FailedScheduling/BackOff.
PromQL mysallary:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, tor we DNS
Paneller:- Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: zolaklar boýunça traffigiň paýlanyşy, wakalaryň ýalňyşlygy.
- DNS: rezolýusyň gizlinligi, NXDOMAIN/SERVFAIL rate, hit-ratio kesh.
- CDN/WAF: düzgünlere laýyklykda blokirleme, anomal traffik (botlar/skreýperler).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Maglumatlar bazalary we hekaýalar
PostgreSQL/MySQL: qps, latency, lock waits, replication lag, bekaplar/şowsuzlyklar.
Redis: hit ratio, evictions, ýat, haýal buýruklar.
Kafka/RabbitMQ: lag consumer-toparlar, rebalances, unacked messages.
Obýekt ammary: soraglar, ýalňyşlyklar, egress, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (mysal):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD we artefaktlar
Pipeline overview: üstünlik/ýerine ýetiriş wagty, ranner nobaty.
Deployment health: wersiýalar, canary/blue-green status, gyzdyrma wagty.
Şekilleri hasaba alyň: ululygy, iň soňky push 'i, ýok etmek.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Howpsuzlyk we gabat gelmek
Ýamalar we gowşaklyklar: möhüm CVE bolan nod/şekilleriň paýy, orta "ýamadan öň wagt".
RBAC we syrlar: girmek, syrlara ýüzlenmek üçin şowsuz synanyşyklar.
Audit-wakalar: möhüm komponentlerdäki giriş/üýtgeşmeler, drift.
WAF/DLP/PII-redaksiýa: düzgünleri blokirlemek, gizlemek ýalňyşlyklary.
10) Loglar we ýollar: üsti bilen syn
Log hatalarynyň gysgaça mazmuny (Loki/ELK): top exceptions, täze alamatlar.
"Süzgüçli bloglara git" düwmesi (LogQL/ES query).
Ýollar: top slow spans, trace-kontekstsiz haýyşlaryň göterimi.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: bahasy we gaýtadan işlemek
Hyzmatlar/tenantlar/klasterler boýunça bahasy (billing/eksportçylaryň maglumatlary boýunça).
Gyzgyn/sowuk düwünler: idle çeşmeleri, dogry teklipler (CPU/Mem).
Data egress, L7 soraglary we olaryň bahasy.
Dinamika: hepde/aý, çaklama.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- netijelilik koeffisiýenti: 'RPS/$' ýa-da 'SLO-minuts/$'.
12) SLO, ýalňyşlyklar we burn-rate
Domeniň her daşbordunda SLO kartoçka: maksady, döwri, ýalňyşlyklary (budget).
Burn-rate aladalary (iki tizlik: çalt/haýal).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Wizualizasiýa standartlary
Panel taýplary: hatarlar üçin time-series, KPI üçin stat, top-N üçin tabla, gizlinlik üçin heatmap.
Rowaýatlar we bölümler: hökmany; gysgaldylan bellikler, SI formaty.
Reňk zolaklary: SLO/threshold (birmeňzeş) boýunça ýaşyl/sary/gyzyl.
Paneliň beýany: nämäni ölçeýäris, çeşme, runbook baglanyşygy, eýesi.
14) Panel şablonlary (çalt başlamak)
(A) API Overview
KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown 'trace _ id = $trace'.
(B) Node Health
CPU/Memory/Disk/Network - p95 nod, "gyzgyn" sanawy.
Pressure, throttling, paket droplary.
(C) DB Health
TPS, latency p95, locks, replication lag, slow queries.
Ekap status/soňky üstünlik.
(D) Kafka Lag
Lag toparlar boýunça, sarp ediş tizligi vs prodýusing, rebalances.
(E) Cost & Util
Hyzmatlar boýunça cost/hour, idle%, rightsizing hints, çaklama.
15) Üýtgeýjiler we bellikler (maslahat berilýän toplum)
`env` (prod/stage/dev)
`region`/`az`
`cluster`
`namespace`/`service`/`workload`
`tenant`
`component` (edge/db/cache/queue)
`version` (release/git_sha)
16) Alerting we waka-dolandyryş bilen integrasiýa
Alertmanager/Grafana-alertlerde zerur dashbordlara salgylanmalar we eýýäm çalşylan üýtgeýjiler bilen düzgünler.
SLO kriteriýalaryna P1/P2, on-call-da auto-assign.
Grafalardaky relizleriň/hadysalaryň düşündirişleri.
17) Daşbordlaryň hili: çek-sanawy
- Eýesi we aragatnaşyk.
- SLO/thresholds resminamalaşdyryldy.
- Üýtgeýjiler işleýär we soraglaryň mukdaryny çäklendirýär.
- Bölümler we rowaýatlar bilen ähli paneller.
- Drilldown.
- Paneller 2-3 "ekrana" ýerleşdirilýär (bir kilometre gaýyşsyz).
- Haýyşlara jogap wagty ≤ 2-3 c (kesh, downsample).
- "Öli" paneller we deprecated-metrik ýok.
18) Daşbordlaryň öndürijiligi we bahasy
Agyr agregasiýalar üçin downsampling/recording rules.
Kesmek (query-frontend/repiter) we range/step çäkleri.
Synag hangary: TSDB/klasterlere standart daşbord haýyşlarynda ýük.
Bellikleriň sanasiýasy (pes kardinallyk), wildcards-dan ýüz öwürmek.
19) Giriş meýilnamasy (iterasiýa)
1. 1-nji hepde: Landing + K8s/Edge synlar, esasy SLO, eýeler.
2. 2-nji hepde: DB/Queues, bloglaryň we ýollaryň integrasiýasy (drilldown), burn-rate alertleri.
3. 3-nji hepde: FinOps-dashbordlary, rightsizing teklipleri, bahasy boýunça hasabat.
4. 4-nji hepde: Howpsuzlyk/Compliance, SLO-kartoçkalaryň awtogenerasiýasy, daşbordlaryň regression synaglary.
20) Mini-FAQ
Näçe dashbord gerek?
Domen üçin azyndan 1 syn + bir (K8s, Edge, DB, Queues, CI/CD, Howpsuzlyk, Cost). Galanlary kämillik ýaşyna görä.
Has möhümi - metrika ýa-da logi?
Alamatlar we SLO üçin metrikler, sebäpler üçin loglar. 'trace _ id' we tutanýerli bellikler arkaly baglanyşyk.
Panellerde nädip "gark bolmaz"?
Iýerarhiýa, aç-açan eýeler, metrikleriň arassaçylygy, yzygiderli gygyrmak we "öli" panelleri aýyrmak.
Jemi
Infrastruktura daşbordlary "owadan grafika" däl-de, dolandyryş guraly: SLO-gözegçilik, çalt RCA we aňly FinOps. Üýtgeýjileri, wizual şablonlary we eýelerini standartlaşdyryň; loglara/ýollara drilldown beriň we burn-rate aladalaryny awtomatlaşdyryň. Bu, tutuş platforma derejesinde öňünden aýdylýanlygy, reaksiýanyň tizligini we çykdajylaryň aç-açanlygyny üpjün eder.