Dashbord infrastrukturu

1) Niyə lazımdır

Vəziyyətin vahid mənzərəsi: klaster və şəbəkələrdən tutmuş verilənlər bazasına və növbələrə qədər.
Sürətli RCA və Post-Mortems: Bir dəstə metrik log trass.
Xidmətlər və platforma üzrə SLO: əlçatanlığa və gizliliyə nəzarət.
FinOps-şəffaflıq: xidmətlər, tenant 'am və çərşənbə üzrə həcm/dəyər.
Komplayens/təhlükəsizlik: yamaq/zəiflik, giriş, anomaliyalar statusu.

Metodologiyalar: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) sorğular üçün, USE (Utilization, Saturation, Errors) resurslar üçün.

2) Yaxşı dashboard prinsipləri

Fəaliyyət (Actionable): hər panel «bundan sonra nə» cavab verir.
İyerarxiya: baxış → domenlər → deep dive → raw.
Şablonlar/dəyişənlər: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Vahid vahidlər: latentlik üçün ms,%, RPS, əməliyyatlar/s, baytlar.
Konsistent zamanlayıcı: default 1-6 saat, sürətli presetlər 5m/15m/24h.
Drilldown: Log (Loki/ELK) və Track (Tempo/Jaeger) panelindən.
Sahiblik: Dashboard sahibi, SLO, runbook, on-call əlaqə göstərir.

3) Qovluqların strukturu və rolları

00_Overview - platformanın yuxarı səviyyəli görünüşü.
10_Kubernetes - klasterlər, nodlar, workloads, NRA/HPA, konteynerlər.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, obyekt saxlama.
40_CICD_Runner - paylaynlar, agentlər, artefaktlar, registry.
50_Security_Compliance - boşluqlar, yamalar, RBAC, audit events.
60_FinOps_Cost -/tenant/klaster xidmətləri, utilizasiya.
99_Runbooks - təlimatlara və SLO kartlarına istinadlar.

Rollar: Platform-SRE (tam giriş), Service-Owner (öz məkanları), Security/Compliance, Finance/FinOps, View-only.

4) Platforma Dashboard (Landing)

Məqsəd: ≤ 30 saniyə ərzində hər şeyin qaydasında olub olmadığını anlamaq.

Tövsiyə olunan panellər:

SLO platforması (API edge əlçatanlığı): hədəf dəyəri, faktiki, səhv dövrü, burn-rate.
Əsas giriş nöqtələrində gecikmə p50/p95/p99.
4xx/5xx səhvləri və regressiya ilə üst end nöqtələri.
Resursların doyması (CPU, RAM, şəbəkə, disk) - klasterlər üzrə p95.
Hadisələr/alertlər (aktiv) və son buraxılışlar.
Qiymət/saat (təqribən) və həftə trend.

Dəyişən şablonları: 'env', 'region', 'cluster', 'tenant'.

5) Kubernetes: klasterlər və workloads

Əsas qruplar:

1. Klaster/Nodlar

CPU/Memory, pressure (memory/cpu), IO disk, inode.
Alt sistemlər: kube-api, etcd, nəzarətçilər; kubelet health.

2. Workloads

RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA hədəfləri vs faktiki metriklər.

3. Klaster daxilində şəbəkə yolu

eBPF/Netflow: top talkers, drops, retransmits.

4. K8s hadisələri

Rate по Warning/FailedScheduling/BackOff.

PromQL nümunələri:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, grid və DNS

Panellər:

Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: zonalar üzrə trafik paylanması, hadisələrin failover.
DNS: latentlik rezolver, NXDOMAIN/SERVFAIL rate, hit-ratio cache.
CDN/WAF: qaydalara uyğun kilidləmə, anormal trafik (botlar/skreyperlər).

Nümunə (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Verilənlər bazası və hekayələr

PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backup/uğursuzluqlar.
Redis: hit ratio, evictions, yaddaş, yavaş komandalar.
Kafka/RabbitMQ: lag consumer qrupları, rebalances, unacked messages.
Obyekt saxlama: sorğular, səhvlər, egress, lat p95.

PostgreSQL (nümunə):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (nümunə):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD və artefaktlar

Pipeline overview: müvəffəqiyyət/tamamlanma vaxtı, ranner növbəsi.
Deployment health: versiyalar, canary/blue-green status, istiləşmə vaxtı.
Şəkilləri qeyd edin: ölçü, son push 'i, utilizasiya.

Nümunə:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Təhlükəsizlik və uyğunluq

Yamalar və boşluqlar: kritik CVE olan node/şəkillərin payı, orta «yamadan əvvəl vaxt».
RBAC və sirləri: uğursuz giriş cəhdləri, sirlərə müraciət.
Audit-hadisələr: kritik komponentlərdə girişlər/dəyişikliklər, drift.
WAF/DLP/PII-edition: kilidləmə qaydaları, kamuflyaj səhvləri.

10) Log və Tracks: keçid baxış

Loki/ELK: top exceptions, yeni işarələr.
LogQL/ES query düyməsi.
Tracks: top slow spans, trace konteksti olmadan sorğu faizi.

LogQL nümunələri:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: dəyəri və təkrar emal

Xidmətlər/tenantlar/klasterlər üzrə qiymət (billinq/ixracatçılar üzrə).
İsti/soyuq qovşaqlar: idle resursları, rightsizing tövsiyələr (CPU/Mem).
Data egress, L7 sorğular və onların dəyəri.
Dinamika: həftə/ay, proqnoz.

Açar metriklər:

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
effektivlik əmsalı: 'RPS/$' və ya 'SLO-dəqiqə/$'.

12) SLO, səhvlər və burn-rate

Hər bir domen dashboard SLO kartı: məqsəd, dövr, səhvlər (budget).
Burn-rate alert (iki sürət: sürətli/yavaş).

PromQL nümunələri («5xx və ya p95> eşik» kimi səhv):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 SLO 'və multi-window, multi-burn metodologiyası üzrə əmsalları əvəz edin.

13) Vizuallaşdırma standartları

Panel ayaqları: sıra üçün time-series, KPI üçün stat, top-N üçün masa, gecikmə üçün heatmap.
Əfsanələr və birliklər: məcburi; qısaldılmış etiketlər, SI formatı.
Rəng zonaları: SLO/threshold (vahid) yaşıl/sarı/qırmızı.
Panel təsviri: ölçmək, mənbə, runbook-link, sahibi.

14) Panel şablonları (sürətli başlanğıc)

(A) API Overview

KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown log 'trace _ id = $trace'.

(B) Node Health

CPU/Memory/Disk/Network - p95 nod, «isti» siyahısı.
Pressure, throttling, drops paketləri.

(C) DB Health

TPS, latency p95, locks, replication lag, slow queries.
Backup status/son uğur.

(D) Kafka Lag

Lag qrupları, istehlak sürəti vs istehsal, rebalances.

(E) Cost & Util

Cost/hour, idle%, rightsizing hints, proqnoz.

15) Dəyişənlər və etiketlər (tövsiyə olunan dəst)

`env` (prod/stage/dev)

`region`/`az`

`cluster`

`namespace`/`service`/`workload`

`tenant`

`component` (edge/db/cache/queue)

`version` (release/git_sha)

16) Alertinq və insident menecmenti ilə inteqrasiya

Qaydalar Alertmanager/Graphana-alerts lazımi dashboard bağlantıları və artıq dəyişənlər ilə.
SLO P1/P2, on-call-da auto-assign.
Qraflarda relizlərin/hadisələrin şərhləri.

17) Daşbordların keyfiyyəti: çek siyahısı

Sahibi və əlaqə.
SLO/thresholds sənədləşdirilmişdir.
Dəyişənlər işləyir və sorğuların həcmini məhdudlaşdırır.
Unit və əfsanə ilə bütün panellər.
Drilldown in log/track.
Panellər 2-3 «ekrana» (hər kilometr üçün skroll olmadan) yerləşdirilir.
Sorğu cavab vaxtı ≤ 2-3 c (cache, downsample).
No «ölü» panellər və deprecated-metrik.

18) Dashboard məhsuldarlığı və dəyəri

ağır aqreqasiya üçün Downsampling/recording rules.
Caching (query-frontend/repiter) və range/step limitləri.
Test anqarı: tipik daşbord tələbləri ilə TSDB/klasterlərə yük.
Etiketlərin yenidən qurulması (aşağı kardinallıq), wildcards-dan imtina.

19) Tətbiq planı (iterasiya)

1. Həftə 1: Açılış + K8s/Edge rəylər, əsas SLO, sahibləri.
2. Həftə 2: DB/Queues, log və trass inteqrasiyası (drilldown), burn-rate alert.
3. Həftə 3: FinOps dashboard, rightsizing tövsiyələr, dəyəri hesabat.
4. Həftə 4 +: Təhlükəsizlik/Compliance, SLO kartlarının avtomatik generasiyası, daşbordların reqressiya testləri.

20) Mini-FAQ

Neçə dashboard lazımdır?
Domen başına ən azı 1 baxış + bir (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Qalanları - yetkinlik.

Hansı daha vacibdir - metrika və ya log?
Simptomlar və SLO üçün metriklər, səbəblər üçün loglar. 'trace _ id' və konsistent etiketləri vasitəsilə bağlayın.

Necə panellərdə «boğulmaq» deyil?
Hiyerarxiya, açıq sahibləri, metrik gigiyena, mütəmadi revyu və «ölü» panellərin çıxarılması.

Yekun

Infrastruktur daşbordları «gözəl qrafiklər» deyil, idarəetmə alətidir: SLO-nəzarət, sürətli RCA və şüurlu FinOps. Dəyişənləri, vizual şablonları və sahiblərini standartlaşdırın; log/track drilldown təmin və burn-rate alert avtomatlaşdırmaq. Bu, bütün platforma səviyyəsində proqnozlaşdırıla bilən, reaksiya sürəti və dəyər şəffaflığı verəcəkdir.

Dashbord infrastrukturu

(B) Node Health

(C) DB Health

(D) Kafka Lag

(E) Cost & Util

Yekun

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq