Дашборд инфрақұрылымы

1) Бұл не үшін қажет

Кластер мен желіден бастап дерекқорлар мен кезекке дейін жай-күйінің бірыңғай көрінісі.
Жылдам RCA және пост-мортемалар: метрлік логтар трассалар.
Сервистер мен платформа бойынша SLO: қолжетімділік пен жасырындылықты бақылау.
ФинОпс-ашықтық: сервистер, tenant 'тар және сәрсенбі бойынша көлем/құн.
Комплаенс/қауіпсіздік: жапсырмалардың/осалдықтардың, қолжетімділіктердің, ауытқулардың мәртебесі.

Әдіснамалар: Golden Signals (latency, traffic, errors, saturation), сұрау салу үшін RED (Rate, Errors, Duration), ресурстар үшін USE (Utilization, Saturation, Errors).

2) Жақсы дашборд қағидаттары

Жарамдылық (Actionable): әрбір тақтасы «бұдан әрі не істеу керек» деп жауап береді.
Иерархиялық: шолу → домендер → deep dive → raw.
Үлгілер/айнымалылар: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Бірыңғай бірліктер: латенттілік үшін мс,%, RPS, операциялар/с, байт.
Консистентті таймпикер: әдепкі бойынша 1-6 сағат, жылдам пресеттер 5м/15м/24ч.
Drilldown: панельден логиге (Loki/ELK) және трассаға (Tempo/Jaeger).
Иелену: дашбордта иесі, SLO, runbook, on-call контактісі көрсетілген.

3) Қалталар мен рөлдердің құрылымы

00_Overview - платформаның жоғарғы деңгейіне шолу.
10_Kubernetes - кластерлер, нодтар, workloads, НРА/ВПА, контейнерлер.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, объектілік сақтау орны.
40_CICD_Runner - пайплайндар, агенттер, артефактілер, registry.
50_Security_Compliance - осалдықтар, патчтар, RBAC, audit events.
60_FinOps_Cost - сервистер/tenant/кластер бойынша құн, кәдеге жарату.
99_Runbooks - нұсқаулықтар мен SLO-карточкаларға сілтемелер.

Рөлдері: Platform-SRE (толық қолжетімділік), Service-Owner (өз кеңістіктері), Security/Compliance, Finance/FinOps, View-only.

4) Платформаның шолу дашборды (Landing)

Мақсаты: ≤ 30 сек ішінде бәрі дұрыс екенін түсіну.

Ұсынылатын тақталар:

SLO платформасы (API edge қолжетімділігі): мақсатты мән, нақты, қате дәуірі, burn-rate.
Негізгі кіру нүктелері бойынша латенттілік p50/p95/p99.
4xx/5xx қателері және регрессиясы бар топ-эндпоинттер.
Ресурстарды сатурациялау (CPU, RAM, желі, диск) - кластерлер бойынша p95.
Инциденттер/алерттар (белсенді) және соңғы релиздер.
Құны/сағат (шамамен) және апта бойынша тренд.

Айнымалылардың үлгілері: 'env', 'region', 'cluster', 'tenant'.

5) Kubernetes: кластерлер мен ворклоадтар

Негізгі топтар:

1. Кластер/Нодтар

Кәдеге жарату CPU/Memory, pressure (memory/cpu), IO дискісі, inode.
Кіші жүйелер: kube-api, etcd, бақылаушылар; kubelet health.

2. Ворклоадтар

RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA таргеттер vs нақты метриктер.

3. Кластер ішіндегі желілік жол

eBPF/Netflow: top talkers, drops, retransmits.

4. K8s оқиғалары

Rate по Warning/FailedScheduling/BackOff.

PromQL мысалдары:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, тор және DNS

Панельдер:

Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: трафикті аймақтар бойынша бөлу, оқиғаның failover.
DNS: бұранданың жасырындылығы, NXDOMAIN/SERVFAIL rate, hit-ratio кэш.
CDN/WAF: ережелер бойынша бұғаттау, аномальды трафик (боттар/скрейперлер).

Мысалы (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Деректер базасы және сторидж

PostgreSQL/MySQL: qps, latency, lock waits, replication lag, бэкаптар/сәтсіздіктер.
Redis: hit ratio, evictions, жады, баяу командалар.
Kafka/RabbitMQ: lag consumer-топтар бойынша, rebalances, unacked messages.
Нысанды сақтау орны: сұраулар, қателер, egress, lat p95.

PostgreSQL (мысал):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (мысал):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD және артефактілер

Pipeline overview: сәттілік/орындау уақыты, раннерлер кезегі.
Deployment health: нұсқалар, canary/blue-green күйі, жылыту уақыты.
Кескіндерді тіркеу: өлшемі, соңғы push 'и, кәдеге жарату.

Мысал:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Қауіпсіздік және комплаенс

Патчтар және осалдықтар: сыни CVE бар нод/бейнелердің үлесі, орташа «патчқа дейінгі уақыт».
RBAC және құпиялар: қол жеткізудің сәтсіз әрекеттері, құпияларға жүгіну.
Аудит-оқиғалар: сыни компоненттердегі кірістер/өзгерістер, drift.
WAF/DLP/PII-редакция: ережелерді бұғаттау, бүркемелеу қателері.

10) Саңылаулар мен трассалар: толассыз шолу

Логтар қателерінің жиынтығы (Loki/ELK): top exceptions, жаңа белгілер.
Сүзгілермен логтарға өту түймешігі (LogQL/ES query).
Трассалар: top slow spans, trace контекстісіз сұраулар пайызы.

LogQL мысалдары:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: құны және кәдеге жарату

Сервистер/тенанттар/кластерлер бойынша құны (биллинг/экспорттаушылардың деректері бойынша).
Ыстық/суық тораптар: idle ресурстары, rightsizing ұсыныстар (CPU/Mem).
Data egress, L7 сұраулары және олардың құны.
Динамика: апта/ай, болжам.

Негізгі метриктер:

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
тиімділік коэффициенті: 'RPS/$' немесе 'SLO-минут/$'.

12) SLO, қателер және burn-rate

Доменнің әрбір дашбордындағы SLO карточкасы: мақсаты, кезеңі, қателері (budget).
Burn-rate алерта (екі жылдамдық: жылдам/баяу).

PromQL мысалдары («5xx немесе p95> табалдырық» қатесі):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 Сіздің 'SLO' -ңызды және multi-window, multi-burn әдістемесі бойынша коэффициенттерді орналастырыңыз.

13) Визуализация стандарттары

Панельдер тайпсы: қатарлар үшін time-series, KPI үшін stat, top-N үшін table, жасырындылық үшін heatmap.
Аңыздар мен бірліктер: міндетті; қысқартылған лейблдер, SI-формат.
Түсті аймақтар: жасыл/сары/қызыл SLO/threshold бойынша (біркелкі).
Панельдің сипаттамасы: өлшенетін нәрсе, көз, runbook сілтемесі, иесі.

14) Панельдер үлгілері (жылдам бастау)

(A) API Overview

KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown 'trace _ id = $trace' логында.

(B) Node Health

CPU/Memory/Disk/Network - нод бойынша p95, «ыстық» тізімі.
Pressure, throttling, пакеттер дропы.

(C) DB Health

TPS, latency p95, locks, replication lag, slow queries.
Бэкап-мәртебе/соңғы табыс.

(D) Kafka Lag

Lag топтар бойынша, тұтыну жылдамдығы vs продюсинг, rebalances.

(E) Cost & Util

Cost/hour сервистер бойынша, idle%, rightsizing hints, болжам.

15) Айнымалы және тегтер (ұсынылатын жиынтық)

`env` (prod/stage/dev)

`region`/`az`

`cluster`

`namespace`/`service`/`workload`

`tenant`

`component` (edge/db/cache/queue)

`version` (release/git_sha)

16) Алертингпен және инцидент-менеджментпен интеграция

Ереже Alertmanager/Графана-алерттерде қажетті дашбордқа сілтемелермен және айнымалылармен орналастырылған.
SLO-критерийлер бойынша P1/P2, on-call бойынша auto-assign.
Бағандардағы релиздердің/инциденттердің аңдатпалары.

17) Дашбордтардың сапасы: чек-парақ

Иесі және контактісі.
SLO/thresholds құжатталған.
Айнымалылар жұмыс істейді және сұрау көлемін шектейді.
Барлық панельдер бірліктер мен аңыз.
Drilldown логиге/трассаға.
Панельдер 2-3 «экранда» орналасады (километрге скроллсыз).
Сұрауларға жауап беру уақыты ≤ 2-3 с (кэш, downsample).
«Өлі» панельдер мен deprecated-метриктер жоқ.

18) Дашбордтардың өз өнімділігі мен құны

Ауыр агрегациялар үшін Downsampling/recording rules.
Кэштеу (query-frontend/репитер) және range/step лимиттері.
Тест ангары: типтік дашборд-сұрауларда TSDB/кластерлерге жүктеме.
Лейблдерді санациялау (төмен түбегейлілік), wildcards-тан бас тарту.

19) Енгізу жоспары (итерация)

1. Апта 1: Лэндинг + K8s/Edge шолулар, негізгі SLO, иелері.
2. Апта 2: DB/Queues, логтар мен трассаларды біріктіру (drilldown), burn-rate алерта.
3. Апта 3: FinOps-дашбордтар, rightsizing ұсынымдар, құн бойынша есеп.
4. Апта 4 +: Security/Compliance, SLO-карточкаларының автогенерациясы, дашбордтардың регрессиялық тестілері.

20) Mini-FAQ

Қанша дашборд керек?
Кем дегенде 1 шолу + бір доменге бір-бірден (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Қалғаны - жетілгендігі бойынша.

Метрика ма әлде логия ма?
Симптомдар мен SLO үшін метриктер, себептер үшін логалар. 'trace _ id' және консистентті лейблдер арқылы байлам.

Панельдерде «суға батпауға» қалай болады?
Иерархия, анық иеленушілер, метрика гигиенасы, «өлі» панельдерді үнемі реву және жою.

Жиынтығы

Инфрақұрылымдық дашбордтар - бұл «әдемі графиктер» емес, басқару құралы: SLO-бақылау, жылдам RCA және саналы FinOps. Айнымалыларды, көрнекі үлгілерді және иелерін стандарттаңыз; логтарға/трассаларға drilldown беруді және burn-rate алаңдарын автоматтандыруды қамтамасыз етіңіз. Бұл болжамдылықты, реакция жылдамдығын және бүкіл платформа деңгейінде құнның ашықтығын береді.

Дашборд инфрақұрылымы

(B) Node Health

(C) DB Health

(D) Kafka Lag

(E) Cost & Util

Жиынтығы

Бізбен байланысыңыз

Жылдам байланыс

Бейне жақында жаңартылады

Қазір біз жобалармен өте қатты айналысып жатырмыз