Дашборд инфрақұрылымы
1) Бұл не үшін қажет
Кластер мен желіден бастап дерекқорлар мен кезекке дейін жай-күйінің бірыңғай көрінісі.
Жылдам RCA және пост-мортемалар: метрлік логтар трассалар.
Сервистер мен платформа бойынша SLO: қолжетімділік пен жасырындылықты бақылау.
ФинОпс-ашықтық: сервистер, tenant 'тар және сәрсенбі бойынша көлем/құн.
Комплаенс/қауіпсіздік: жапсырмалардың/осалдықтардың, қолжетімділіктердің, ауытқулардың мәртебесі.
Әдіснамалар: Golden Signals (latency, traffic, errors, saturation), сұрау салу үшін RED (Rate, Errors, Duration), ресурстар үшін USE (Utilization, Saturation, Errors).
2) Жақсы дашборд қағидаттары
Жарамдылық (Actionable): әрбір тақтасы «бұдан әрі не істеу керек» деп жауап береді.
Иерархиялық: шолу → домендер → deep dive → raw.
Үлгілер/айнымалылар: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Бірыңғай бірліктер: латенттілік үшін мс,%, RPS, операциялар/с, байт.
Консистентті таймпикер: әдепкі бойынша 1-6 сағат, жылдам пресеттер 5м/15м/24ч.
Drilldown: панельден логиге (Loki/ELK) және трассаға (Tempo/Jaeger).
Иелену: дашбордта иесі, SLO, runbook, on-call контактісі көрсетілген.
3) Қалталар мен рөлдердің құрылымы
00_Overview - платформаның жоғарғы деңгейіне шолу.
10_Kubernetes - кластерлер, нодтар, workloads, НРА/ВПА, контейнерлер.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, объектілік сақтау орны.
40_CICD_Runner - пайплайндар, агенттер, артефактілер, registry.
50_Security_Compliance - осалдықтар, патчтар, RBAC, audit events.
60_FinOps_Cost - сервистер/tenant/кластер бойынша құн, кәдеге жарату.
99_Runbooks - нұсқаулықтар мен SLO-карточкаларға сілтемелер.
Рөлдері: Platform-SRE (толық қолжетімділік), Service-Owner (өз кеңістіктері), Security/Compliance, Finance/FinOps, View-only.
4) Платформаның шолу дашборды (Landing)
Мақсаты: ≤ 30 сек ішінде бәрі дұрыс екенін түсіну.
Ұсынылатын тақталар:- SLO платформасы (API edge қолжетімділігі): мақсатты мән, нақты, қате дәуірі, burn-rate.
- Негізгі кіру нүктелері бойынша латенттілік p50/p95/p99.
- 4xx/5xx қателері және регрессиясы бар топ-эндпоинттер.
- Ресурстарды сатурациялау (CPU, RAM, желі, диск) - кластерлер бойынша p95.
- Инциденттер/алерттар (белсенді) және соңғы релиздер.
- Құны/сағат (шамамен) және апта бойынша тренд.
Айнымалылардың үлгілері: 'env', 'region', 'cluster', 'tenant'.
5) Kubernetes: кластерлер мен ворклоадтар
Негізгі топтар:1. Кластер/Нодтар
Кәдеге жарату CPU/Memory, pressure (memory/cpu), IO дискісі, inode.
Кіші жүйелер: kube-api, etcd, бақылаушылар; kubelet health.
2. Ворклоадтар
RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA таргеттер vs нақты метриктер.
3. Кластер ішіндегі желілік жол
eBPF/Netflow: top talkers, drops, retransmits.
4. K8s оқиғалары
Rate по Warning/FailedScheduling/BackOff.
PromQL мысалдары:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, тор және DNS
Панельдер:- Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: трафикті аймақтар бойынша бөлу, оқиғаның failover.
- DNS: бұранданың жасырындылығы, NXDOMAIN/SERVFAIL rate, hit-ratio кэш.
- CDN/WAF: ережелер бойынша бұғаттау, аномальды трафик (боттар/скрейперлер).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Деректер базасы және сторидж
PostgreSQL/MySQL: qps, latency, lock waits, replication lag, бэкаптар/сәтсіздіктер.
Redis: hit ratio, evictions, жады, баяу командалар.
Kafka/RabbitMQ: lag consumer-топтар бойынша, rebalances, unacked messages.
Нысанды сақтау орны: сұраулар, қателер, egress, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (мысал):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD және артефактілер
Pipeline overview: сәттілік/орындау уақыты, раннерлер кезегі.
Deployment health: нұсқалар, canary/blue-green күйі, жылыту уақыты.
Кескіндерді тіркеу: өлшемі, соңғы push 'и, кәдеге жарату.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Қауіпсіздік және комплаенс
Патчтар және осалдықтар: сыни CVE бар нод/бейнелердің үлесі, орташа «патчқа дейінгі уақыт».
RBAC және құпиялар: қол жеткізудің сәтсіз әрекеттері, құпияларға жүгіну.
Аудит-оқиғалар: сыни компоненттердегі кірістер/өзгерістер, drift.
WAF/DLP/PII-редакция: ережелерді бұғаттау, бүркемелеу қателері.
10) Саңылаулар мен трассалар: толассыз шолу
Логтар қателерінің жиынтығы (Loki/ELK): top exceptions, жаңа белгілер.
Сүзгілермен логтарға өту түймешігі (LogQL/ES query).
Трассалар: top slow spans, trace контекстісіз сұраулар пайызы.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: құны және кәдеге жарату
Сервистер/тенанттар/кластерлер бойынша құны (биллинг/экспорттаушылардың деректері бойынша).
Ыстық/суық тораптар: idle ресурстары, rightsizing ұсыныстар (CPU/Mem).
Data egress, L7 сұраулары және олардың құны.
Динамика: апта/ай, болжам.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- тиімділік коэффициенті: 'RPS/$' немесе 'SLO-минут/$'.
12) SLO, қателер және burn-rate
Доменнің әрбір дашбордындағы SLO карточкасы: мақсаты, кезеңі, қателері (budget).
Burn-rate алерта (екі жылдамдық: жылдам/баяу).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Визуализация стандарттары
Панельдер тайпсы: қатарлар үшін time-series, KPI үшін stat, top-N үшін table, жасырындылық үшін heatmap.
Аңыздар мен бірліктер: міндетті; қысқартылған лейблдер, SI-формат.
Түсті аймақтар: жасыл/сары/қызыл SLO/threshold бойынша (біркелкі).
Панельдің сипаттамасы: өлшенетін нәрсе, көз, runbook сілтемесі, иесі.
14) Панельдер үлгілері (жылдам бастау)
(A) API Overview
KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Drilldown 'trace _ id = $trace' логында.
(B) Node Health
CPU/Memory/Disk/Network - нод бойынша p95, «ыстық» тізімі.
Pressure, throttling, пакеттер дропы.
(C) DB Health
TPS, latency p95, locks, replication lag, slow queries.
Бэкап-мәртебе/соңғы табыс.
(D) Kafka Lag
Lag топтар бойынша, тұтыну жылдамдығы vs продюсинг, rebalances.
(E) Cost & Util
Cost/hour сервистер бойынша, idle%, rightsizing hints, болжам.
15) Айнымалы және тегтер (ұсынылатын жиынтық)
`env` (prod/stage/dev)
`region`/`az`
`cluster`
`namespace`/`service`/`workload`
`tenant`
`component` (edge/db/cache/queue)
`version` (release/git_sha)
16) Алертингпен және инцидент-менеджментпен интеграция
Ереже Alertmanager/Графана-алерттерде қажетті дашбордқа сілтемелермен және айнымалылармен орналастырылған.
SLO-критерийлер бойынша P1/P2, on-call бойынша auto-assign.
Бағандардағы релиздердің/инциденттердің аңдатпалары.
17) Дашбордтардың сапасы: чек-парақ
- Иесі және контактісі.
- SLO/thresholds құжатталған.
- Айнымалылар жұмыс істейді және сұрау көлемін шектейді.
- Барлық панельдер бірліктер мен аңыз.
- Drilldown логиге/трассаға.
- Панельдер 2-3 «экранда» орналасады (километрге скроллсыз).
- Сұрауларға жауап беру уақыты ≤ 2-3 с (кэш, downsample).
- «Өлі» панельдер мен deprecated-метриктер жоқ.
18) Дашбордтардың өз өнімділігі мен құны
Ауыр агрегациялар үшін Downsampling/recording rules.
Кэштеу (query-frontend/репитер) және range/step лимиттері.
Тест ангары: типтік дашборд-сұрауларда TSDB/кластерлерге жүктеме.
Лейблдерді санациялау (төмен түбегейлілік), wildcards-тан бас тарту.
19) Енгізу жоспары (итерация)
1. Апта 1: Лэндинг + K8s/Edge шолулар, негізгі SLO, иелері.
2. Апта 2: DB/Queues, логтар мен трассаларды біріктіру (drilldown), burn-rate алерта.
3. Апта 3: FinOps-дашбордтар, rightsizing ұсынымдар, құн бойынша есеп.
4. Апта 4 +: Security/Compliance, SLO-карточкаларының автогенерациясы, дашбордтардың регрессиялық тестілері.
20) Mini-FAQ
Қанша дашборд керек?
Кем дегенде 1 шолу + бір доменге бір-бірден (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Қалғаны - жетілгендігі бойынша.
Метрика ма әлде логия ма?
Симптомдар мен SLO үшін метриктер, себептер үшін логалар. 'trace _ id' және консистентті лейблдер арқылы байлам.
Панельдерде «суға батпауға» қалай болады?
Иерархия, анық иеленушілер, метрика гигиенасы, «өлі» панельдерді үнемі реву және жою.
Жиынтығы
Инфрақұрылымдық дашбордтар - бұл «әдемі графиктер» емес, басқару құралы: SLO-бақылау, жылдам RCA және саналы FinOps. Айнымалыларды, көрнекі үлгілерді және иелерін стандарттаңыз; логтарға/трассаларға drilldown беруді және burn-rate алаңдарын автоматтандыруды қамтамасыз етіңіз. Бұл болжамдылықты, реакция жылдамдығын және бүкіл платформа деңгейінде құнның ашықтығын береді.