Дашборд инфраструктурасы
1) Эмне үчүн керек
Мамлекеттин бирдиктүү картинасы: кластерден жана тармактардан баштап маалымат базаларына жана кезекке чейин.
Fast RCA жана Post-Morthems: бир топ метрикалык Логдорду жолдор.
Кызмат көрсөтүүлөр жана платформа боюнча SLO: жеткиликтүүлүктү жана жашыруун контролдоо.
FinOps-ачык-айкындуулук: кызмат, tenant 'am жана шаршемби боюнча көлөмү/наркы.
Комплаенс/коопсуздук: тактар/алсыздык, жеткиликтүүлүк, аномалиялар статусу.
Методологиялар: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) үчүн суроо, USE (Utilization, Saturation, Errors) үчүн ресурстар.
2) Жакшы дашборд принциптери
Иш-аракет (Actionable): ар бир панели жооп берет ", андан ары эмне кылуу керек".
Иерархия: кароо → домендер → deep dive → raw.
Шаблондор/өзгөрмөлөр: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Бирдиктүү бирдиктер: ms латенттүүлүк үчүн,%, RPS, операциялар/с, байт.
Консистенттик таймпикер: 1-6 саат демейки, 5m/15m/24h тез presets.
Drilldown: Логидеги панелден (Loki/ELK) жана тректен (Tempo/Jaeger).
Ээлик кылуу: dashboard ээси көрсөтүлгөн, SLO, runbook, on-call байланыш.
3) Папкалардын түзүлүшү жана ролдору
00_Overview - платформанын жогорку деңгээлдеги көрүнүшү.
10_Kubernetes - кластерлер, насостор, workloads, НРА/HPA, контейнерлер.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, объект сактоо.
40_CICD_Runner - пайплайндар, агенттер, экспонаттар, registry.
50_Security_Compliance - кемчиликтер, тактар, RBAC, аудит events.
60_FinOps_Cost -/tenant/кластер кызматтарынын наркы, утилдештирүү.
99_Runbooks - көрсөтмөлөргө жана SLO-карталарга шилтемелер.
Ролдору: Platform-SRE (толук жеткиликтүүлүк), Service-Owner (өз мейкиндиктери), Security/Compliance, Finance/FinOps, View-only.
4) Explorer Description платформа (Landing)
Максаты: ≤ 30 секунд баары жакшы экенин түшүнүү.
Сунушталган панелдер:- SLO платформа (жеткиликтүү API edge): максаттуу мааниси, иш жүзүндө, ката доору, burn-rate.
- Негизги кирүү чекиттери боюнча p50/p95/p99 жашыруун.
- 4xx/5xx каталары жана регрессия менен Top-End.
- Ресурстардын каныккандыгы (CPU, RAM, тармак, диск) - кластерлер боюнча p95.
- Окуялар/Алерт (активдүү) жана акыркы релиздер.
- Баасы/саат (болжол менен) жана жумалык тренд.
Өзгөрмөлүү үлгүлөр: 'env', 'region', 'cluster', 'tenant'.
5) Kubernetes: кластерлер жана workloads
Негизги топтор:1. Кластер
кайра иштетүү CPU/Memory, pressure (memory/cpu), диск IO, inode.
Подсистемалар: kube-api, etcd, контроллерлер; kubelet health.
2. Ворклоадалар
RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA максаттары vs иш жүзүндөгү метрика.
3. Кластердин ичиндеги тармактык жол
eBPF/Netflow: top talkers, drops, retransmits.
4. Окуялар K8s
Rate по Warning/FailedScheduling/BackOff.
PromQL мисалдары:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, тор жана DNS
Панелдер:- Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: зоналар боюнча жол бөлүштүрүү, failover окуялар.
- DNS: кайчылаш жашыруун, NXDOMAIN/SERVFAIL rate, hit-ratio кэш.
- CDN/WAF: эрежелер боюнча бөгөттөө, анормалдуу трафик (боттор/скреперлер).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Маалымат базалары жана окуялар
PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backaps/мүчүлүштүктөр.
Redis: hit ratio, evictions, эс, жай командалар.
Kafka/RabbitMQ: lag боюнча consumer-топтор, rebalances, unacked messages.
Объект сактоо: суроолор, каталар, egress, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (мисал):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD жана экспонаттар
Pipeline overview: ийгилик/аткаруу убактысы, раннерлердин кезеги.
Deployment health: версиялары, canary/blue-green абалы, жылытуу убактысы.
Сүрөттөрдү каттоо: өлчөмү, акыркы push 'i, утилдештирүү.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Коопсуздук жана комплаенс
тактар жана алсыздыгы: критикалык CVE менен nod/сүрөттөр үлүшү, орточо "тактоо үчүн убакыт".
RBAC жана сырлар: ийгиликсиз кирүү аракеттери, сырларга кайрылуу.
Аудит-окуялар: кириш/маанилүү компоненттери өзгөрүүлөр, drift.
WAF/DLP/PII-Edition: эрежелерди бөгөт коюу, жашыруу каталар.
10) Логи жана жолдор: аркылуу карап чыгуу
Loki/ELK: top exceptions, жаңы белгилер.
"Фильтрлүү логдорго өтүү" баскычы (LogQL/ES query).
Жолдор: top slow spans, трасса контекстинде жок суроо пайызы.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: наркы жана кайра иштетүү
Кызмат көрсөтүүлөр/тенанттар/кластерлер боюнча наркы (биллинг/экспорттоочулардын маалыматы боюнча).
Ысык/муздак түйүндөр: idle ресурстар, rightsizing сунуштар (CPU/Mem).
Data egress, L7 суроолор жана алардын наркы.
Динамика: жума/ай, болжолдоо.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- натыйжалуулугу: 'RPS/$' же 'SLO-мүнөт/$'.
12) SLO, каталар жана burn-rate
SLO карта ар бир дашборд домен: максаты, мезгил, каталар (budget).
Burn-rate алерт (эки ылдамдык: тез/жай).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Визуализация стандарттары
Тайпс панелдер: катар үчүн убакыт сериясы, KPI үчүн stat, top-N үчүн стол, жашыруун үчүн heatmap.
Уламыштар жана бирдиктер: милдеттүү; кыскартылган белги, SI-формат.
Color зоналары: SLO/threshold (бирдей) боюнча жашыл/сары/кызыл.
панелдин баяндамасы: өлчөө, булагы, runbook-шилтеме, ээси.
14) панелдик үлгүлөрү (тез баштоо)
(A) API Overview
KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Логиде Drilldown 'trace _ id = $trace'.
(B) Node Health
CPU/Memory/Disk/Network - p95 нод, "ысык" тизмеси.
Pressure, throttling, пакеттердин тамчы.
(C) DB Health
TPS, latency p95, locks, replication lag, slow queries.
Backup статус/акыркы ийгилик.
(D) Kafka Lag
Lag топтор боюнча, керектөө ылдамдыгы vs producing, rebalances.
(E) Cost & Util
Cost/hour кызмат, idle%, rightsizing hints, болжолдоо.
15) Өзгөрмөлүү жана тактар (сунушталган топтому)
`env` (prod/stage/dev)
`region`/`az`
`cluster`
`namespace`/`service`/`workload`
`tenant`
`component` (edge/db/cache/queue)
`version` (release/git_sha)
16) Алертинг жана инцидент-менеджмент менен интеграция
Эрежелер Alertmanager/Graphana-Alerts туура dashboard жана буга чейин алмаштырылган өзгөрмөлүү шилтемелер менен.
SLO критерийлери боюнча P1/P2, on-call боюнча auto-assign.
Тилкелердеги релиздердин/окуялардын аннотациялары.
17) Дашборд сапаты: чек тизмеси
- Ээси жана байланыш.
- SLO/thresholds документтештирилген.
- Өзгөрмөлөр иштеп, суроо-талаптардын көлөмүн чектейт.
- Бардык панелдер менен бирдик жана легенда.
- Drilldown Логи/жолдорунда.
- панелдер 2-3 "экрандарда" (километрге скролл жок).
- Суроо-жооп убактысы ≤ 2-3 c (кэш, downsample).
- Эч кандай "өлүк" панелдер жана deprecated-метр.
18) Dashboard аткаруу жана наркы
Оор агрегаттар үчүн Downsampling/recording руль.
Кэширование (query-frontend/репитер) жана range/step боюнча лимиттер.
Hangar сыноо: типтүү dashboard суроо TSDB/кластерлерди жүктөө.
этикеткаларды калыбына келтирүү (төмөн кардиналдуулук), wildcards баш тартуу.
19) Ишке ашыруу планы (итерация)
1. Жума 1: жер + K8s/Edge сын-пикирлер, негизги SLO, ээлери.
2. Апта 2: DB/Queues, Логин жана жолдорду бириктирүү (drilldown), burn-rate алерт.
3. Жума 3: FinOps-dashboard, rightsizing сунуштар, наркы боюнча отчет.
4. Апта 4 +: Коопсуздук/Compliance, SLO-карталарды AutoGeneration, дашборд регрессия тесттер.
20) Mini-FAQ
Канча Дашборд керек?
Минималдуу 1 карап чыгуу + доменге бирден (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Калганы - жетилгендиги боюнча.
Андан да маанилүүсү - метрика же логи?
симптомдору жана SLO үчүн Metrics, себептер үчүн Логи. 'trace _ id' жана консистенттик лейблдер аркылуу байланыш.
Кантип панелдерде "чөгүп"?
Иерархия, ачык ээлери, гигиеналык метрика, үзгүлтүксүз ызы-чуу жана "өлүк" панелдерди алып салуу.
Жыйынтык
Инфраструктуралык дашборддор "кооз графиктер" эмес, башкаруу куралы: SLO-башкаруу, тез RCA жана аң-сезимдүү FinOps. Өзгөрмөлөрдү, визуалдык шаблондорду жана ээлерин стандартташтыруу; Бурн-rate Алерт Логдор/жолдор жана автоматташтыруу drilldown камсыз кылуу. Бул алдын ала, жооп ылдамдыгы жана бүт платформа деъгээлинде наркынын ачыктыгын берет.