GH GambleHub

Дашборд инфраструктурасы

1) Эмне үчүн керек

Мамлекеттин бирдиктүү картинасы: кластерден жана тармактардан баштап маалымат базаларына жана кезекке чейин.
Fast RCA жана Post-Morthems: бир топ метрикалык Логдорду жолдор.
Кызмат көрсөтүүлөр жана платформа боюнча SLO: жеткиликтүүлүктү жана жашыруун контролдоо.
FinOps-ачык-айкындуулук: кызмат, tenant 'am жана шаршемби боюнча көлөмү/наркы.
Комплаенс/коопсуздук: тактар/алсыздык, жеткиликтүүлүк, аномалиялар статусу.

Методологиялар: Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) үчүн суроо, USE (Utilization, Saturation, Errors) үчүн ресурстар.

2) Жакшы дашборд принциптери

Иш-аракет (Actionable): ар бир панели жооп берет ", андан ары эмне кылуу керек".
Иерархия: кароо → домендер → deep dive → raw.
Шаблондор/өзгөрмөлөр: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Бирдиктүү бирдиктер: ms латенттүүлүк үчүн,%, RPS, операциялар/с, байт.
Консистенттик таймпикер: 1-6 саат демейки, 5m/15m/24h тез presets.
Drilldown: Логидеги панелден (Loki/ELK) жана тректен (Tempo/Jaeger).
Ээлик кылуу: dashboard ээси көрсөтүлгөн, SLO, runbook, on-call байланыш.

3) Папкалардын түзүлүшү жана ролдору

00_Overview - платформанын жогорку деңгээлдеги көрүнүшү.
10_Kubernetes - кластерлер, насостор, workloads, НРА/HPA, контейнерлер.
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, объект сактоо.
40_CICD_Runner - пайплайндар, агенттер, экспонаттар, registry.
50_Security_Compliance - кемчиликтер, тактар, RBAC, аудит events.
60_FinOps_Cost -/tenant/кластер кызматтарынын наркы, утилдештирүү.
99_Runbooks - көрсөтмөлөргө жана SLO-карталарга шилтемелер.

Ролдору: Platform-SRE (толук жеткиликтүүлүк), Service-Owner (өз мейкиндиктери), Security/Compliance, Finance/FinOps, View-only.

4) Explorer Description платформа (Landing)

Максаты: ≤ 30 секунд баары жакшы экенин түшүнүү.

Сунушталган панелдер:
  • SLO платформа (жеткиликтүү API edge): максаттуу мааниси, иш жүзүндө, ката доору, burn-rate.
  • Негизги кирүү чекиттери боюнча p50/p95/p99 жашыруун.
  • 4xx/5xx каталары жана регрессия менен Top-End.
  • Ресурстардын каныккандыгы (CPU, RAM, тармак, диск) - кластерлер боюнча p95.
  • Окуялар/Алерт (активдүү) жана акыркы релиздер.
  • Баасы/саат (болжол менен) жана жумалык тренд.

Өзгөрмөлүү үлгүлөр: 'env', 'region', 'cluster', 'tenant'.

5) Kubernetes: кластерлер жана workloads

Негизги топтор:

1. Кластер

кайра иштетүү CPU/Memory, pressure (memory/cpu), диск IO, inode.
Подсистемалар: kube-api, etcd, контроллерлер; kubelet health.

2. Ворклоадалар

RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA максаттары vs иш жүзүндөгү метрика.

3. Кластердин ичиндеги тармактык жол

eBPF/Netflow: top talkers, drops, retransmits.

4. Окуялар K8s

Rate по Warning/FailedScheduling/BackOff.

PromQL мисалдары:
promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, тор жана DNS

Панелдер:
  • Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
  • LB/Anycast: зоналар боюнча жол бөлүштүрүү, failover окуялар.
  • DNS: кайчылаш жашыруун, NXDOMAIN/SERVFAIL rate, hit-ratio кэш.
  • CDN/WAF: эрежелер боюнча бөгөттөө, анормалдуу трафик (боттор/скреперлер).
Мисал (Nginx):
promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Маалымат базалары жана окуялар

PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backaps/мүчүлүштүктөр.
Redis: hit ratio, evictions, эс, жай командалар.
Kafka/RabbitMQ: lag боюнча consumer-топтор, rebalances, unacked messages.
Объект сактоо: суроолор, каталар, egress, lat p95.

PostgreSQL (мисал):
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (мисал):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD жана экспонаттар

Pipeline overview: ийгилик/аткаруу убактысы, раннерлердин кезеги.
Deployment health: версиялары, canary/blue-green абалы, жылытуу убактысы.
Сүрөттөрдү каттоо: өлчөмү, акыркы push 'i, утилдештирүү.

Мисалы:
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Коопсуздук жана комплаенс

тактар ​ ​ жана алсыздыгы: критикалык CVE менен nod/сүрөттөр үлүшү, орточо "тактоо үчүн убакыт".
RBAC жана сырлар: ийгиликсиз кирүү аракеттери, сырларга кайрылуу.
Аудит-окуялар: кириш/маанилүү компоненттери өзгөрүүлөр, drift.
WAF/DLP/PII-Edition: эрежелерди бөгөт коюу, жашыруу каталар.

10) Логи жана жолдор: аркылуу карап чыгуу

Loki/ELK: top exceptions, жаңы белгилер.
"Фильтрлүү логдорго өтүү" баскычы (LogQL/ES query).
Жолдор: top slow spans, трасса контекстинде жок суроо пайызы.

LogQL мисалдары:

{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: наркы жана кайра иштетүү

Кызмат көрсөтүүлөр/тенанттар/кластерлер боюнча наркы (биллинг/экспорттоочулардын маалыматы боюнча).
Ысык/муздак түйүндөр: idle ресурстар, rightsizing сунуштар (CPU/Mem).
Data egress, L7 суроолор жана алардын наркы.
Динамика: жума/ай, болжолдоо.

Негизги көрсөткүчтөр:
  • cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
  • натыйжалуулугу: 'RPS/$' же 'SLO-мүнөт/$'.

12) SLO, каталар жана burn-rate

SLO карта ар бир дашборд домен: максаты, мезгил, каталар (budget).
Burn-rate алерт (эки ылдамдык: тез/жай).

PromQL мисалдар (ката катары "5xx же p95> босого"):
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
💡 Сиздин 'SLO' жана көп-window, көп-бурн ыкмасы боюнча коэффициенттерди орнотуу.

13) Визуализация стандарттары

Тайпс панелдер: катар үчүн убакыт сериясы, KPI үчүн stat, top-N үчүн стол, жашыруун үчүн heatmap.
Уламыштар жана бирдиктер: милдеттүү; кыскартылган белги, SI-формат.
Color зоналары: SLO/threshold (бирдей) боюнча жашыл/сары/кызыл.
панелдин баяндамасы: өлчөө, булагы, runbook-шилтеме, ээси.

14) панелдик үлгүлөрү (тез баштоо)

(A) API Overview

KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Логиде Drilldown 'trace _ id = $trace'.

(B) Node Health

CPU/Memory/Disk/Network - p95 нод, "ысык" тизмеси.
Pressure, throttling, пакеттердин тамчы.

(C) DB Health

TPS, latency p95, locks, replication lag, slow queries.
Backup статус/акыркы ийгилик.

(D) Kafka Lag

Lag топтор боюнча, керектөө ылдамдыгы vs producing, rebalances.

(E) Cost & Util

Cost/hour кызмат, idle%, rightsizing hints, болжолдоо.

15) Өзгөрмөлүү жана тактар (сунушталган топтому)

`env` (prod/stage/dev)

`region`/`az`

`cluster`

`namespace`/`service`/`workload`

`tenant`

`component` (edge/db/cache/queue)

`version` (release/git_sha)

16) Алертинг жана инцидент-менеджмент менен интеграция

Эрежелер Alertmanager/Graphana-Alerts туура dashboard жана буга чейин алмаштырылган өзгөрмөлүү шилтемелер менен.
SLO критерийлери боюнча P1/P2, on-call боюнча auto-assign.
Тилкелердеги релиздердин/окуялардын аннотациялары.

17) Дашборд сапаты: чек тизмеси

  • Ээси жана байланыш.
  • SLO/thresholds документтештирилген.
  • Өзгөрмөлөр иштеп, суроо-талаптардын көлөмүн чектейт.
  • Бардык панелдер менен бирдик жана легенда.
  • Drilldown Логи/жолдорунда.
  • панелдер 2-3 "экрандарда" (километрге скролл жок).
  • Суроо-жооп убактысы ≤ 2-3 c (кэш, downsample).
  • Эч кандай "өлүк" панелдер жана deprecated-метр.

18) Dashboard аткаруу жана наркы

Оор агрегаттар үчүн Downsampling/recording руль.
Кэширование (query-frontend/репитер) жана range/step боюнча лимиттер.
Hangar сыноо: типтүү dashboard суроо TSDB/кластерлерди жүктөө.
этикеткаларды калыбына келтирүү (төмөн кардиналдуулук), wildcards баш тартуу.

19) Ишке ашыруу планы (итерация)

1. Жума 1: жер + K8s/Edge сын-пикирлер, негизги SLO, ээлери.
2. Апта 2: DB/Queues, Логин жана жолдорду бириктирүү (drilldown), burn-rate алерт.
3. Жума 3: FinOps-dashboard, rightsizing сунуштар, наркы боюнча отчет.
4. Апта 4 +: Коопсуздук/Compliance, SLO-карталарды AutoGeneration, дашборд регрессия тесттер.

20) Mini-FAQ

Канча Дашборд керек?
Минималдуу 1 карап чыгуу + доменге бирден (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Калганы - жетилгендиги боюнча.

Андан да маанилүүсү - метрика же логи?
симптомдору жана SLO үчүн Metrics, себептер үчүн Логи. 'trace _ id' жана консистенттик лейблдер аркылуу байланыш.

Кантип панелдерде "чөгүп"?
Иерархия, ачык ээлери, гигиеналык метрика, үзгүлтүксүз ызы-чуу жана "өлүк" панелдерди алып салуу.

Жыйынтык

Инфраструктуралык дашборддор "кооз графиктер" эмес, башкаруу куралы: SLO-башкаруу, тез RCA жана аң-сезимдүү FinOps. Өзгөрмөлөрдү, визуалдык шаблондорду жана ээлерин стандартташтыруу; Бурн-rate Алерт Логдор/жолдор жана автоматташтыруу drilldown камсыз кылуу. Бул алдын ала, жооп ылдамдыгы жана бүт платформа деъгээлинде наркынын ачыктыгын берет.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.