Dashbords ենթակառուցվածքը
1) Ինչո՞ ւ է դա անհրաժեշտ
Պետության մեկ պատկեր 'կոդերից և ցանցերից մինչև տվյալների և հերթերի ցանկը։
Արագ RCA-ն և post-morthems-ը 'metric-metric-ը։
SLO ծառայությունների և պլատֆորմի մասին 'վերահսկել հասանելի և լատենտ։
FinOps-թափանցիկությունը 'ծառայությունների ծավալը/արժեքը, tenault' am և չորեքշաբթի։
Կոմպլանսը/անվտանգությունը 'պաթչերի/խոցելիության, հասանելի, անոմալիայի կարգավիճակ։
Մեթոդաբանություններ ՝ Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) հարցումների համար, USE (Utilization, Saturation, Errs) ռեսուրսների համար։
2) Լավ դաշնամուրի սկզբունքները
Գործող (Actionable) 'յուրաքանչյուր վահանակ պատասխանում է «ինչ անել հաջորդը»։
Հիերարխիկություն ՝ ակնարկ, որը ցույց է տալիս www.deep dive dive։
Ձևանմուշներ/wwww.cluster ', «namespace», «ww.ru», «ten.ru», «env»։
Միավորներ ՝ լատենտության,%, RPS, վիրահատություններ/s, բայթերի համար։
Կոնսիստենտալ թայիմպիքերը 'լռելյայն 1-6 ժամ, արագ ճնշումները 5m/15m/220 ժամ։
Medilldown: Լոգայի վահանակից (Loki/ELK) և (Tempo/Jaeger)։
Սեփականատերը, SLO, runbook, կապ on-call-ում։
3) Կոմպոզիցիայի և դերի կառուցվածքը
00 _ Overview - պլատֆորմի բարձր մակարդակի ակնարկ։
10 _ Kubernetes - կլաստերներ, նոդներ, workloads, NRA/VPA, բեռնարկղեր։
20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30 _ Storage _ DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, օբյեկտի պահեստ։
40 _ CICD _ Runner - www.pline, www.ru, artefakts, registry։
50 _ Live _ Compliance - խոցելիություն, պաթչի, RBAC, audit events։
60 _ FinOps _ Cost - ծառայությունների արժեքը/tenault/կլաստեր, հեռացում։
99 _ Runbooks - հղում հրահանգներին և SLO քարտերին։
Դերերը ՝ Platform-MSE (ամբողջական հասանելիություն), System-Owner (իրենց տարածքները), System/Compliance, Finops/FinOps, System-only։
4) Պլատֆորմի վերանայման դաշնամուրը (Landing)
Նպատակը '30 վայրկյանում հասկանալ, թե արդյոք ամեն ինչ կարգին է։
Առաջարկվող վահանակները
SLO պլատֆորմ (API edge հասանելիություն) 'նպատակային կարևորություն, իրական, սխալների դարաշրջան, burn-rate։
P50/p95/p99 լատենտ հիմնական մուտքային կետերում։
4xx/5xx և լավագույն էնդպոինտները ռեգրեսիայի հետ։
Սատուրնի ռեսուրսները (CPU, RAM, ցանցը, սկավառակը) - p95 կլաստերներ։
Միջադեպերը/ալերտները (ակտիվ) և վերջին օրինագծերը։
Արժեքը/ժամ (մոտավոր) և տենդենցը շաբաթվա ընթացքում։
Փոփոխականների ձևանմուշները ՝ «env», «region», «cluster», «tenae»։
5) Kubernetes 'կլաստերներ և վորկլոադներ
Հիմնական խմբերը
1. Կլաստեր/նոդա
CPU/Memory, pressure (memory/cpu), IO, inode սկավառակը։
Ենթահամակարգեր ՝ kube-api, etcd, վերահսկիչներ։ kubelet health.
2. Վորկլոադներ
RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.
HPA targets vs իրական չափումներ։
3. Ցանցային ճանապարհը ներսում
eBPF/Netflow: top talkers, drops, retransmits.
4. K8s իրադարձությունները
Rate по Warning/FailedScheduling/BackOff.
PromQL-ի օրինակները
promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, ցանցը և RF
Վահանակներ
Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycript: տարածումը կատարվում է գոտիներով, failover իրադարձություններով։
III ՝ ռետինե լատենտ, NXDOMAIN/SERFAIL rate, hit-ratio kesa։
CDN/WAF 'արգելափակումներ կանոններով, աննորմալ (բոտեր/սկրեյպերներ)։
Օրինակ (Nginx)
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Տվյալների և սթորիջի հիմքերը
PostgreSQL/MySQL: qps, latency, waits, replanslag, bekaps/ձախողումներ։
Redis: hit ratio, evictions, հիշողություն, դանդաղ թիմեր։
Kafka/RabbitMQ: lag consumer խմբերի, rebalances, unaced drages։
Օբյեկտի պահեստ 'հարցումներ, սխալներ, egress, lat p95։
PostgreSQL (օրինակ)
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (օրինակ)
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD և արտեֆակտներ
Pipeline overview: հաջողությունը/կատարման ժամանակը, ռաներների հերթը։
Deployae health: տարբերակները, canary/blue-green կարգավիճակը, տաքացման ժամանակը։
Պատկերների գրանցումը 'չափը, վերջին push "և, հեռացումը։
Օրինակ
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Անվտանգություն և բաղադրիչներ
Patchi և խոցելիությունը 'nod/պատկերների մասը կրիտիկական CVE-ով, միջին «ժամանակը մինչև փամփուշտը»։
RBAC-ը և գաղտնիքները 'մուտքի անհաջող փորձեր, գաղտնիքների դիմումներ։
Աուդիտի իրադարձություններ 'մուտքեր/փոփոխություններ կրիտիկական տարրերում, drift-ում։
WAF/DLP/PII խմբագրությունը 'կանոնների արգելափակումը, դիմակման սխալները։
10) Լոգներն ու ճանապարհները 'դիտարկման միջոցով
Սխալների կրճատումը (Loki/ELK) 'top prodeptions, նոր ազդանշաններ։
«Անցեք լոգարիթմներին ֆիլտրերով» (LogQL/ES query)։
Հետքերը ՝ top slow spans, հարցումների տոկոսը առանց trace կոնտեքստի։
LogQL-ի օրինակները
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: արժեքը և հեռացումը
Ծառայությունների/տենանտների/կլաստերների արժեքը (բիլինգի/ֆոսֆորների տվյալներով)։
Տաք/սառը լուծումներ 'idle ռեսուրսներ, rightsizing առաջարկություններ (CPU/Mem)։
Medegress, L7 հարցումները և նրանց արժեքը։
Դինամիկա 'շաբաթ/ամիս, կանխատեսում։
Հիմնական մետրերը
cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
արդյունավետության գործակիցը '«RPS/դոլար» կամ «SLO-րոպե/դոլար»։
12) SLO, սխալներ և burn-rate
SLO քարտը տիրույթի յուրաքանչյուր տախտակի վրա 'նպատակը, ժամանակահատվածը, սխալները (budget)։
Burn-rate-alerta (երկու արագություն ՝ արագ/դանդաղ)։
PromQL-ի օրինակները (սխալը որպես «5xx կամ r95> շեմն»)
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Տեսողական ստանդարտները
Tipsa time-series շարքերի համար, KPI-ի համար, table-ի համար top-N, heatmap լատենտության համար։
Լեգենդներն ու միավորները 'պարտադիր։ կրճատված պիտակները, SI ձևաչափը։
Գունավոր գոտիներ ՝ կանաչ/դեղին/կարմիր SLO/threshold (միատեսակ)։
Վահանակի նկարագրությունը 'ինչ չափում ենք, աղբյուրը, runbook հղում, սեփականատերը։
14) Նատրիումի ձևանմուշները (արագ սկիզբը)
(A) API Overview
KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.
Winilldown-ը 'trace _ id = trace "։
(B) Node Health
CPU/Memory/Systek/Network - p95 ըստ նոդների, «տաք» ցանկը։
Pressure, throttling, drops։
(C) DB Health
TPS, latency p95, locks, replication lag, slow queries.
Բեքապ կարգավիճակը/վերջին հաջողությունը։
(D) Kafka Lag
Lag խմբերով, vs արտադրության սպառման արագությունը, rebalances-ը։
(E) Cost & Util
Cost/hour ծառայություններ, idle%, rightsizing hinae, կանխատեսում։
15) Մոսկվան և թեգերը (առաջարկվող հավաքածու)
`env` (prod/stage/dev)
`region`/`az`
`cluster`
`namespace`/`service`/`workload`
`tenant`
`component` (edge/db/cache/queue)
`version` (release/git_sha)
16) Alerting- ի և պատահականության կառավարման հետ ինտեգրումը
Կանոնները Alertmanager/Գրաֆան-Ալերտերում, որոնք հղում են ճիշտ dashbord և արդեն փոփոխված։
P1/P2 SLO-112, նախկին assport on-call։
Օրինագծերի/գրառումների վրա։
17) Դաշբորդի որակը 'չեկ-թերթ
- Սեփականատերը և կապը։
- SLO/thresholds մեկնաբանվում են։
- Մոսկվան աշխատում և սահմանափակում է հարցումների ծավալը։
- Բոլոր վահանակները և լեգենդները։
- Winilldown-ը լույսերի/հետքերի մեջ։
- Վահանակները տեղադրվում են 2-3 «էկրանի» մեջ (առանց մեկ կիլոմետր)։
- Հարցումների պատասխանման ժամանակը 2-3 c (քաշ, downsample)։
- Ոչ «մեռած» և deprecated-metric։
18) Dashbords արտադրողականությունն ու արժեքը
Downsampling/recording rules ծանր ագրեգատների համար։
Քեշինգը (query-frontend/repiter) և limits range/step-ում։
Թեստերի անգար 'TSDB/կլաստերներ տիպիկ դաշնամուրի պահանջներով։
Պիտակների սանրումը (ցածր կարդինալություն), wildcards-ից հրաժարվելը։
19) Իրականացման պլանը (իտացիա)
1. Մեկ շաբաթ 1: Landing + K8s/Edge ակնարկներ, հիմնական SLO, սեփականատերեր։
2. Շաբաթ 2: DB/Queues, լոգարանների և հետքերի ինտեգրումը (wwww.illdown), burn-rate alerts։
3. Շաբաթ 3: FinOps-dashbords, rightsizing առաջարկությունները, արժեքի զեկույցը։
4. Շաբաթ 4 +: Windows/Compli.ru, SLO քարտերի ավտոմատ արտադրություն, dashbords ռեգրեսիայի թեստեր։
20) Mini-FAQ
Քանի՞ դաշնամուր է անհրաժեշտ։
Առնվազն 1 ակնարկ + մեկ տիրույթի վրա (K8s, Edge, DB, Queues, CI/CD, J, Cost)։ Մնացածը հասուն է։
Ի՞ նչն է ամենակարևորը 'մետրերը կամ ստոգները։
Ախտանիշների և SLO-ի համար պիտակները, պատճառների լոգները։ Կապը «trace _ id» և խորհրդատվական պիտակների միջոցով։
Ինչպե՞ ս չի կարելի «խեղդել» պանելներում։
Հիերարխիա, ակնհայտ սեփականատերեր, հիգիենան մետրիկ, նախանձախնդիր և «մեռած» հեռացում։
Արդյունքը
Ենթակառուցվածքային դաշույնները ոչ թե «գեղեցիկ գրաֆիկներ» են, այլ կառավարման գործիք 'SLO վերահսկողություն, արագ RCA և գիտակցված FinOps։ Ստանդարտացրեք կոդերը, տեսողական ձևանմերը և սեփականատերերը։ ապահովեք wwww.illdown լոգարանների/հետքերի և ավտոմատիզացրեք burn-rate ալերտները։ Դա կտա կանխատեսելիություն, արձագանքի արագություն և արժեքի թափանցիկություն ամբողջ պլատֆորմի մակարդակում։