Dashbords ենթակառուցվածքը

1) Ինչո՞ ւ է դա անհրաժեշտ

Պետության մեկ պատկեր 'կոդերից և ցանցերից մինչև տվյալների և հերթերի ցանկը։

Արագ RCA-ն և post-morthems-ը 'metric-metric-ը։

SLO ծառայությունների և պլատֆորմի մասին 'վերահսկել հասանելի և լատենտ։

FinOps-թափանցիկությունը 'ծառայությունների ծավալը/արժեքը, tenault' am և չորեքշաբթի։

Կոմպլանսը/անվտանգությունը 'պաթչերի/խոցելիության, հասանելի, անոմալիայի կարգավիճակ։

Մեթոդաբանություններ ՝ Golden Signals (latency, traffic, errors, saturation), RED (Rate, Errors, Duration) հարցումների համար, USE (Utilization, Saturation, Errs) ռեսուրսների համար։

2) Լավ դաշնամուրի սկզբունքները

Գործող (Actionable) 'յուրաքանչյուր վահանակ պատասխանում է «ինչ անել հաջորդը»։

Հիերարխիկություն ՝ ակնարկ, որը ցույց է տալիս www.deep dive dive։

Ձևանմուշներ/wwww.cluster ', «namespace», «ww.ru», «ten.ru», «env»։

Միավորներ ՝ լատենտության,%, RPS, վիրահատություններ/s, բայթերի համար։

Կոնսիստենտալ թայիմպիքերը 'լռելյայն 1-6 ժամ, արագ ճնշումները 5m/15m/220 ժամ։

Medilldown: Լոգայի վահանակից (Loki/ELK) և (Tempo/Jaeger)։

Սեփականատերը, SLO, runbook, կապ on-call-ում։

3) Կոմպոզիցիայի և դերի կառուցվածքը

00 _ Overview - պլատֆորմի բարձր մակարդակի ակնարկ։

10 _ Kubernetes - կլաստերներ, նոդներ, workloads, NRA/VPA, բեռնարկղեր։

20_Network_Edge — Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.

30 _ Storage _ DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, օբյեկտի պահեստ։

40 _ CICD _ Runner - www.pline, www.ru, artefakts, registry։

50 _ Live _ Compliance - խոցելիություն, պաթչի, RBAC, audit events։

60 _ FinOps _ Cost - ծառայությունների արժեքը/tenault/կլաստեր, հեռացում։

99 _ Runbooks - հղում հրահանգներին և SLO քարտերին։

Դերերը ՝ Platform-MSE (ամբողջական հասանելիություն), System-Owner (իրենց տարածքները), System/Compliance, Finops/FinOps, System-only։

4) Պլատֆորմի վերանայման դաշնամուրը (Landing)

Նպատակը '30 վայրկյանում հասկանալ, թե արդյոք ամեն ինչ կարգին է։

Առաջարկվող վահանակները

SLO պլատֆորմ (API edge հասանելիություն) 'նպատակային կարևորություն, իրական, սխալների դարաշրջան, burn-rate։

P50/p95/p99 լատենտ հիմնական մուտքային կետերում։

4xx/5xx և լավագույն էնդպոինտները ռեգրեսիայի հետ։

Սատուրնի ռեսուրսները (CPU, RAM, ցանցը, սկավառակը) - p95 կլաստերներ։

Միջադեպերը/ալերտները (ակտիվ) և վերջին օրինագծերը։

Արժեքը/ժամ (մոտավոր) և տենդենցը շաբաթվա ընթացքում։

Փոփոխականների ձևանմուշները ՝ «env», «region», «cluster», «tenae»։

5) Kubernetes 'կլաստերներ և վորկլոադներ

Հիմնական խմբերը

1. Կլաստեր/նոդա

CPU/Memory, pressure (memory/cpu), IO, inode սկավառակը։

Ենթահամակարգեր ՝ kube-api, etcd, վերահսկիչներ։ kubelet health.

2. Վորկլոադներ

RPS/RPM, latency p95, error rate, restarts, throttling, OOMKills.

HPA targets vs իրական չափումներ։

3. Ցանցային ճանապարհը ներսում

eBPF/Netflow: top talkers, drops, retransmits.

4. K8s իրադարձությունները

Rate по Warning/FailedScheduling/BackOff.

PromQL-ի օրինակները

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, ցանցը և RF

Վահանակներ

Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.

LB/Anycript: տարածումը կատարվում է գոտիներով, failover իրադարձություններով։

III ՝ ռետինե լատենտ, NXDOMAIN/SERFAIL rate, hit-ratio kesa։

CDN/WAF 'արգելափակումներ կանոններով, աննորմալ (բոտեր/սկրեյպերներ)։

Օրինակ (Nginx)

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Տվյալների և սթորիջի հիմքերը

PostgreSQL/MySQL: qps, latency, waits, replanslag, bekaps/ձախողումներ։

Redis: hit ratio, evictions, հիշողություն, դանդաղ թիմեր։

Kafka/RabbitMQ: lag consumer խմբերի, rebalances, unaced drages։

Օբյեկտի պահեստ 'հարցումներ, սխալներ, egress, lat p95։

PostgreSQL (օրինակ)

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (օրինակ)

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD և արտեֆակտներ

Pipeline overview: հաջողությունը/կատարման ժամանակը, ռաներների հերթը։

Deployae health: տարբերակները, canary/blue-green կարգավիճակը, տաքացման ժամանակը։

Պատկերների գրանցումը 'չափը, վերջին push "և, հեռացումը։

Օրինակ

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Անվտանգություն և բաղադրիչներ

Patchi և խոցելիությունը 'nod/պատկերների մասը կրիտիկական CVE-ով, միջին «ժամանակը մինչև փամփուշտը»։

RBAC-ը և գաղտնիքները 'մուտքի անհաջող փորձեր, գաղտնիքների դիմումներ։

Աուդիտի իրադարձություններ 'մուտքեր/փոփոխություններ կրիտիկական տարրերում, drift-ում։

WAF/DLP/PII խմբագրությունը 'կանոնների արգելափակումը, դիմակման սխալները։

10) Լոգներն ու ճանապարհները 'դիտարկման միջոցով

Սխալների կրճատումը (Loki/ELK) 'top prodeptions, նոր ազդանշաններ։

«Անցեք լոգարիթմներին ֆիլտրերով» (LogQL/ES query)։

Հետքերը ՝ top slow spans, հարցումների տոկոսը առանց trace կոնտեքստի։

LogQL-ի օրինակները


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: արժեքը և հեռացումը

Ծառայությունների/տենանտների/կլաստերների արժեքը (բիլինգի/ֆոսֆորների տվյալներով)։

Տաք/սառը լուծումներ 'idle ռեսուրսներ, rightsizing առաջարկություններ (CPU/Mem)։

Medegress, L7 հարցումները և նրանց արժեքը։

Դինամիկա 'շաբաթ/ամիս, կանխատեսում։

Հիմնական մետրերը

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.

արդյունավետության գործակիցը '«RPS/դոլար» կամ «SLO-րոպե/դոլար»։

12) SLO, սխալներ և burn-rate

SLO քարտը տիրույթի յուրաքանչյուր տախտակի վրա 'նպատակը, ժամանակահատվածը, սխալները (budget)։

Burn-rate-alerta (երկու արագություն ՝ արագ/դանդաղ)։

PromQL-ի օրինակները (սխալը որպես «5xx կամ r95> շեմն»)

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 Տեղադրեք ձեր «SLO» և գործակիցները multi-105, multi-burn մեթոդով։

13) Տեսողական ստանդարտները

Tipsa time-series շարքերի համար, KPI-ի համար, table-ի համար top-N, heatmap լատենտության համար։

Լեգենդներն ու միավորները 'պարտադիր։ կրճատված պիտակները, SI ձևաչափը։

Գունավոր գոտիներ ՝ կանաչ/դեղին/կարմիր SLO/threshold (միատեսակ)։

Վահանակի նկարագրությունը 'ինչ չափում ենք, աղբյուրը, runbook հղում, սեփականատերը։

14) Նատրիումի ձևանմուշները (արագ սկիզբը)

(A) API Overview

KPI: `RPS`, `p95`, `5xx%`, `error_budget_remaining`.
Top endpoints by error/latency.

Winilldown-ը 'trace _ id = trace "։

(B) Node Health

CPU/Memory/Systek/Network - p95 ըստ նոդների, «տաք» ցանկը։

Pressure, throttling, drops։

(C) DB Health

TPS, latency p95, locks, replication lag, slow queries.

Բեքապ կարգավիճակը/վերջին հաջողությունը։

(D) Kafka Lag

Lag խմբերով, vs արտադրության սպառման արագությունը, rebalances-ը։

(E) Cost & Util

Cost/hour ծառայություններ, idle%, rightsizing hinae, կանխատեսում։

15) Մոսկվան և թեգերը (առաջարկվող հավաքածու)

`env` (prod/stage/dev)

`region`/`az`

`cluster`

`namespace`/`service`/`workload`

`tenant`

`component` (edge/db/cache/queue)

`version` (release/git_sha)

16) Alerting- ի և պատահականության կառավարման հետ ինտեգրումը

Կանոնները Alertmanager/Գրաֆան-Ալերտերում, որոնք հղում են ճիշտ dashbord և արդեն փոփոխված։

P1/P2 SLO-112, նախկին assport on-call։

Օրինագծերի/գրառումների վրա։

17) Դաշբորդի որակը 'չեկ-թերթ

Սեփականատերը և կապը։
SLO/thresholds մեկնաբանվում են։
Մոսկվան աշխատում և սահմանափակում է հարցումների ծավալը։
Բոլոր վահանակները և լեգենդները։
Winilldown-ը լույսերի/հետքերի մեջ։
Վահանակները տեղադրվում են 2-3 «էկրանի» մեջ (առանց մեկ կիլոմետր)։
Հարցումների պատասխանման ժամանակը 2-3 c (քաշ, downsample)։
Ոչ «մեռած» և deprecated-metric։

18) Dashbords արտադրողականությունն ու արժեքը

Downsampling/recording rules ծանր ագրեգատների համար։

Քեշինգը (query-frontend/repiter) և limits range/step-ում։

Թեստերի անգար 'TSDB/կլաստերներ տիպիկ դաշնամուրի պահանջներով։

Պիտակների սանրումը (ցածր կարդինալություն), wildcards-ից հրաժարվելը։

19) Իրականացման պլանը (իտացիա)

1. Մեկ շաբաթ 1: Landing + K8s/Edge ակնարկներ, հիմնական SLO, սեփականատերեր։

2. Շաբաթ 2: DB/Queues, լոգարանների և հետքերի ինտեգրումը (wwww.illdown), burn-rate alerts։

3. Շաբաթ 3: FinOps-dashbords, rightsizing առաջարկությունները, արժեքի զեկույցը։

4. Շաբաթ 4 +: Windows/Compli.ru, SLO քարտերի ավտոմատ արտադրություն, dashbords ռեգրեսիայի թեստեր։

20) Mini-FAQ

Քանի՞ դաշնամուր է անհրաժեշտ։

Առնվազն 1 ակնարկ + մեկ տիրույթի վրա (K8s, Edge, DB, Queues, CI/CD, J, Cost)։ Մնացածը հասուն է։

Ի՞ նչն է ամենակարևորը 'մետրերը կամ ստոգները։

Ախտանիշների և SLO-ի համար պիտակները, պատճառների լոգները։ Կապը «trace _ id» և խորհրդատվական պիտակների միջոցով։

Ինչպե՞ ս չի կարելի «խեղդել» պանելներում։

Հիերարխիա, ակնհայտ սեփականատերեր, հիգիենան մետրիկ, նախանձախնդիր և «մեռած» հեռացում։

Արդյունքը

Ենթակառուցվածքային դաշույնները ոչ թե «գեղեցիկ գրաֆիկներ» են, այլ կառավարման գործիք 'SLO վերահսկողություն, արագ RCA և գիտակցված FinOps։ Ստանդարտացրեք կոդերը, տեսողական ձևանմերը և սեփականատերերը։ ապահովեք wwww.illdown լոգարանների/հետքերի և ավտոմատիզացրեք burn-rate ալերտները։ Դա կտա կանխատեսելիություն, արձագանքի արագություն և արժեքի թափանցիկություն ամբողջ պլատֆորմի մակարդակում։

Dashbords ենթակառուցվածքը

(B) Node Health

(C) DB Health

(D) Kafka Lag

(E) Cost & Util

Արդյունքը

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով