Tablouri de bord ale infrastructurii

1) De ce aveți nevoie de ea

O singură imagine a statului: de la cluster și rețele la baze de date și cozi.
RCA rapid și post-mortem: o grămadă de valori ↔ jurnale ↔ urme.
SLO prin service și platformă: control asupra disponibilității și latenței.
Transparență FinOps: volum/cost pe servicii, chiriaș și medii.
Conformitate/securitate: starea patch-urilor/vulnerabilităților, acceselor, anomaliilor.

Metodologii: Semnale de aur (latență, trafic, erori, saturație), RED (rată, erori, durată) pentru cereri, UTILIZARE (utilizare, saturație, erori) pentru resurse.

2) Principiile de bun tablou de bord

Actionable-Fiecare panou răspunde la „ce să facă în continuare”.
Ierarhie: prezentare generală → domeniilor → scufundare profundă → brută.
Şabloane/variabile: 'cluster', 'namespace', 'service', 'chiriaş', 'env'.
Uniforme: ms pentru latență,%, RPS, ops/sec, octeți.
Cronometru consistent: implicit 1-6 ore, presetări rapide 5m/15m/24h.
Drilldown: de la panou la jurnalele (Loki/ELK) și pista (Tempo/Jaeger).
Proprietatea: proprietarul este indicat pe tabloul de bord, SLO, runbook, contact la apel.

3) Structura și rolurile dosarului

00_Overview - prezentare generală la nivel înalt a platformei.
10_Kubernetes - clustere, noduri, volume de lucru, HPA/VPA, containere.
20_Network_Edge - Ingress/Engoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, stocarea obiectelor.
40_CICD_Runner - conducte, agenți, artefacte, registru.
50_Security_Compliance - vulnerabilități, patch-uri, RBAC, evenimente de audit.
60_FinOps_Cost - cost per serviciu/chiriaș/cluster, eliminare.
99_Runbooks - link-uri către instrucțiuni și carduri SLO.

Roluri: Platform-SRE (acces complet), Service-Owner (spații proprii), Security/Compliance, Finance/FinOps, View-only.

4) Tabloul de bord al platformei (Aterizare)

Scopul: în ≤30 secunde pentru a înțelege dacă totul este în ordine.

Panouri recomandate:

Platforma SLO (API disponibilitate margine): valoarea țintă, real, era de erori, burn-rate.
p50/p95/p99 latență prin puncte de intrare majore.
Erori 4xx/5xx și puncte finale superioare cu regresii.
Saturația resurselor (CPU, RAM, rețea, disc) - p95 de cluster.
Incidente/alerte (active) și versiuni recente.
Cost/oră (aproximativ) și tendință de săptămână.

Șabloane variabile: „env”, „regiune”, „cluster”, „chiriaș”.

5) Kubernete: clustere și ateliere

Grupuri-cheie:

1. Cluster/Noduri

CPU/eliminare memorie, presiune (memorie/cpu), IO disc, inode.
Subsisteme: kube-api, etcd, controlere; sănătate kubelet.

2. Vorkloads

RPS/RPM, latență p95, rata de eroare, repornește, throttling, OOMKills.
Țintele HPA față de valorile reale.

3. Calea de rețea în cadrul clusterului

eBPF/Netflow: talkers de top, picături, retransmise.

4. Evenimente K8s

Evaluează по Warning/FailedScheduling/BackOff.

Exemple de PromQL:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, grilă și DNS

Panouri:

Intrare/Trimis/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: distribuția traficului pe zone, evenimente failover.
DNS: latența rezoluției, rata NXDOMAIN/SERVFAIL, memoria cache hit-ratio.
CDN/WAF: blocat de reguli, trafic anormal (bots/scrappers).

Exemplu (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Baze de date și depozite

PostgreSQL/MySQL: qps, latență, așteptări de blocare, decalaj de replicare, backup/eșecuri.
Redis: hit ratio, evacuări, memorie, comenzi lente.
Kafka/RabbitMQ: decalaj de către grupurile de consumatori, reechilibrări, mesaje neambalate.
Stocarea obiectelor: interogări, erori, ieșire, lat p95.

PostgreSQL (exemplu):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (exemplu):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD și artefacte

Prezentare generală a conductei: succes/runtime, coadă de alergare.
Sănătatea implementării: versiuni, starea canar/albastru-verde, timpul de încălzire.
Registre imagine: dimensiune, ultima apăsare "și, eliminare.

Exemplu:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Siguranță și conformitate

Patch-uri și vulnerabilități: proporția de noduri/imagini cu CVE-uri critice, medie „timp pentru a patch-uri”.
RBAC și secrete: încercări de acces nereușite, acces la secrete.
Evenimente de audit: intrări/modificări ale componentelor critice, derivă.
Revizuirea WAF/DLP/PII: încuietori de regulă, erori de mascare.

10) Jurnale și trasee: Revizuire End-to-End

Rezumatul erorilor din jurnale (Loki/ELK): excepții de top, semnături noi.
Butonul „Du-te la jurnalele cu filtre” (interogare LogQL/ES).
Urme: deschideri lente de top, procentaj de cereri fără context de urmărire.

Exemple de LogQL:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: cost și eliminare

Costul de servicii/chiriași/clustere (în funcție de facturare/exportatori).
Noduri calde/reci: resurse inactive, recomandări de rightsizing (CPU/Mem).
Ieșirea datelor, cererile L7 și costul acestora.
Dinamică: săptămână/lună, prognoză.

Valori cheie:

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
factor de eficiență: 'RPS/$' sau 'SLO-minute/$'.

12) SLO, bug-uri și burn-rate

Card SLO pe fiecare tablou de bord domeniu: scop, perioadă, erori (buget).
Alerte Burn-rate (două viteze: rapid/lent).

Exemple de PromQL (eroare ca „5xx sau p95> prag”):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 Înlocuiți coeficienții „SLO” și multi-window, multi-burn.

13) Standarde de vizualizare

Tipuri de panouri: seria de timp pentru serie, stat pentru KPI, tabel pentru top-N, heatmap pentru latență.
Legende și unități: necesare; etichete scurtate, format SI.
Zone de culoare: verde/galben/roșu prin SLO/prag (uniform).
Descrierea panoului: ceea ce măsurăm, sursa, link-ul runbook, proprietarul.

14) Șabloane de panou (pornire rapidă)

(A) Prezentare generală API

KPI: 'RPS', 'p95', '5xx%', 'error _ budget _ remaining'.
Puncte finale de top prin eroare/latență.
Drilldown în jurnalele 'trace _ id = $ trace'.

(B) Nod de sănătate

CPU/Memory/Disk/Network - p95 de nod, lista de „fierbinte”.
Presiune, accelerare, picături de ambalaj.

(C) DB Sănătate

TPS, latență p95, încuietori, lag replicare, interogări lente.
Starea de rezervă/cel mai recent succes.

(D) Kafka Lag

Lag de grup, rata de consum vs producătoare, reechilibre.

(E) Cost & Util

Costul/ora de servicii, inactiv%, indicii de dreapta, prognoza.

15) Variabile și etichete (set recomandat)

„env” (prod/stage/dev)

„regiunea ”/„ az”

'cluster'

'namespace '/' service '/' workload'

„tenant”

'component' (edge/db/cache/coadă)

„versiune” (release/git_sha)

16) Integrarea cu alertă și gestionarea incidentelor

Reguli în alertele Alertmanager/Graphana cu link-uri către tabloul de bord dorit și variabile deja înlocuite.
P1/P2 după criterii SLO, auto-atribuire la apel.
Adnotări de versiuni/incidente pe grafice.

17) Calitatea tablourilor de bord: lista de verificare

Proprietar și contact.
SLO/pragurile sunt documentate.
Variabilele funcționează și limitează dimensiunea interogărilor.
Toate panourile cu unități și legendă.
Drilldown la bușteni/piste.
Panourile se potrivesc în 2-3 „ecrane” (fără defilare pe kilometru).
Timp de răspuns ≤2 -3 sec (cache, downsample).

Nu există panouri moarte sau valori degradate.

18) Performanța și costul tablourilor de bord

Downsampling/reguli de înregistrare pentru agregări grele.
Caching (interogare-frontend/repetor) și limitele intervalului/pas.
Test hangar: încărcare pe TSDB/clustere pentru cereri tipice de tablou de bord.
Igienizarea etichetelor (cardinalitate scăzută), abandonarea cărților sălbatice.

19) Planul de implementare (iterații)

1. Săptămâna 1: Aterizare + recenzii K8s/Edge, SLO-uri de bază, proprietari.
2. Săptămâna 2: DB/cozi, jurnal și integrarea urmelor (drilldown), alerte arde-rate.
3. Săptămâna 3: tablouri de bord FinOps, recomandări de rightsizing, raport de costuri.
4. Săptămâna 4 +: Securitate/Conformitate, autogenerare card SLO, teste de regresie tablou de bord.

20) Mini-Întrebări frecvente

De câte tablouri de bord ai nevoie?
Cel puțin 1 recenzie + una pentru fiecare domeniu (K8s, Edge, DB, Cozi, CI/CD, Securitate, Cost). Restul este prin maturitate.

Ce este mai important - măsurători sau jurnale?
Valori pentru simptome și SLO, jurnale pentru cauze. Bundle prin "trace _ id' și etichete consistente.

Cum să nu se „înece” în panouri?
Ierarhie, proprietari expliciți, igienă metrică, recenzii regulate și îndepărtarea panourilor „moarte”.

Total

Tablourile de bord ale infrastructurii nu sunt „grafice frumoase”, ci un instrument de management: control SLO, RCA rapid și FinOps conștient. Standardizarea variabilelor, modelelor vizuale și proprietarilor; furniza drilldown la jurnalele/piste și automatiza alerte arde-rata. Acest lucru va oferi predictibilitate, viteză de reacție și transparență costurilor la nivelul întregii platforme.

Tablouri de bord ale infrastructurii

(B) Nod de sănătate

(C) DB Sănătate

(D) Kafka Lag

(E) Cost & Util

Total

Contactați-ne

Contact rapid

Videoclipul va fi actualizat în curând

Suntem în prezent foarte ocupați cu proiectele