Măsurători ale performanţei operaţiunilor şi managementului →

Măsurători de performanță

1) De ce măsurătorile de performanță

Performanța este capacitatea unui sistem de a furniza SLO-uri țintă în timp de răspuns și debit la un anumit cost. Este imposibil fără valori:

detectarea degradării înainte de incidente
prezice capacitatea și bugetul
compara alternative (cache vs DB, gRPC vs REST),
gestionați regresiile post-eliberare.

Principii: un singur dicționar de metrică, agregare de percentile (p50/p90/p95/p99), contabilitate separată pentru căi „fierbinți” și „reci”, context (versiune, regiune, furnizor, dispozitiv).

2) Taxonomia metricii

2. 1 Cadre SRE de bază

Patru semnale de aur: latență, trafic, erori, saturație.
RED (pentru microservicii): Rata, erori, durata.
UTILIZARE (pentru hardware): Utilizare, saturație, erori.

2. 2 Niveluri

Infrastructură: CPU, RAM, disc, rețea, containere, noduri.
Platformă/Servicii: puncte finale API, cozi, cache-uri, baze de date, autobuze de evenimente.
Experiența clienților: Semnale vitale web, SDK-uri mobile, streaming, CDN.
Platforma de date: ETL/ELT, fluxuri, storefronturi, întârzieri BI.
Flux critic de afaceri: autorizare, KYC, depozite/plăți, runde de joc.

3) Catalog de valori cheie și formule

3. 1 API și microservices

SPR (Cereri pe secundă).
Latență p50/p95/p99 (ms) - preferabil "end-to-end' și" backend-only ".
Rata de eroare (%) = 5xx + 4xx validate/toate cererile.
Saturație: durata medie a cozii de lucru, cereri în timpul zborului.
Rata de pornire la rece (pentru FaaS).
Throttling/Cereri abandonate.

Exemplu SLO: p95 latență ≤ 250 ms cu SPR până la 2k în regiunea UE-Est; erori ≤ 0. 5%.

3. 2 Baze de date

QPS/Tranzacții/s, timpul de interogare medie/medie, timpul de interogare p95.
Blocare așteaptă/deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.
RepLag (replicare), timp Checkpoint/Flush, Autovacuum lag.
Hot Keys/Skew - top N chei de încărcare.

Formula pentru "Core Requests': QPS/ vCPU_core_count → un semnal pentru sharding.

3. 3 Cache și CDN

Hit Ratio (%), Evacuări/s, Latență p95, Element Size percentiles.
Origine Offload (%) для CDN, TTFB, Stale-în timp ce-revalidat lovit%.

3. 4 cozi/fluxuri

Intrare/ieșire msg/s, Lag de consum, Rata de reechilibrare.
Timpul de procesare p95, rata DLQ.

3. 5 Infrastructură/Containere

Utilizarea procesorului%, accelerația procesorului%, lungimea cozii de rulare.
Memorie RSS/Set de lucru, OOM ucide, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/retransmiteri.
Node Saturation: păstăi în așteptare, presiune (CPU/Memory/IO).

3. 6 Client Web (UX)

Elemente vitale de bază Web: LCP, INP, CLS.
TTFB, FCP, TTI, Calendarul resurselor (DNS, TLS, TTFB, descărcare).
Rata de eroare (JS), Sarcini lungi, Timpul de schimbare a traseului SPA.
CDN Geo-Latency (percentile).

3. 7 Client mobil

Timp de pornire a aplicației (rece/cald), rata ANR, sesiuni fără crash%.
Reţea runda-excursii/sesiune, Payload dimensiune, baterie de scurgere/sesiune.
Rata de succes offline.

3. 8 Platforma de date și raportarea

Freshness Lag (T-now → витрина), Randuri de transfer/s, Job Success%.
Cost per TB procesat, Skew by party, Evenimente târzii%.
BI Time-to-Render p95 pentru tablouri de bord cheie.

3. 9 Domain-critical flow (iGaming ca exemplu)

Auth p95, KYC TTV (timp pentru a verifica), Depozit/Retragere p95.
Durata rundei de joc p95, latența apelului RNG, furnizorul RTT p95.
Rata de succes PSP de plată, Chargeback investigație SLA.

4) Normalizare, percentile și atribuire

Percentile versus medii: fixați p50/p90/p95/p99 - medii ale durerii maxime netede.
Secțiuni: versiunea aplicației, regiune, furnizor, canal de rețea (4G/Wi-Fi), dispozitiv.
Corelație: asociem valorile „backend-only” și „real-user” pentru lanțurile cauzale.
Exemplare/Urme: asociați percentilele extreme cu urme.

5) Praguri și alerte (grilă aproximativă)

Latență p95 (API de bază): avertizare> 250 ms, critică> 400 ms 5 min la rând.
Rata de eroare: avertizare> 0. 5%, critic> 2% (criteriu final, nu global).
DB RepLag: avertizare> 2 s, critică> 10 s.
Kafka consumer lag (timp): avertizare> 30 s, critic> 2 min.
Web LCP (p75): avertizare> 2. 5 s, critică> 4 s.
ANR mobil: avertizare> 0. 5%, critic> 1%.
ETL Prospețime: avertizare> + 15 min, critică> + 60 min от SLA.

Folosim praguri statice + adaptive (sezonalitate, modele de zi), deduplicarea și gruparea alertelor pe servicii/versiuni.

6) Testarea performanței

Tipuri: linie de bază, stres, prelungit (înmuiere), haos (legături degrade/PSP).
Profile de încărcare: pentru tranzacții reale (bazate pe distribuție), „explozii”, vârfuri regionale.
Obiective: realizarea SLO cu operațiuni țintă SPR și mix, validare backpressure.
Run metrics: Throughput, Eroare%, latență p95, pauză GC, accelerație CPU, coadă lag, cost/run.

Regula de regresie: eliberarea este considerată reușită dacă p95 nu este degradat> 10% cu un profil egal, iar costul cererii (CPU-ms/request) nu a crescut> 15%.

7) Planificarea capacității și prețul/performanța

Model cerere: SPR pe oră × medie de lucru/cerere (CPU-ms, IO-ops).
Înălțime: marjă de 30-50% pentru căi critice, scalare automată prin P95.
Cost KPI: Cost per 1k cereri, Cost per GB servit, $ per 1 p.p. îmbunătățiri LCP.
Caching/denormalizare: citiți „cache ROI” = (economii CPU-ms − cache cost).
Regiuni calde și reci: descărcare la CDN/margine, replicare numai în citire.

8) Observabilitate și practici de profilare

Urme: ID-uri de urme distribuite în toate hameiurile; eșantionarea este inteligentă (pe bază de coadă).
Metrics: Prometheus/OpenTelemetry, notație unică de nume și etichete.
Busteni: cu urme de corelare/span, buget pentru a loga zgomot, PII editare.
Profilere: profile CPU/Heap/Allock/Lock, profilare continuă (eBPF).
Cazuri de probă: asociați exploziile p99 cu un anumit interval/SQL/PSP.

9) Eliberarea și măsurarea echipei (pentru completitudine)

DORA: Frecvență de implementare, Timp de plumb, Schimbare Rata de eșec, MTTR.
SPATIU: satisfactie, performanta, activitate, comunicare, eficienta.
Aceste valori nu sunt despre fier, ci afectează direct stabilitatea performanței.

10) Anti-modele

Medii de urmărire: ignorarea p95/p99.
Rata de eroare „globală”: ascunde puncte finale dureroase.
Fără atribuire prin versiuni: este imposibil să prinzi regresiile clienților.
Alertă spam: praguri fără histerezis și corectarea sezonalității.
Optimizare oarbă: fără notare sau urme.
Amestecarea latenței UX și backend: concluzii incorecte din experiența clienților.

11) Liste de verificare

Standard metric unificat

Dicționar de metrică cu formule, unități, proprietari
Percentile obligatorii p50/p90/p95/p99
Corelarea urmelor și corelarea jurnalului
Tags: regiune, versiune, furnizor, dispozitiv, canal de rețea
Praguri cu histerezis și deduplicare

Înainte de lansare

Valoarea inițială p95/p99 pe scenă și prod
Trafic canar + comparație metrică A/B
Caracteristică de pavilion Rollback rapid
Runbook de observare

În mod regulat

Cea mai lentă interogare de sus N/SQL Review
Politici de audit cache și TTL
Verificarea prospețimii și replicarea bazei de date
Teste de degradare a furnizorilor externi (PSP, KYC)

12) Mini playbook-uri (exemplu)

Degradarea p95/api/plăți

1. Verificați eroarea% și timpii externi PSP.
2. Verificați collbecks de coadă de lag de consum.
3. Vezi exemple p99 urme SQL/HTTP blocaj?
4. Activați memoria cache director/limită, reduceți N + 1.
5. Buget: creșterea temporară a resurselor lucrătorilor cu 20%, inclusiv autoscale.
6. Post-fix: index prin (psp_id, stare, created_at), retray-jitter.

Creștere RepLag în DB

1. Verificați cererile „grele” și tranzacțiile lungi.
2. Crește concurența replicare, ton punct de control.
3. Offload doar pentru citire cache/replica.
4. La ferestre de vârf - denorm parțial + loturi.

13) Exemple de formule/SQL (simplificat)

Rata de eroare după punctul final

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

Latență p95 (TDistest/Aprox)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

Lag de consum (timp)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) Încorporarea în tablouri de bord și raportare

Carduri KPI: latență p95, eroare%, RPS, saturație cu tendințele WoW/DoD.
Top N „cel mai rău” endpoints/SQL/resources, clickable drill-down → trace.
Corelația versiunii client: coloana „versiunea → conversia → p95 LCP/INP”.
Harta lumii: geo-latență (CDN), latență PSP pe regiuni.
Panoul SLO: partajarea timpului în SLO, accidente de la SLO, „bugetul de eroare”.

15) Totaluri

Măsurătorile de performanță sunt o disciplină a sistemelor: vocabular unic, percentile, atribuire, observabilitate bună și SLO-uri stricte. Combinând semnalele tehnice (latență, lag-uri, cache-uri) și semnalele produsului (timp KYC, depozit p95, LCP), gestionați calitatea experienței și costul livrării - previzibil și scalabil.

Măsurători ale performanţei operaţiunilor şi managementului →

Măsurători de performanță

Înainte de lansare

În mod regulat

Latență p95 (TDistest/Aprox)

Lag de consum (timp)

Web LCP p75

Contactați-ne

Contact rapid

Videoclipul va fi actualizat în curând

Suntem în prezent foarte ocupați cu proiectele