Əməliyyat və İdarəetmə → Performans Metrikası
Performans metrikası
1) Performans metrikləri nə üçün lazımdır
Performans sistemin hədəf SLO-ları təyin olunmuş qiymətə cavab vaxtı və bant genişliyi ilə təmin etmək qabiliyyətidir. Metrik olmadan mümkün deyil:- hadisələrə qədər deqradasiyanı aşkar etmək,
- tutum və büdcə proqnozlaşdırmaq,
- alternativ həlləri müqayisə edin (cache vs DB, gRPC vs REST),
- buraxılışlardan sonra reqressiyaları idarə etmək.
Prinsipləri: vahid metrik lüğət, üzlük yığılması (p50/p90/p95/p99), «isti» və «soyuq» yolların ayrı-ayrı uçotu, kontekst (versiya, region, provayder, cihaz).
2) Metrik taksonomiya
2. 1 Əsas SRE çərçivələri
Dörd qızıl siqnal: Latency, Traffic, Errors, Saturation.
RED (mikroservislər üçün): Rate, Errors, Duration.
USE (dəmir üçün): Utilization, Saturation, Errors.
2. 2 Səviyyələr
Infrastruktur: CPU, RAM, disk, şəbəkə, konteynerlər, qovşaqlar.
Platforma/Xidmətlər: API-end-pointlər, növbələr, caches, DB, hadisə şinləri.
Müştəri təcrübəsi: Web Vitals, mobil SDK, axın, CDN.
Məlumat platforması: ETL/ELT, axınlar, vitrinlər, BI gecikmələr.
Biznes kritik flow: avtorizasiya, KYC, depozitlər/ödənişlər, oyun turları.
3) Əsas metrik və düsturların kataloqu
3. 1 API və mikroservislər
RPS (Requests per second).
Latency p50/p95/p99 (ms) - tercihen «end-to-end» və «backend-only».
Error Rate (%) = 5xx + təsdiqlənən 4xx/bütün sorğular.
Saturation: «in-flight» sorğular worker orta növbə uzunluğu.
Cold Start Rate (FaaS üçün).
Throttling/Dropped Requests.
SLO nümunə: p95 latency ≤ EU-East regionda 2k RPS 250 ms; səhvlər ≤ 0. 5%.
3. 2 Verilənlər bazası
QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits / Deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.
RepLag (replikasiya), Checkpoint/Flush time, Autovacuum lag.
Hot Keys/Skew - Top N yük açarları.
«Nüvəyə sorğular» düsturu: QPS/ vCPU_core_count → çardaq üçün siqnal.
3. 3 Cache və CDN
Hit Ratio (%), Evictions/s, Latency p95, Item Size percentiles.
Origin Offload (%) для CDN, TTFB, Stale-while-revalidate hit%.
3. 4 Növbələr/axınlar
Ingress/egress msg/s, Consumer Lag (mesajlar/vaxt), Rebalance rate.
Processing Time p95, DLQ Rate.
3. 5 infrastruktur/konteynerlər
CPU Utilization %, CPU Throttle %, Run Queue length.
Memory RSS/Working Set, OOM kills, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/ retransmits.
Node Saturation: pods pending, pressure (CPU/Memory/IO).
3. 6 Web-müştəri (UX)
Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
Error Rate (JS), Long Tasks, SPA route change time.
CDN Geo-Latency.
3. 7 Mobil müştəri
App Start time (cold/warm), ANR rate, Crash-free sessions %.
Network round-trips/session, Payload size, Battery drain/session.
Offline success rate (cached əməliyyatlar).
3. 8 Məlumat platforması və hesabat
Freshness Lag (T-now → витрина), Throughput rows/s, Job Success %.
Cost per TB processed, partiyalar üzrə Skew, Late events%.
BI Time-to-Render p95 əsas dashboard üçün.
3. 9 Domen kritik flow (nümunə olaraq iGaming)
Auth p95, KYC TTV (Time-to-Verify), Deposit/Withdrawal p95.
Game Round Duration p95, RNG call latency, Provider RTT p95.
Payment PSP success rate, Chargeback investigation SLA.
4) Normallaşma, üzlük və atributiya
Parsentili qarşı orta: p50/p90/p95/p99 - orta pik ağrıları yumşaldır.
Kəsiklər: proqram versiyası, region, provayder, şəbəkə kanalı (4G/Wi-Fi), cihaz.
Korrelyasiya: səbəb-nəticə zəncirləri üçün «backend-only» və «real-user» metrikləri bağlayın.
Exemplars/Traces: ekstremal üzlükləri izlərlə əlaqələndiririk.
5) Eşiklər və alertlər (nümunəvi şəbəkə)
Latency p95 (core API): warning> 250 ms, critical> 400 ms ardıcıl 5 dəq.
Error rate: warning > 0. 5%, kritik> 2% (end-point, qlobal deyil).
DB RepLag: warning > 2 s, critical > 10 s.
Kafka consumer lag (time): warning > 30 s, critical > 2 min.
Web LCP (p75): warning > 2. 5 s, critical > 4 s.
Mobile ANR: warning > 0. 5%, critical > 1%.
ETL Freshness: warning > +15 min, critical > +60 min от SLA.
Statik + adaptiv eşiklərdən (mövsümilik, gündəlik şablonlar), duplikasiyadan və xidmətlər/buraxılışlar üzrə alertlərin qruplaşmasından istifadə edirik.
6) Performans test
Növləri: baseline, stress, uzunmüddətli (soak), xaos (degrade links/PSP).
Yükləmə profilləri: real treys (distribution-based), «burstlar», regional zirvələr.
Məqsədlər: məqsədli RPS və qarışıq əməliyyatlarda SLO-ya nail olmaq, backpressure validasiya.
Run metrləri: Throughput, Error%, p95 latency, GC fasilələri, CPU throttle, queue lag, cost/run.
Reqressiya qaydası: p95> 10% bərabər profil ilə pisləşməsə və sorğu dəyəri (CPU-ms/sorğu)> 15% artmasa, buraxılış uğurlu hesab olunur.
7) Kapasite planlaşdırma və qiymət/performans
Demand model: RPS saat × orta iş/sorğu (CPU-ms, IO-ops).
Headroom: kritik yollar üçün 30-50% ehtiyat, P95 auto-scaling.
Cost KPIs: Cost per 1k requests, Cost per GB served, $ per 1 p. p. LCP təkmilləşdirilməsi.
Cache/denormization: «cache ROI» = (CPU-ms qənaət − cache dəyəri) hesab.
İsti və soyuq bölgələr: CDN/edge-də offload, «yalnız oxu» replikasiyası.
8) Müşahidə və profilləşdirmə təcrübələri
Tracking: bütün hop 's vasitəsilə paylanmış trace-ID; sampling ağıllı (tail-based).
Metriklər: Prometheus/OpenTelemetry, adların və etiketlərin vahid notasiyası.
Log: trace/span ilə korrelyasiya, log-səs budget, PII redaktə.
Profilləşdiricilər: CPU/Heap/Alloc/Lock profilləri, davamlı profilləşdirmə (eBPF).
Nümunə nümunələri: p99 sıçrayışlarını span/SQL/PSP kolla əlaqələndiririk.
9) Relizlərin və komandaların metrikası (tamlıq üçün)
DORA: Deployment Frequency, Lead Time, Change Failure Rate, MTTR.
SPACE: məmnunluq, performans, fəaliyyət, ünsiyyət, səmərəlilik.
Bu metrlər dəmir haqqında deyil, performansın sabitliyinə birbaşa təsir göstərir.
10) Anti-nümunələr
Orta təqib: p95/p99 görməməzlik.
«Qlobal» error rate: ağrılı enpointləri gizlədir.
Versiyalara görə atributlar olmadan: müştərinin reqressiyalarını tutmaq mümkün deyil.
Alert spam: histerezis və mövsümi korreksiya olmadan astanalar.
«Kor-koranə» optimallaşdırma: profilləşdirmə və izləmə yoxdur.
UX və backend latency qarışdırılması: müştəri təcrübəsi ilə səhv nəticələr.
11) Çek vərəqləri
Vahid standart metrik
- Formullar, vahidlər, sahibləri ilə metrik lüğət
- Məcburi üzlük p50/p90/p95/p99
- Trace-korrelyasiya və log-korrelyasiya
- Tags: region, versiya, provayder, cihaz, kanal şəbəkəsi
- Histerezis və deduplikasiya ilə eşiklər
Buraxılışdan əvvəl
- Bazline p95/p99 steyj və prodda
- Kanarya trafik + A/B metrik müqayisə
- Ficha bayrağı sürətli geri dönüş ilə
- Müşahidə planı (observability runbook)
Müntəzəm
- Ən yavaş top N sorğuları/SQL review
- Cash Siyasətçi və TTL Audit
- Freshness və DB replikasiyalarının yoxlanılması
- Xarici provayderlərin deqradasiya testləri (PSP, KYC)
12) Mini playbook (nümunə)
Deqradasiya p95/api/payments
1. Error% və PSP xarici vaxtlarını müqayisə edin.
2. consumer lag növbə kolbekov yoxlayın.
3. trace nümunələri p99 bax: dar yer SQL/HTTP?
4. Referans/limit cache daxil, aşağı N + 1.
5. Büdcə: müvəqqəti olaraq 20% iş resursları artırmaq, autoscale daxil.
6. Post-fix: indeks (psp_id, status, created_at), retray jitter.
DB-də RepLag artımı
1. «Ağır» sorğuları və uzun əməliyyatları yoxlayın.
2. Replikasiyanın paralelliyini artırın, checkpoint.
3. Cache oxu/replica yalnız oxu Offload.
4. Pik pəncərələrdə - qismən denorm + batchi.
13) formula/SQL nümunələri (sadələşdirilmiş)
End point üzrə Error Rate
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
Latency p95 (TDigest/Approx)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
Consumer Lag (vaxt)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) Dashboard və hesabat daxil
KPI kartları: p95 latency, error%, RPS, WoW/DoD trendləri ilə saturation.
Top-N «ən pis» end-point/SQL/resursları, tıklanabilir drill-down → trace.
Müştəri versiyalarının korrelyasiyası: qraf «versiyası → p95 LCP/INP → dönüşüm».
Dünya xəritəsi: geo-latency (CDN), PSP latency regionlar üzrə.
SLO paneli: SLO-da vaxt payı, SLO-dan uçuşlar, «səhv büdcəsi».
15) Nəticələr
Performans metrikləri sistem intizamıdır: vahid lüğət, qələm, atributiya, yaxşı müşahidə və ciddi SLO. Texniki (gecikmə, lag, cash-hit) və məhsul siqnallarını (KYC vaxtı, p95 depozit, LCP) birləşdirərək, təcrübənin keyfiyyətini və çatdırılma dəyərini idarə edirsiniz - proqnozlaşdırıla bilən və ölçülə bilər.