GH GambleHub

Əməliyyat və İdarəetmə → Performans Metrikası

Performans metrikası

1) Performans metrikləri nə üçün lazımdır

Performans sistemin hədəf SLO-ları təyin olunmuş qiymətə cavab vaxtı və bant genişliyi ilə təmin etmək qabiliyyətidir. Metrik olmadan mümkün deyil:
  • hadisələrə qədər deqradasiyanı aşkar etmək,
  • tutum və büdcə proqnozlaşdırmaq,
  • alternativ həlləri müqayisə edin (cache vs DB, gRPC vs REST),
  • buraxılışlardan sonra reqressiyaları idarə etmək.

Prinsipləri: vahid metrik lüğət, üzlük yığılması (p50/p90/p95/p99), «isti» və «soyuq» yolların ayrı-ayrı uçotu, kontekst (versiya, region, provayder, cihaz).

2) Metrik taksonomiya

2. 1 Əsas SRE çərçivələri

Dörd qızıl siqnal: Latency, Traffic, Errors, Saturation.
RED (mikroservislər üçün): Rate, Errors, Duration.
USE (dəmir üçün): Utilization, Saturation, Errors.

2. 2 Səviyyələr

Infrastruktur: CPU, RAM, disk, şəbəkə, konteynerlər, qovşaqlar.
Platforma/Xidmətlər: API-end-pointlər, növbələr, caches, DB, hadisə şinləri.
Müştəri təcrübəsi: Web Vitals, mobil SDK, axın, CDN.
Məlumat platforması: ETL/ELT, axınlar, vitrinlər, BI gecikmələr.
Biznes kritik flow: avtorizasiya, KYC, depozitlər/ödənişlər, oyun turları.

3) Əsas metrik və düsturların kataloqu

3. 1 API və mikroservislər

RPS (Requests per second).
Latency p50/p95/p99 (ms) - tercihen «end-to-end» və «backend-only».
Error Rate (%) = 5xx + təsdiqlənən 4xx/bütün sorğular.
Saturation: «in-flight» sorğular worker orta növbə uzunluğu.
Cold Start Rate (FaaS üçün).
Throttling/Dropped Requests.

SLO nümunə: p95 latency ≤ EU-East regionda 2k RPS 250 ms; səhvlər ≤ 0. 5%.

3. 2 Verilənlər bazası

QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits / Deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.
RepLag (replikasiya), Checkpoint/Flush time, Autovacuum lag.
Hot Keys/Skew - Top N yük açarları.

«Nüvəyə sorğular» düsturu: QPS/ vCPU_core_count → çardaq üçün siqnal.

3. 3 Cache və CDN

Hit Ratio (%), Evictions/s, Latency p95, Item Size percentiles.
Origin Offload (%) для CDN, TTFB, Stale-while-revalidate hit%.

3. 4 Növbələr/axınlar

Ingress/egress msg/s, Consumer Lag (mesajlar/vaxt), Rebalance rate.
Processing Time p95, DLQ Rate.

3. 5 infrastruktur/konteynerlər

CPU Utilization %, CPU Throttle %, Run Queue length.
Memory RSS/Working Set, OOM kills, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/ retransmits.
Node Saturation: pods pending, pressure (CPU/Memory/IO).

3. 6 Web-müştəri (UX)

Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
Error Rate (JS), Long Tasks, SPA route change time.
CDN Geo-Latency.

3. 7 Mobil müştəri

App Start time (cold/warm), ANR rate, Crash-free sessions %.
Network round-trips/session, Payload size, Battery drain/session.
Offline success rate (cached əməliyyatlar).

3. 8 Məlumat platforması və hesabat

Freshness Lag (T-now → витрина), Throughput rows/s, Job Success %.
Cost per TB processed, partiyalar üzrə Skew, Late events%.
BI Time-to-Render p95 əsas dashboard üçün.

3. 9 Domen kritik flow (nümunə olaraq iGaming)

Auth p95, KYC TTV (Time-to-Verify), Deposit/Withdrawal p95.
Game Round Duration p95, RNG call latency, Provider RTT p95.
Payment PSP success rate, Chargeback investigation SLA.

4) Normallaşma, üzlük və atributiya

Parsentili qarşı orta: p50/p90/p95/p99 - orta pik ağrıları yumşaldır.
Kəsiklər: proqram versiyası, region, provayder, şəbəkə kanalı (4G/Wi-Fi), cihaz.
Korrelyasiya: səbəb-nəticə zəncirləri üçün «backend-only» və «real-user» metrikləri bağlayın.
Exemplars/Traces: ekstremal üzlükləri izlərlə əlaqələndiririk.

5) Eşiklər və alertlər (nümunəvi şəbəkə)

Latency p95 (core API): warning> 250 ms, critical> 400 ms ardıcıl 5 dəq.
Error rate: warning > 0. 5%, kritik> 2% (end-point, qlobal deyil).
DB RepLag: warning > 2 s, critical > 10 s.
Kafka consumer lag (time): warning > 30 s, critical > 2 min.
Web LCP (p75): warning > 2. 5 s, critical > 4 s.
Mobile ANR: warning > 0. 5%, critical > 1%.
ETL Freshness: warning > +15 min, critical > +60 min от SLA.

Statik + adaptiv eşiklərdən (mövsümilik, gündəlik şablonlar), duplikasiyadan və xidmətlər/buraxılışlar üzrə alertlərin qruplaşmasından istifadə edirik.

6) Performans test

Növləri: baseline, stress, uzunmüddətli (soak), xaos (degrade links/PSP).
Yükləmə profilləri: real treys (distribution-based), «burstlar», regional zirvələr.
Məqsədlər: məqsədli RPS və qarışıq əməliyyatlarda SLO-ya nail olmaq, backpressure validasiya.
Run metrləri: Throughput, Error%, p95 latency, GC fasilələri, CPU throttle, queue lag, cost/run.

Reqressiya qaydası: p95> 10% bərabər profil ilə pisləşməsə və sorğu dəyəri (CPU-ms/sorğu)> 15% artmasa, buraxılış uğurlu hesab olunur.

7) Kapasite planlaşdırma və qiymət/performans

Demand model: RPS saat × orta iş/sorğu (CPU-ms, IO-ops).
Headroom: kritik yollar üçün 30-50% ehtiyat, P95 auto-scaling.
Cost KPIs: Cost per 1k requests, Cost per GB served, $ per 1 p. p. LCP təkmilləşdirilməsi.
Cache/denormization: «cache ROI» = (CPU-ms qənaət − cache dəyəri) hesab.
İsti və soyuq bölgələr: CDN/edge-də offload, «yalnız oxu» replikasiyası.

8) Müşahidə və profilləşdirmə təcrübələri

Tracking: bütün hop 's vasitəsilə paylanmış trace-ID; sampling ağıllı (tail-based).
Metriklər: Prometheus/OpenTelemetry, adların və etiketlərin vahid notasiyası.
Log: trace/span ilə korrelyasiya, log-səs budget, PII redaktə.
Profilləşdiricilər: CPU/Heap/Alloc/Lock profilləri, davamlı profilləşdirmə (eBPF).
Nümunə nümunələri: p99 sıçrayışlarını span/SQL/PSP kolla əlaqələndiririk.

9) Relizlərin və komandaların metrikası (tamlıq üçün)

DORA: Deployment Frequency, Lead Time, Change Failure Rate, MTTR.
SPACE: məmnunluq, performans, fəaliyyət, ünsiyyət, səmərəlilik.
Bu metrlər dəmir haqqında deyil, performansın sabitliyinə birbaşa təsir göstərir.

10) Anti-nümunələr

Orta təqib: p95/p99 görməməzlik.
«Qlobal» error rate: ağrılı enpointləri gizlədir.
Versiyalara görə atributlar olmadan: müştərinin reqressiyalarını tutmaq mümkün deyil.
Alert spam: histerezis və mövsümi korreksiya olmadan astanalar.
«Kor-koranə» optimallaşdırma: profilləşdirmə və izləmə yoxdur.
UX və backend latency qarışdırılması: müştəri təcrübəsi ilə səhv nəticələr.

11) Çek vərəqləri

Vahid standart metrik

  • Formullar, vahidlər, sahibləri ilə metrik lüğət
  • Məcburi üzlük p50/p90/p95/p99
  • Trace-korrelyasiya və log-korrelyasiya
  • Tags: region, versiya, provayder, cihaz, kanal şəbəkəsi
  • Histerezis və deduplikasiya ilə eşiklər

Buraxılışdan əvvəl

  • Bazline p95/p99 steyj və prodda
  • Kanarya trafik + A/B metrik müqayisə
  • Ficha bayrağı sürətli geri dönüş ilə
  • Müşahidə planı (observability runbook)

Müntəzəm

  • Ən yavaş top N sorğuları/SQL review
  • Cash Siyasətçi və TTL Audit
  • Freshness və DB replikasiyalarının yoxlanılması
  • Xarici provayderlərin deqradasiya testləri (PSP, KYC)

12) Mini playbook (nümunə)

Deqradasiya p95/api/payments

1. Error% və PSP xarici vaxtlarını müqayisə edin.
2. consumer lag növbə kolbekov yoxlayın.
3. trace nümunələri p99 bax: dar yer SQL/HTTP?
4. Referans/limit cache daxil, aşağı N + 1.
5. Büdcə: müvəqqəti olaraq 20% iş resursları artırmaq, autoscale daxil.
6. Post-fix: indeks (psp_id, status, created_at), retray jitter.

DB-də RepLag artımı

1. «Ağır» sorğuları və uzun əməliyyatları yoxlayın.
2. Replikasiyanın paralelliyini artırın, checkpoint.
3. Cache oxu/replica yalnız oxu Offload.
4. Pik pəncərələrdə - qismən denorm + batchi.

13) formula/SQL nümunələri (sadələşdirilmiş)

End point üzrə Error Rate

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

Latency p95 (TDigest/Approx)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

Consumer Lag (vaxt)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) Dashboard və hesabat daxil

KPI kartları: p95 latency, error%, RPS, WoW/DoD trendləri ilə saturation.
Top-N «ən pis» end-point/SQL/resursları, tıklanabilir drill-down → trace.
Müştəri versiyalarının korrelyasiyası: qraf «versiyası → p95 LCP/INP → dönüşüm».
Dünya xəritəsi: geo-latency (CDN), PSP latency regionlar üzrə.
SLO paneli: SLO-da vaxt payı, SLO-dan uçuşlar, «səhv büdcəsi».

15) Nəticələr

Performans metrikləri sistem intizamıdır: vahid lüğət, qələm, atributiya, yaxşı müşahidə və ciddi SLO. Texniki (gecikmə, lag, cash-hit) və məhsul siqnallarını (KYC vaxtı, p95 depozit, LCP) birləşdirərək, təcrübənin keyfiyyətini və çatdırılma dəyərini idarə edirsiniz - proqnozlaşdırıla bilən və ölçülə bilər.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.