Операциялар жана башкаруу → Performance Metrics
Аткаруу көрсөткүчтөрү
1) Эмне үчүн аткаруу метрика керек
Аткаруу - бул системанын максаттуу SLOларды жооп убактысы жана кубаттуулугу менен камсыз кылуу жөндөмдүүлүгү. Метрикасыз мүмкүн эмес:- окуяларга чейин деградацияларды аныктоо,
- жөндөмдүүлүгүн жана бюджетин болжолдоо,
- башка чечимдерди салыштыруу (кэш vs БД, gRPC vs REST),
- релиздерден кийин регрессияны башкаруу.
Принциптер: бирдиктүү сөздүк метрика, перцентил агрегациясы (p50/p90/p95/p99), "ысык" жана "муздак" жолдорду өзүнчө эсепке алуу, контекст (версия, аймак, провайдер, аппарат).
2) Метриктердин таксономиясы
2. 1 Негизги SRE алкактары
Төрт алтын сигналдар: Latency, Traffic, Errors, Saturation.
RED (микросервистер үчүн): Rate, Errors, Duration.
USE (темир үчүн): Utilization, Saturation, Errors.
2. 2 деңгээл
Инфраструктура: CPU, RAM, диск, тармак, контейнерлер, түйүндөр.
Платформа/Services: API-EndPoints, кезек, кэш, DD, шина окуялар.
Кардарлардын тажрыйбасы: Web Vitals, мобилдик SDK, стриминг, CDN.
Маалымат платформасы: ETL/ELT, агымдар, витриналар, BI кечигүү.
Бизнес-маанилүү Flow: Authorization, KYC, депозиттер/төлөмдөр, оюн-тегерек.
3) Негизги метриктердин жана формулалардын каталогу
3. 1 API жана микросервистер
RPS (Requests per second).
Latency p50/p95/p99 (ms) - жакшыраак "end-to-end" жана "backend-only".
Error Rate (%) = 5xx + тастыкталган 4xx/бардык суроолор.
Saturation: Воркер кезектин орточо узундугу, "in-flight" суроо.
Cold Start Rate (FaaS үчүн).
Throttling/Dropped Requests.
SLO мисал: p95 latency ≤ 250 ms RPS EU-Чыгыш аймагында 2k чейин; каталар ≤ 0. 5%.
3. 2 Маалымат базалары
QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits / Deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.
RepLag (репликация), Checkpoint/Flush time, Autovacuum lag.
Hot Keys/Skew - жүктөө боюнча жогорку N ачкычтары.
"Ядро боюнча суроолор" формуласы: QPS/ vCPU_core_count → шардана сигналы.
3. 3 Кэш жана CDN
Hit Ratio (%), Evictions/s, Latency p95, Item Size percentiles.
Origin Offload (%) для CDN, TTFB, Stale-while-revalidate hit%.
3. 4 кезек/агымдар
Ingress/egress msg/s, Consumer Lag (билдирүүлөр/убакыт), Rebalance rate.
Processing Time p95, DLQ Rate.
3. 5 Инфраструктура/контейнерлер
CPU Utilization %, CPU Throttle %, Run Queue length.
Memory RSS/Working Set, OOM kills, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/ retransmits.
Node Saturation: pods pending, pressure (CPU/Memory/IO).
3. 6 Web-кардар (UX)
Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
Error Rate (JS), Long Tasks, SPA route change time.
CDN Geo-Latency.
3. 7 Мобилдик кардар
App Start time (cold/warm), ANR rate, Crash-free sessions %.
Network round-trips/session, Payload size, Battery drain/session.
Offline success rate (кэш-операциялары).
3. 8 Маалымат платформасы жана отчеттуулук
Freshness Lag (T-now → витрина), Throughput rows/s, Job Success %.
Cost per TB processed, партиялар боюнча Skew, Late events%.
BI Time-to-Render p95 негизги dashboard үчүн.
3. 9 Домендик-критикалык Flow (iGaming мисал катары)
Auth p95, KYC TTV (Time-to-Verify), Deposit/Withdrawal p95.
Game Round Duration p95, RNG call latency, Provider RTT p95.
Payment PSP success rate, Chargeback investigation SLA.
4) Нормалдаштыруу, бурмалоо жана атрибуция
орточо каршы Pancentile: P50/P90/P95/P99 белгиленген - орточо жогорку оору жумшартат.
Тилкелер: тиркеменин версиясы, аймак, провайдер, тармак каналы (4G/Wi-Fi), түзмөк.
Корреляция: себептик чынжырлар үчүн "backend-only" жана "real-user" метрикасын байланыштырат.
Exemplars/Traces: Биз экстремалдык бырыштарды трассалар менен байланыштырабыз.
5) Босоголор жана алерталар (болжолдуу тор)
Latency p95 (негизги API): warning> 250 ms, critical> 400 ms катары менен 5 мин.
Error rate: warning > 0. 5%, critical> 2% (EndPoint боюнча, дүйнөлүк эмес).
DB RepLag: warning > 2 s, critical > 10 s.
Kafka consumer lag (time): warning > 30 s, critical > 2 min.
Web LCP (p75): warning > 2. 5 s, critical > 4 s.
Mobile ANR: warning > 0. 5%, critical > 1%.
ETL Freshness: warning > +15 min, critical > +60 min от SLA.
Биз статикалык + адаптивдүү босоголорду (сезондук, күндүзгү шаблондорду), сервистер/релиздер боюнча дедупликацияны жана алерттерди топтоону колдонобуз.
6) Performance сыноо
Түрлөрү: baseline, стресс, узакка созулган (soak), башаламандык (degrade links/PSP).
Жүктөө профилдери: реалдуу соодалар боюнча (distribution-based), "бурсттар", аймактык чокулар.
Максаттары: максаттуу RPS жана mix операцияларында SLO жетишүү, backpressure валидациясы.
Прогон көрсөткүчтөрү: Throughput, Error%, p95 latency, GC тыныгуу, CPU throttle, queue lag, cost/run.
Регрессия эрежеси: p95 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
7) кубаттуулугу пландаштыруу жана баасы/аткаруу
Demand модели: RPS саат × орточо иш/суроо (CPU-ms, IO-ops).
Headroom: 30-50% критикалык жолдор үчүн запастагы, P95 боюнча auto-scaling.
Cost KPIs: Cost per 1k requests, Cost per GB served, $ per 1 p. p. LCP жакшыртуу.
Кэш/denormalization: "cache ROI" = (CPU-ms үнөмдөө − кэш наркы).
Жылуу жана муздак аймактар: CDN/edge offload, "бир гана окуу" репликациясы.
8) Байкоо жана кароо практикасы
Tracks: бардык Hop's аркылуу бөлүштүрүлгөн trace-ID; семплирование акылдуу (tail-based).
Метрика: Prometheus/OpenTelemetry, аттардын жана этикеткалардын бирдиктүү ноталар.
Логи: trace/span боюнча корреляция менен, лог-чуу боюнча budget, PII түзөтүү.
Профилчилер: CPU/Heap/Alloc/Lock профилдери, үзгүлтүксүз профилдер (eBPF).
Үлгүлөрдүн үлгүлөрү: p99 span/SQL/PSP-коллге байланыштуу.
9) Релиздер жана буйруктардын өлчөмдөрү (толук)
DORA: Deployment Frequency, Lead Time, Change Failure Rate, MTTR.
SPACE: канааттануу, аткаруу, иш, байланыш, натыйжалуулугу.
Бул көрсөткүчтөр темир жөнүндө эмес, бирок түздөн-түз аткаруу туруктуулугуна таасир этет.
10) Анти-үлгүлөрү
орточо кууп: p95/p99 четке кагуу.
"Global" error rate: оор эндпойнтторду жашырат.
Версиясы жок: кардардын регрессиясын кармоо мүмкүн эмес.
Alert-спам: гистерезис жана сезондук коррекция жок босоголор.
"Сокур" оптималдаштыруу: эч кандай профилдер жана жолдор.
UX жана backend latency аралаштыруу: кардар тажрыйбасы боюнча туура эмес жыйынтыктар.
11) Чек-баракчалар
Бирдиктүү стандарттык метр
- Формулалар, бирдиктер, ээлери менен метрикалык сөздүк
- Милдеттүү шакек p50/p90/p95/p99
- Trace-корреляция жана логикалык-корреляция
- Tags: аймак, версия, провайдер, түзмөк, тармак каналы
- Гистерезис жана дедупликация менен босоголор
Чыгаруу алдында
- Бейзлайн p95/p99 стейдж жана прод
- Канар жол + салыштыруу A/B метр
- Ficha желеги менен тез артка
- Байкоо планы (observability runbook)
Үзгүлтүксүз
- Review абдан жай жогорку N суроо/SQL
- Аудит кэш саясаты жана TTL
- Freshness текшерүү жана DD Replications
- Тышкы провайдерлердин деградация тесттери (PSP, KYC)
12) Mini Playbook (мисал)
p95/api/payments деградация
1. Салыштыруу error% жана тышкы PSP убакыт.
2. Текшерүү consumer lag кезек kolbekov.
3. p99 мисалдарды көрүү: SQL/HTTP тар?
4. Колдонмолор/лимиттер кэшин күйгүзүү, N + 1 азайтуу.
5. Бюджет: Воркердин ресурстарын убактылуу 20% көтөрүү, autoscale кирет.
6. Post-fix: индекс боюнча (psp_id, status, created_at), retray-jitler.
DB-жылы RepLag өсүшү
1. Текшерүү "оор" суроо-талаптар жана узак бүтүмдөр.
2. Репликация параллелизмин жогорулатуу, checkpoint тюнинг.
3. Offload окуу кэш/реплика гана окуу.
4. Эң жогорку терезелерде - жарым-жартылай денорм + батчи.
13) Formula мисалдар/SQL (жөнөкөй)
Error Rate EndPoint
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
Latency p95 (TDigest/Approx)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
Consumer Lag (убакыт)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) Дашбордддорго жана отчеттуулукка киргизүү
KPI карталары: p95 latency, error%, RPS, WoW/DoD тенденциялары менен saturation.
Top-N "жаман" EndPoints/SQL/ресурстары, clickable drill-down → trace.
Кардардын версияларынын корреляциясы: "версия → p95 LCP/INP → конверсия".
Дүйнө картасы: geo-latency (CDN), PSP latency региондор боюнча.
SLO панели: SLO убакыт үлүшү, SLO учуу, "бюджет каталар".
15) натыйжалары
Performance Metrics - бул системалуу тартип болуп саналат: бирдиктүү сөздүк, бурмалоо, атрибуция, жакшы байкоо жана катуу SLO. Техникалык (жашыруун, лагдар, кэш-хиттер) жана азык-түлүк сигналдарын (KYC убактысы, p95 депозиттик, LCP) айкалыштырып, сиз тажрыйбанын сапатын жана жеткирүү баасын башкарасыз - алдын ала жана масштабдуу.