KPI infrastruktura we aptaim
Näme üçin gerek?
Infrastruktura KPI durnuklylyk baradaky "duýgulary" ölçegli maksatlara öwürýär, töwekgelçiligi we işiň ünsüni dolandyrýar. Dogry metrikler tehniki SLI-leri iş netijeleri (öwrülişik, Time-to-Wallet, LTV) bilen baglanyşdyrýar we ösüşleri, ýükleri we innowasiýalaryň paýyny vs ygtybarlylygy meýilleşdirmäge mümkinçilik berýär.
Esasy düşünjeler: SLI, SLO, SLA we ýalňyşlyklar býudjeti
SLI (Service Level Indicator) - ölçenen hil görkezijisi: üstünlikli haýyşlaryň paýy, p95 latency, aralyk üçin aptaim.
SLO (Service Level Objective) - SLI maksady (mysal üçin, "üstünlik ≥ 99. 30 gün üçin 9%").
SLA (Agreement) - jerimeler/karzlar bilen daşarky wada. Elmydama SLO-dan emele gelýär, ýöne oňa deň däl.
Ýalňyşlyklaryň býudjeti = '1 − SLO'. Bu ölçeg penjiresi üçin "şowsuzlygyň" iň ýokary rugsat berilýän paýydyr. Töwekgelçilikli relizler we synaglar barada karar bermek üçin ulanylýar.
- Elýeterlilik SLO 99. 30 günüň dowamynda 95% → ýalňyşlyklaryň býudjeti 0. 05% ≈ 21. Senenama aýynda 6 minut "şowsuzlyk".
Dört sany "altyn" signal we goşmaça
1. Gizlinlik (p50/p90/p95/p99, tail ortalamadan has möhümdir).
2. Ýalňyşlyklar (5xx/timeout/iş ýalňyşlyklary).
3. Trafik/geçiş (RPS/QPS, MBps).
4. Doýmak (CPU/RAM/IO/FD/baglanyşyk/GC/kwotalar).
Goşmaça: sowuk başlangyç, nobatlar/beklog, deploýyň wagty, SLO-complayens.
Dürli görnüşli hyzmatlar üçin SLI modeli
HTTP/API
Elýeterlilik: '(üstünlikli 2xx/3xx − logiki ýalňyşlyklar )/( ähli soraglar)'
Gizlinlik: 'p95' üstünlikli soraglar üçin; "gyzgyn" ugurlar boýunça maksat.
Hil: 'audience/scope' dogry (authZ ýalňyşlyklarsyz) haýyşlaryň paýy.
Nobatlar/Asinxron
Habary gaýtadan işlemek wagty: p95 end-to-end ≤ N sek.
Backlog: mediana <X, guýrugy p99 <Y.
Eltip bermekde ýalňyşlyk: ≤ Z ppm.
BD/Nagt
Amallaryň gizlinligi: p95 get/put/commit.
Doýma: connection pool usage, hit-ratio kesh.
Hatalar: timeouts, deadlocks, eviction storms.
CDN/statik
Hit Ratio: Maksat derejesini ≥; pese gaçmak → origin ýüküniň ýokarlanmagy.
POP elýeterliligi: Anycast-düzüliş, şowsuzlyklar goňşulary tarapyndan öwezini dolýar.
Tölegler (business-SLI)
Time-to-Wallet p95, goýumyň/yzyna almagyň% üstünligi, PSP şowsuzlyklarynyň derejesi.
Elýeterliligi hasaplamak we "aptaým"
Hyzmatyň elýeterliligi = 'üstünlikli soraglar/ähli soraglar' (has gowusy "apteim minutlary" däl).
Infrastruktura düwünleri üçin alternatiwa: 'Wagt ýaşyl/penjire wagty'.
Senenama penjiresi: 28-31 gün, süýşýän penjire: soňky 30/90 gün.
Iş wagty/möhüm penjireler: backoffice üçin programma boýunça aptaim hasap edilip bilner (mysal üçin, ýerli wagt bilen 08: 00-22: 00).
- 'Availability (A) ≈ Av (B) × Av (C) × Av (A' B, C) '- serhetlerde SLO goýmak möhümdir.
SLO-toplumyň mysaly (nusga)
API Gateway: elýeterlilik ≥ 99. 95 %/30d; p95 latency ≤ 120 ms; hata ≤ 0. 2%.
Checkout/Payments: goýumyň üstünligi ≥ 98. 5 %/30d; Time-to-Wallet p95 ≤ 90 с; PSP-timeouts ≤ 0. 3%.
Maglumat bazasy: p95 read ≤ 10 ms; p95 write ≤ 25 ms; replica lag p95 ≤ 150 мс.
Kesiş: hit ratio ≥ 85%; eviction storms = 0/30д.
Tölegler: p95 gaýtadan işlemek ≤ 5 min; frod-fols-pozitiwler ≤ 0. 3%.
Ýalňyşlyklaryň býudjeti we üýtgeşmeleri dolandyrmak
Eger ýalňyşlyklaryň býudjeti penjiräniň ortasyndan 50% öň tükenen bolsa - fiç/relizleri "doňdurmak" girizilýär, durnuklaşdyrmaga üns berilýär.
Eger býudjet haýal sarp edilse, synaglary/kanareýkalary çaltlaşdyryp bolar.
Býudjet sarp edilişini "release _ id" arkaly anyk goýberişler/hadysalar bilen baglanyşdyryň.
Alerting: "gijelerine jaň etmezlik"
Alertler diňe SLO-degradasiýa we möhüm alamatlar üçin, her metrika üçin däl.
Multi-window, multi-burn rate: gysga penjire (5-15 minut) + uzyn (1-6 sagat).
Mysal üçin: "Burn rate 14 × 5 minutda We 6 × 1 sagatda" → on-call sahypasy.
P1 däl signallar üçin asuda sagat; jogapkärçilik ugry (ownership).
Daşbordlar we wizualizasiýa amallary
SLO-panel: hyzmatlara laýyklyk, galan býudjet, garaşlylyk kartalary.
Latency paneli: p50/p90/p95/p99, marşrutlar/tenantlar/ýurtlar/ASN boýunça bölünişik.
Error paneli: kodlar/sebäpler, relizler/fiçflaglar bilen baglanyşyk.
Capacity paneli: CPU/RAM/IO/network/FD/konnektleri, tendensiýalary we çaklamalary kesmek.
Iş paneli: konwersiýa, Time-to-Wallet, goýumlar/netijeler, gorag täsiri (WAF/antibot).
Hadysalar, MTTR we postmortemler
KPI reaksiýalary:- MTTD (ýüze çykarmak), MTTA (akkept), MTTR/MTTC (dikeltmek/saklamak), RCA bolmadyk hadysalaryň% -i wagtynda.
- Playbook: kim eskalirýär, fiçflaglary/bloklary nädip açmaly, nädip çykarmaly, işewürlik bilen aragatnaşyk.
- Postmortem (blameless): faktlar, wagt çyzygy, düýp sebäpler (tex/prosesler), hereketler: derrew/uzak möhletli, regressiýa synaglary, SLO-a täsiri.
Öndürijilik, doýma we zaýalanma
Headroom: maksatly çeşmeler (mysal üçin, CPU <70% p95, RAM <75% p95).
Hot paths: möhüm ugurlary profillemek; 'p99' ortaça has möhümdir.
Degradation modes: diňe kesmek, read-only, möhüm däl haýyşlary taşlamak, "nyrhlary çäklendirmek "/kwotalar.
Hasaplamalaryň formulalary we mysallary
1) Haýyşlar boýunça elýeterlilik
availability = (total_requests - error_requests) / total_requests
bu ýerde 'error _ requests' = 5xx + timeouts + iş ýalňyşlyklary (sazlanýar).
2) Ýalňyşlyklaryň býudjeti (minut)
error_budget_minutes = window_minutes (1 - SLO)
Mysal: 30 gün (43 200 min), SLO 99. 95% → 21. 6 minut.
3) Burn rate
burn_rate = observed_error_ratio / (1 - SLO)
Eger SLO 99 bolsa. 9% (býudjet 0. 1%), ýalňyşlyk bolsa 1% → burn_rate = 10 ×.
4) Birleşdirilen elýeterlilik
A_total ≈ A_gw × A_auth × A_db × A_psp
Kiçijik ýykylmalar umumy A.-ny multiplikatiw urýar.
Ölçeg we kadadan çykmalar syýasaty
Meýilleşdirilmedik penjireler (hadysalar) - hasaba alynýar.
Meýilleşdirilen hyzmat penjireleri - diňe SLA şeýle ýazylan bolsa hasaba alynýar; SLO üçin köplenç aýyrylmaýar (ýa-da 'planned _ downtime' hökmünde aýratyn bellik edilýär).
Sintetika vs hakyky ulanyjylar: iki kanalyň hem bolmagy peýdalydyr (RUM + sintetiki barlaglar).
Artefaktlaryň mysallary
KQL/PromQL (ideýalar)
SLI ýalňyşlygy (5xx + timeouts) 5 minutda:promql sum(rate(http_requests_total{status=~"5.. timeout"}[5m]))
/
sum(rate(http_requests_total[5m]))
p95 latency по route:
promql histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
Burn rate 5m/1h:
promql
(
sum(rate(errors_total[5m])) / sum(rate(requests_total[5m]))
) / (1 - 0. 999)
SQL (tölegler boýunça biznes-SLI)
sql
SELECT date_trunc('minute', finished_at) AS ts,
100. 0 sum((status='SUCCESS')::int)::float / count() AS payment_success_pct,
percentile_cont(0. 95) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (finished_at - started_at))) AS ttw_p95_sec
FROM payments
WHERE finished_at > now() - interval '30 days'
GROUP BY 1 ORDER BY 1;
Garaşlylygy we kaskady dolandyrmak
Toparlaryň arasyndaky SLO şertnamalary: gateway, auth, wallet, PSP.
Degradation policies: garaşlylyk peselende, hyzmat "ýönekeýleşdirilen re modeime" geçýär.
Feature flags: kritiki däl funksiýalary öçürmek, latency guýruklaryny azaltmak üçin "çal çykmak".
Capacity Planning we çaklamalar
Schomes. tendensiýalar we wakalar boýunça RPS/MBps çaklamasy (ýaryşlar, oýunlar, hereketler).
"Altyn ýollar" boýunça ýüklemek, PSP/tölegler üçin aýratyn synaglar.
Iň ýokary derejedäki ätiýaçlyk: maksat koeffisiýenti 1. 3×–2. Garaşylýan ýükden 0 ×.
SLO/KPI girizmegiň barlag sanawy
1. Möhüm ulanyjy ýollaryny kesgitlemek we "müşderiniň nukdaýnazaryndan" SLI barada ylalaşmak.
2. SLO maksatlaryny we penjiräni saýlaň (30/90 gün); ýalňyşlyklaryň býudjetini hasaplamak.
3. Şlýuzlara/hyzmatlara metrik ýygnamagy birleşdirmek, kodlary/sebäpleri kadalaşdyrmak.
4. Burn-rate alertlerini (gysga + uzyn penjire), marşrutlaşdyryş we on-call sazla.
5. SLO-complayens wizuallaşdyryň, relizler/fiçflaglar bilen baglanyşdyryň.
6. "Üýtgeşmelere garşy býudjet" syýasatyny we doňdurma işini başlamak.
7. Her artykmaçlyk üçin retrospektivler we RCA, regressiýa synaglary.
8. Býujetiň hakyky ulanylyşy we işewürlik maksatlary boýunça SLO-ny çärýekde gözden geçirmek.
Adaty ýalňyşlyklar
Programmalaryň ýalňyşlyklaryny äsgermezlik edip, "ping uptime" ölçenýärler.
SLO "ätiýaçlyk" (99. 999%), ýöne ýetip bolmaýar we hiç zady çözmeýär.
Ulanyjy alamatlarynyň ýerine pes derejeli metrikler boýunça alertler.
Garaşlylyk kartasy ýok → nirede ýanýandygy belli däl.
SLO-nyň goýberilişi bilen hiç hili baglanyşygy ýok → Býudjeti kimiň "iýendigi" belli däl.
p99 → gowy orta, ýöne erbet UX VIP ulanyjylary.
iGaming/fintech üçin aýratynlyklar
Meýilnama boýunça iň ýokary derejeler: oýunlar/wakalar/aksiýalar - capacity-ni öňünden ýokarlandyrmak, keş/CDN-i gyzdyrmak, ýörite çäkleri öz içine almak.
Business-SLI: Time-to-Wallet, goýumyň/yzyna almagyň üstünligi, "töleg tizligi" p95; daşbordlaryň kökünde.
PSP/partnýorlar: üpjün edijiler boýunça aýratyn SLO/dashbordlar, marşrutlary awtomatiki geçirmek.
Antibot/antifrod: ýalňyşlyklaryň býudjetini iýmeli däldir - "kanuny bloklary" "tehniki ýalňyşlyklardan" aýyryň.
Düzgünleşdiriji: magazinesurnallary saklamak, SLO/SLA hasaplamalarynyň gaýtalanmagy, hadysalar boýunça hasabatlar.
FAQ
SLO-dan meýilleşdirilen işleri aýyrmalymy?
Adatça ýok: SLO ulanyjynyň başdan geçirýän tejribesini görkezýär. SLA üçin kadadan çykmalar göz öňünde tutulyp bilner.
Näme üçin orta däl?
Orta guýruklaryny gizleýär; UX guýruklary kesgitleýär (p95/p99).
Tutuş önüm üçin bir SLO mümkinmi?
SLO agajy gerek: önüm boýunça agregat we möhüm ýollar/komponentler boýunça gyzlar.
Jemi
Güýçli KPI infrastruktura ulgamy - bu ulanyjy SLI, hakyky SLO, üýtgeşmeleri dolandyrmak üçin elek hökmünde ýalňyşlyk býudjeti, akylly alerting we hadysalaryň tertibi we RCA. Tehniki görkezijileri iş ölçegleri bilen baglanyşdyryň, ýygnamagy we wizuallaşdyrmagy awtomatlaşdyryň - infrastruktura öňünden aýdyp bolar we iň ýokary ssenariýalarda-da iň ýokary derejä ýeter.