SLA, SLO we KPI ygtybarlylygy
1) Adalgalar we tapawutlar
SLI (Service Level Indicator) - ölçenen hil görkezijisi (mysal üçin, üstünlikli haýyşlaryň paýy, gizlinlik p95).
SLO (Service Level Objective) - wagt penjiresi üçin SLI maksatly bahasy (mysal üçin, "üstünlik ≥ 99. 28 günde 9%").
Býudjet ýalňyşlygy (Error Budget) - SLO-nyň ýerine ýetirilmezliginiň rugsat berilýän paýy: '1 − SLO'.
SLA (Service Level Agreement) - jerimeler/karzlar bilen şertnama borçnamalary (daşarky).
KPI ygtybarlylygy - prosesiň iş ölçegleri (MTTD/MTTA/MTTR/MTBF, awtomatiki mitigeýtleriň%, alertleriň örtügi we ş.m.).
2) SLI nädip saýlamaly (Golden Signals esasynda)
1. Latency - esasy endpointler üçin p95/p99.
2. Traffic - RPS/RPM/habar akymy.
3. Errors - 5xx/biznes ýalňyşlyklarynyň paýy (mysal üçin, "PSP-iň ýalňyşlygy sebäpli" töleg töleglerini aýyrmak).
4. Saturation - resurslaryň doýmagy (CPU/RAM/IO/lag).
- Ulanyjy tejribesi bilen baglanyşýar (user-perceived).
- Tehniki taýdan elýeterli we ölçegde durnukly.
- Gözegçilik edýäris (gowulaşmak üçin hereketler bolup biler).
- Ýygymyň arzan bahasy.
3) Formulalar we mysallar
3. 1 Elýeterlilik (availability)
Availability = Успешные запросы / Все запросы
Error Budget (за период) = 1 − SLO
Mysal: SLO 99. 30 günüň dowamynda 9% → ýalňyşlyklaryň býudjeti = 0. 1%, bu 43 min 12 sekunt elýeterlilige deňdir.
3. 2 Gizlinlik
SLO-ny gizlinlik nukdaýnazaryndan bosagada gabat gelýän haýyşlaryň paýy hökmünde düzýäris:
Latency SLI = доля запросов с duration ≤ T
SLO пример: 99% запросов ≤ 300 мс (rolling 28d)
3. 3 Tölegler (işewürlik derejesi)
Payment Success SLI = (успешные проводки — внешние отказы PSP) / все попытки
4) Nädogry býudjet we burn-rate
Býudjet ýalňyşlygy - innowasiýa üçin "ýangyç baky" (relizler, synaglar).
Burn-rate - býudjetiň sarp ediş tizligi:- çalt kanal (1 sagat ~ detekt),
- haýal kanal (~ 6-12 sagat/24 sagat).
- Eger burn-rate> 14. 1 sagatda 4 - SEV-1 (gündelik býudjeti 100 minutdan ~ iýeliň).
- Eger burn-rate> 6 sagatda 6 - SEV-2 (çalt pese gaçmak).
5) SLO boýunça alerting (multi-window, multi-burn)
Hata görkezijisi: 5xx paýy ýa-da gizlinlik bozulmalary.
PromQL mysallary (jemlenen):promql
Доля ошибок за 5 минут sum(rate(http_requests_total{status=~"5.."}[5m]))
/
sum(rate(http_requests_total[5m]))
Быстрый burn (1m окно)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14.4
Медленный burn (30m окно)
(
sum(rate(http_requests_total{status=~"5.."}[30m])) /
sum(rate(http_requests_total[30m]))
) / (1 - SLO) > 2
SLO üçin gizlinlik boýunça göterimli gistogrammalary ulanyň:
promql p95 latency histogram_quantile(0.95, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
6) Domen boýunça SLI/SLO mysallary
6. 1 API şlýuzy/Edge
SLI-Errors: jogaplaryň paýy 5xx <0. 1% (28d).
SLI-Latency: p95 ≤ 250 ms (gün).
SLO: Availability ≥ 99. 95% (çärýek).
6. 2 Tölegler
SLI-Success: üstünlikli tölegler (müşderiniň şowsuzlyklaryndan başga) ≥ 99. 8% (28d).
SLI-Latency: Ygtyýarnama ≤ 99% üçin 2 sekunt (gün).
SLO: Time-to-Wallet p95 ≤ 3 мин (24h).
6. 3 Maglumat bazalary (PostgreSQL)
SLI-Lag: p95 ≤ 1 sek (gün).
SLI-Errors: Sorag ýalňyşlyklarynyň paýy ≤ 0. 05% (28d).
SLO: Klaster elýeterliligi ≥ 99. 95%.
6. 4 Nobatlar/Akym (Kafka)
SLI-Lag: sarp ediji lag p95 ≤ N habar (sagat).
SLI-Durability: ýazgyny tassyklamak ≥ 99. 99% (28d).
SLO: dellallaryň elýeterliligi ≥ 99. 9%.
7) Ygtybarlylyk prosesiniň KPI
MTTD (Mean Time To Detect)
MTTA (… To Acknowledge)
MTTR (… To Restore)
MTBF (… Between Failures)
Awtomatiki mitigasiýa hadysalary%
Iň ýokary traffik ýollaryny SLO/alertler bilen örtmek (maksat ≥ 95%)
Kanareýa tapgyry bolan relizleriň paýy
Buýruklar/aýratynlyklar boýunça nädogry býujetiň sarp edilmegi
8) SLO-ny nädip hakyky goýmaly
1. Häzirki esasy ygtybarlylygy ölçäň (3-4 hepde).
2. "Duýgur" ulanyjy ýollaryny kesgitläň (giriş, goýum, oýun).
3. Her bir hümmetiň bahasyny (wagt, pul, abraý) göz öňünde tutuň.
4. Hyjuwly, ýöne ýetip boljak maksat saýlaň (esasy maksat bilen deňeşdirilende 10-30% gowulaşmak).
5. Her çärýekde gözden geçiriň.
- Birbada "bäş dokuz" esassyz.
- Ulanyjy tarapyndan görünmeýän metrikler boýunça SLO (mysal üçin, UX bilen aragatnaşyksyz CPU).
- SLO → fokus sepmek gaty köp.
9) SLO we býujetler boýunça hasabat
Adaty hasabat (hepdede/aýda):- Her SLO boýunça ýerine ýetiriş: hakykat vs maksat, tendensiýalar, confidence.
- Ýalňyşlyklaryň sarp edilişiniň gysgaça mazmuny: näçe býudjet "ýakyldy", näçeräk, kim tarapyndan (goýberildi/waka).
- Pese gaçmagyň iň gowy bäş sebäbi, CAPA-meýilnama we wezipeleriň ýagdaýy.
- Işe täsiri: öwrülişik, ND, saklamak, LTV.
10) Goýberiş syýasaty bilen baglanyşyk
Hata býudjeti <50% → erkin goýberilýär.
50-80% → "seresap re regimeim": diňe low-risk/kanareýa hasaplamalary.
11) SLA (şertnamalaýyn) - bentleriň şablonlary
Elýeterlilik borjy: mysal üçin 99. 9 %/aý.
Kadadan çykmalar (Force Majeure): DDoS akylly gözegçilikden başga, üçünji taraplaryň üpjün edijileri.
Ölçeg penjiresi we jogapkärçilik zolagy: metrikanyň çeşmeleri, hasaplamagyň usuly.
Karzlar/jerimeler: derejeleriň tablisasy (mysal üçin, 60-120 min → karz X%).
Eskalasiýa we habarnamalaryň tertibi: möhletler, kanallar.
Maglumatlar we gizlinlik: gizlemek, saklamak, Legal Hold.
Düzgün bozulan halatynda gaýtalanmagyň öňüni almak boýunça işleriň meýilnamasy (CAPA).
12) Ölçeg gurallary
Passiw metrikler: Prometheus/Mimir/Thanos, eksportçylar.
Logi: Loki/ELK iş derejesinde üstünlikleri/ýalňyşlyklary sanamak üçin.
Sintetika: cron boýunça işjeň synaglar (giriş/goýum/oýun).
Yşyklandyryş: "dar ýerler" üçin Tempo/Jaeger p99.
Töleg/maliýe: töleg SLI üçin ground truth çeşmeleri.
13) Haýyşlaryň mysallary (şablonlar)
Üstünlikli API haýyşlarynyň paýy (4xx-dan başga):promql
1 - (
sum(rate(http_requests_total{status=~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
)
SLO karta:
yaml slo:
name: "API Availability"
window: "28d"
target: 0.999 sli: "1 - 5xx%"
owner: "Platform SRE"
alerting:
fast_burn: {window: "1h", factor: 14.4}
slow_burn: {window: "6h", factor: 6}
Töleg üstünligi (bloglardaky/akymdaky işewürlik wakalary boýunça):
success_rate = (count_over_time({app="payments"} = "status=success"[5m]))
/ (count_over_time({app="payments"} ~ "status=(success fail)"[5m]))
14) FinOps we ygtybarlylyk
Cost per 9: "dokuz" goşmagyň bahasy eksponensial taýdan ýokarlanýar.
Peýdanyň egrisi: girdejiniň ýokarlanmagy/ýitgileriň azalmagy ≥ goşmaça "9" gymmaty bolan ýerlerde optimum.
SLO portfeli: dürli ýollar üçin dürli derejeler (kritiki tölegler "has gymmat", hasabat "arzan").
15) SLO/alertleriň hili - çek sanawy
- SLI UX we iş metrleri bilen baglanyşýar.
- Penjire we ýygnamak ylalaşyldy (28d/çärýek).
- Alerts multi-window, flappingsiz, rolly marşrutly.
- Resminamalar: eýesi, formula, çeşmeler, runbook.
- Nädogry býudjet we burn görkezijileri bolan SLO demo paneli.
- Maksatlara yzygiderli täzeden garamak (çärýekde).
- Esasy ssenariler boýunça sintetika synaglary.
16) Durmuşa geçirmek meýilnamasy (4 iterasiýa)
1. 1-nji hepde: ulanyjy ýollarynyň sanawy, SLI taslamalar, esasy daşbordlar.
2. 2-nji hepde: SLO-ny resmileşdirmek, býudjetleri hasaplamak, alertler (fast/slow burn).
3. 3-nji hepde: wakalar/goýberişler prosesi bilen integrasiýa, freeze düzgünleri.
4. 4-nji hepde: şertnamalaýyn SLA, çärýekleýin rewyu, "cost per 9" finops modeli.
17) Mini-FAQ
Hyzmat üçin bir SLO gerek?
Onlarça ikinji derejeli däl-de, 2-3 esasy (üstünlik + gizlinlik) has gowudyr.
Býudjet gutarsa näme etmeli?
Relizleri doňdurmak, durnuklaşdyrmaga we CAPA-a ünsi jemlemek, synag suratlaryny aýyrmak.
Relizleriň tizligi bilen ygtybarlylygyň arasyndaky gapma-garşylykdan nädip gaça durmaly?
"Býudjet boýunça" neşirleri meýilleşdiriň, kanar hasaplamalaryny we feature-flags giriziň.
Jemi
Ygtybarlylyk dürli metrleriň toplumy bilen däl-de, eýsem ulgam bilen dolandyrylýar: SLI → SLO → býudjet ýalňyşlygy → burn-alerting → hadysalar prosesi → CAPA → SLA. Kesgitlemeleri, maglumat çeşmelerini we hasabatlylygy standartlaşdyryň, maksatlary ulanyjy tejribesine we ykdysadyýetine baglaň we hakyky ROI-e baglylykda "dokuzlaryň" derejesini yzygiderli gözden geçiriň.