SLO, SLA we ygtybarlylyk gözegçiligi
(Bölüm: Tehnologiýalar we infrastruktura)
Gysgaça gysgaça
SLO - hiliň içerki maksady, SLA - müşderä daşarky borçnama, SLI - hilini nädip ölçeýäris. iGaming-de esasy SLI: API we tölegleriň elýeterliligi, kritik marşrutlaryň gizlinligi p95/p99, Time-to-Wallet (TTW), tölegleriň öwrülişigi, oýunlaryň başlamagy, şeýle hem nobatlaryň metrikleri. Ygtybarlylygy dolandyrmak ýalňyşlyklaryň, multi-burn alertleriniň, goýberilişleriň anyk geýtleriniň we annotasiýa bilen aýdyň daşbordlaryň býudjetiniň töwereginde gurulýar.
1) Adalgalar we tapawutlar
SLI (Service Level Indicator) - ölçenen görkeziji (mysal üçin, wagt penjiresi üçin üstünlikli haýyşlaryň paýy).
SLO (Service Level Objective) - SLI (mysal üçin, "elýeterlilik 99. 30 gün üçin 9%").
SLA (Service Level Agreement) - öwezini dolmak bilen şertnama/borçnama; hakyky SLO esaslanýar, ýöne kanuny bellikleri we kadadan çykma penjirelerini (planned maintenance, fors-major) öz içine alýar.
Düzgün: Ilki bilen içindäki SLI/SLO-ny durnuklaşdyryň, diňe şondan soň SLA-ny çykaryň.
2) iGaming üçin SLI çarçuwasy
TexSLO
Availability: üstünlikli 2xx/3xx/ähli soraglar.
Latency: p95/p99 ('/deposit ', '/bet', '/game/init ').
Errors: 5 x/wagt paýy.
Saturation/Queues: Töleg/geleşik nobatlarynyň gijikdirilmegi.
Business-SLI
Payment conversion: `success/attempt`.
TTW p95: Yzyna almak haýyşyndan başlap, hasaba alynýança wagt.
Game start success: oýun sessiýalary, üpjün edijiniň başlangyjy.
KYC/AML flow success: ýoluň üstünlikli tamamlanmagy.
3) Ýalňyşlyklaryň býudjeti: nädip sanamaly
Error Budget = 1 − SLO.
Mysal: SLO elýeterliligi 99. 9 %/30d ⇒ ýalňyşlyklaryň býudjeti = 0. Wagtyň 1% ≈ 30 günlük penjirede 43min 12s.
success_ratio = success_requests / all_requests error_ratio = 1 - success_ratio
SLO süýşýän penjirede (30/7/1 gün) hasaplanýar we daşbordlarda görünýär.
Peýdalanmak syýasaty:- Býudjetiň çalt "ýanmagy" → freeze relizleri, kanareýa durýarys, durnuklylygyň üstünde işleýäris.
- Býudjet ätiýaçlygy → ýygy-ýygydan üýtgeşmelere ýol berýäris (gözegçilik edilýär).
4) Esasy akymlar üçin SLO mysallary
Payments API:- Availability ≥ 99. 9 %/30d
- Latency p95 `/deposit` ≤ 250 ms / 30д
- Payment conversion ≥ baseline − 0. 3 %/24h
- TTW p95 (çykyş) ≤ 3 min/24h
- Game init success ≥ 99. 5% / 7д p95 game init ≤ 600 ms / 7д
- Job success ≥ 99 %/7d, lag <5 min (iň ýokary penjireler aýratyn).
5) Ölçeg: formulalar we PromQL (ideýalar)
Soraglaryň üstünligi:promql sum(rate(http_requests_total{status=~"2.. 3..",service="payments-api"}[5m]))
/
sum(rate(http_requests_total{service="payments-api"}[5m]))
p95 gizlinlik:
promql histogram_quantile(0. 95,
sum by (le) (rate(http_request_duration_seconds_bucket{service="payments-api",route="/deposit"}[5m])))
TTW p95 (wakalaryň gistogrammasy):
promql histogram_quantile(0. 95,
sum by (le) (rate(ttw_seconds_bucket{flow="withdrawal"}[15m])))
Tölegleriň öwrülişigi:
promql sum(rate(payments_success_total[15m])) / sum(rate(payments_attempt_total[15m]))
6) Burn-rate alert (multi-window)
Ideýa: Häzirki çykdajy tizligini rugsat edilýän bilen deňeşdirýäris.
SLO üçin mysal 99. 9%:- Fast burn: 14 sagat üçin × býudjet 1 → page 5-15 minutdan soň.
- Slow burn: 6 sagatda býudjet × 24 → bilet, sebäbini seljermek.
yaml recording rule: job:http:success_ratio — заранее alert: SLOFastBurn expr: (1 - job:http:success_ratio{job="payments-api"}) > (1 - 0. 999) 14 for: 10m labels: { severity: "page" }
alert: SLOSlowBurn expr: (1 - job:http:success_ratio{job="payments-api"}) > (1 - 0. 999) 6 for: 1h labels: { severity: "ticket" }
7) Daşbordlar "SLO-kart" we operasiýa
Ýokarky dereje:- Hyzmatlar boýunça kartoçkalar: Availability, p95, Error-rate, Burn-rate, galyndy Error Budget.
- Süzgüçler: 'env', 'region', 'tenant', 'version'.
- Relizleriň düşündirişleri: Git SHA, görnüşi (canary/blue-green), geçiş wagty.
- stable vs canary.
- PSP/oýun üpjün edijileri boýunça kesme.
- exemplars (trace_id) we baglanan loglara geçiň.
- Queue lag we saturation (USE-metrikler).
8) SLO-prosesler: geýt, freeze, eskalasiýa
CD-de Gates: kanareýany mahabatlandyrmaga diňe SLO-proxy (availability, p95, conv) ýerine ýetirilende rugsat berilýär.
Freeze: fast-burn ýa-da býudjetiň nol galyndysynda - dikeldilýänçä relizleri duruzmak.
Eskalasiýa: SEV-matrisa (SEV1 tölegler/goýumlar, SEV2 oýunlary, SEV3 bakofis).
RCA: aýyplamasyz seljerme, synaglary/çäkleri/fiziki baýlyklary täzelemek.
9) Data/ML-SLO (maslahat berijiler üçin/LLM)
Latency: p95 model jogaby ≤ 300 ms (ýa-da tokens/s ≥ N).
Quality proxy: dogry jogaplaryň/pes zäherliligiň paýy, share of helpful.
Freshness: fiçleriň/maglumatlaryň ýaşy ≤ X sagat.
Cost per 1k events: býudjetdäki çykdajylar.
SLO-geýtlar modelleriň çykarylyşyna goşulýar (A/B/kanar rollout).
10) SLO esasly SLA dizaýny
SLA esaslary hökmünde konserwatiw SLO saýlaň.
Kadadan çykmalary kesgitläň (meýilleşdirilen işler, daşarky garaşly üpjün edijiler, hadysalaryň düzgünleri).
Düzgün bozulmalaryň derejesi boýunça kompensasiýalary (karz/arzanladyş), hasabatlylygyň we barlagyň mehanizmlerini giriziň.
11) Ýygy-ýygydan ýalňyşlyklar we anti-patternler
SLO ýok, diňe "uptime 100%" - hakykata laýyk däl, töwekgelçilikleri ýok edýär we gizleýär.
Burn-rate ýerine "her metrika" boýunça alertler - alert-fetig we ignor.
SLO üçin metriklerde/loglarda PII garyşdyrmak - laýyklyk töwekgelçiligi.
Kardinallyk ýarylýar: 'user _ id/session _ id' bellik hökmünde.
Relizleriň düşündirişleriniň ýoklugy - zaýalanmalary üýtgeşmeler bilen baglanyşdyrmak kyn.
Ýalňyşlyklaryň düşnüksiz býudjeti - topar haçan töwekgelçilik edip biljekdigine düşünmeýär.
SLO telekeçilik bilen baglanyşykly däl - "ýaşyl" tehnometrikler, "gyzyl" girdeji.
12) Girizmegiň çek-sanawy
1. Esasy SLI-leri tassyklaň (Awailability, p95/p99, Error-rate, TTW, Conversion).
2. 30/7/1 günlük penjirelerde SLO goýuň we Error Budget hasaplaň.
3. Recording rules we burn-rate alertlerini (fast/slow) goşuň.
4. Relizleriň düşündirişleri we canary/stable deňeşdirmeleri bilen SLO kartasyny guruň.
5. CD-de geýtleri açyň: SLO-ok bolmasa - mahabat ýok.
6. Freeze-proseduralary we SEV-eskalasiýa matrisini giriziň.
7. SLO-ny iş metrleri (conv, TTW) we töleg ugurlary bilen baglanyşdyryň.
8. Data/ML üçin latency/quality/freshness-SLO kesgitläň.
9. Yzygiderli RCA we SLO/bosagalara täzeden garamak (çärýekde).
10. Diňe SLO durnuklaşandan soň SLA-ny resminamalaşdyryň.
13) "taýýar" maksatlaryň mysallary (başlangyç hökmünde)
Umumy API: Availability 99. 9 %/30d; p95 ≤ 250 ms/30d; Error-rate ≤ 0. 3 %/30d.
Payments: Conversion ≥ baseline − 0. 3 %/24h; TTW p95 ≤ 3 min/24h.
Games init: Success ≥ 99. 5 %/7d; p95 ≤ 600 ms/7d.
Backoffice jobs: Success ≥ 99%/7д; lag ≤ 5 min/7d.
LLM/Reco: tokens/s ≥ N, toxicity viol. ≤ 0. 5 %/7d, freshness ≤ 6s.
Netijeler
SLO/SLA çemeleşmesi ygtybarlylygy "düýnkiden has gowy" ölçenen tertip-düzgüne öwürýär: aç-açan SLI, ýalňyşlyklaryň düşnükli býudjeti, ýanmagyň tizligi üçin aladalar, düşnükli dashbordlar we goýberilen hil geýtleri. Şeýle konturlar iGaming platformasyna öňünden aýdyp boljak p95/p99, durnukly tölegler we TTW berýär, bu bolsa iň gowy girdeji we iň yssy sagatlarda az hadysalary aňladýar.