GH GambleHub

SLA və SLO monitorinqi

1) Şərtlər və rollar

SLA (Service Level Agreement) - müştəri qarşısında xarici müqavilə öhdəliyi (cərimə şərtləri, kreditlər).
SLO (Service Level Objective) - SLA-nın icrasını dəstəkləyən məqsədli daxili xidmət səviyyəsidir.
SLI (Service Level Indicator) - SLO/SLA tərəfindən qiymətləndirilən ölçülən göstəricidir.
Error Budget: 'Budget = 1 − SLO'.
Scope: istifadəçinin gözü ilə ölçülür (end-to-end). Mikroservislərdə - həm komponent səviyyəsində, həm də tam yol.

2) SLI seçimi: dəqiq ölçmək üçün nə

Meyar - istifadəçi təcrübəsi və biznes dəyəri ilə korrelyasiya.

Tipik SLI:
  • Əlçatanlıq: uğurlu sorğuların payı. 'SLI = uğurlu/hamısı'.
  • Gecikmə: T. həddindən daha sürətli sorğuların payı. 'SLI = P (latency ≤ T)'.
  • Keyfiyyət: düzgün cavabların payı (5xx/funksiya olmadan). səhvlər).
  • Məlumatların aktuallığı: replikasiyanın gecikməsi/ETL ≤ X dəqiqə.
  • Biznes prosesinin səmərəliliyi: uğurlu ödənişlərin/qeydiyyatların payı.

Anti-nümunələr: yalnız 200-ləri biznes səhvlərinə məhəl qoymadan «uğur» hesab edin; xüsusi əvəzinə test şəbəkəsində ölçmək.

3) Müşahidə formulları və pəncərələri

Pəncərədən çıxış:
  • `Availability = (OK_requests / All_requests) × 100%`.
Gizli SLO:
  • 'P95 ≤ T' → pay kimi formalaşdırmaq daha yaxşıdır: 'SLI =% T' ≤ sorğular.
  • Nümunə: «Axtarış sorğularının 99% -i 28 gündə 300 ms ≤».
  • Sürüşmə pəncərəsi: 28 və ya 30 gün (həssaslıq və sabitlik balansı). Hadisələr üçün - əlavə pəncərələr: 1 saat, 6 saat, 24 saat.

4) Error Budget və sürət dəyişikliyi

Hesablama: 'SLO = 99. 9% 'büdcə =' 0. 1% 'dövr ərzində səhv/əlçatmazlıq.

Siyasət:
  • Büdcə> 50%: plana uyğun olaraq buraxılışlar və təcrübələr.
  • Büdcə 10-50%: yalnız aşağı riskli relizlər, kanaryaların sərtləşdirilməsi.
  • Büdcə <10%: relizlərin dondurulması, kök səbəbi, etibarlılığın yaxşılaşdırılması.
  • Mütərəqqi buraxılışlarla əlaqə: canary/feature-flags «yemək» büdcəsi dozalı, deqradasiya zamanı avtomatik geri dönüş ilə.

5) Alert siyasəti: eşikdən burn rate

Niyə «daupal SLO - alert qaldırın»: çox gec. Proaktivlik lazımdır.

Burn Rate (BR) - büdcə yanma sürəti:
  • 'BR = (qısa pəncərədə müşahidə olunan səhv/bu pəncərədə icazə verilən səhv)'.
  • Əgər 'BR> 1' - büdcə normadan daha tez xərclənir.
İki pəncərəli alertlər (SRE best practice):
  • Sürətli alert (səs-küy həssasdır, fəlakətləri tutur): pəncərə 5-10 dəq, BR həddi 14-20 ×.
  • Yavaş alert (sürünən deqradasiyaları tutur): pəncərə 1-6 saat, BR həddi 2-4 ×.
  • Kombinasiya şərtləri: sürətli və ya yavaş işlədi - on-call çağrı.
  • Səviyyələr: xüsusi SLO üçün çağrı cihazı, daxili SLI boz deqradasiyalar üçün biletlər/bildirişlər.

6) Müşahidə və həqiqət mənbələri

Logi - səbəblərin diaqnostikası.
Metriklər - ədədi SLI (müvəffəqiyyət/səhv, lent, pay, sayğaclar).
Treys - keçici yollar, «isti» seqmentlərin lokalizasiyası.
Sintetika - periferiyadan (region-aware) aktiv nümunələr.
Real hadisələr - RUM/telemetriya müştərilər, biznes metrika (dönüşüm, uğurlu ödənişlər).

Tələblər: buraxılış və hadisələrin daşbordlarında vahid şəkil, «versiya/kanarya/bayraq» şərhləri.

7) SLO dizayn: addım-addım şablon

1. Kritik yolu təsvir edin (məsələn, «kartla depozit»).
2. SLI müəyyən edin: uğur/səhv, gecikmə həddi, tamlıq.
3. SLO ilə razılaşın: 28 gün + istisnalar üçün hədəf (planlaşdırılan pəncərələr).
4. SLA ilə əlaqə saxlayın: hüquqi öhdəlik ≦ faktiki SLO.
5. Sahibini təyin edin (service owner), RACI və alert kanalı.
6. Alert siyasətlərini (iki pəncərəli BR) və avtomatik geri çəkilmələri müəyyən edin.
7. Hesabat təqdim edin: həftəlik büdcə icmalları, post-insident review.
8. SLO-nu rüblük nəzərdən keçirin (yük/memarlıq dəyişikliyi).

8) SLO nümunələri (şablonlar)

API ödənişlər:
  • Mövcudluq: '≥ 99. 95% '(28d, elan edilmiş pəncərələr istisna olmaqla ≤ 30 dəq/ay).
  • Gecikmə: '≥ 99%' cavabları '≤ 400 ms'.
  • Biznes əməliyyatlarının uğuru: '≥ 98. 5% uğurlu icazələr (fraud-filterlər nəzərə alınır).
Oyun/məzmun axtarışı:
  • Gizlilik: '99% ≥' sorğular '≤ 300 ms'.
  • Cache aktuallığı: '≤ 5 min' 99% hallarda gecikmə.
Axın hadisələri (KYC/AML):
  • Çatdırılma: '99 ≥. 9% 'ərzində' ≤ 60 s '(end-to-end, retralar ilə).
  • itki: '≤ 0. 01% 'mesajlar (idempotentlik/deduplikasiya daxildir).

9) Multi-region və multi-tenant

SLO «kohortlar üzrə»: ölkə, ödəniş provayderi, VIP seqmenti, cihaz.
Kənarda lokal SLO: istifadəçiyə ən yaxın nöqtələrdən metriklər (edge/PoP).
Aqreqasiya: ümumi SLO vacib kohortlarda uğursuzluqları gizlətməməlidir.
Provayderlərin dəyişdirilməsi: SLO gates səviyyəsində avtomatik fallback marşrutları.

10) Daşbordlar və hesabatlar

Reliz dashboard: versiyası, kanarya (% trafik), SLI (uğur/gecikmə), BR, bayraq izahları.
Əməliyyat dashboard: burn-down büdcə gün, top hadisələr, MTTR, problemli kohorts.
Həftəlik hesabatlar: büdcə qalığı, BR trendləri, texniki borc (dar yerlər), təkmilləşdirmə planı.

11) Proseslər: hadisələr, RCA və təkmilləşdirmə

Hadisə-menecment: alert → BR qiymətləndirilməsi → kanarya/bayraq miqyası → geri/fix.
RCA (kök səbəb): faktlar/zaman/hipotezlər/düzəlişlər/SLI təsiri yoxlama.
Öyrənilmiş dərslər: qeyri-cüzi post-mortemlər, sahibləri və şərtləri ilə məcburi action items.
Döngənin qapanması: testlərdə, fiqa bayraqlarında, limitlərdə, keşlərdə, retralarda, kvotalarda dəyişikliklər.

12) Komplayens və audit

SLO/SLI nəzarət artefaktları kimi (policy-as-code, dəyişməz log).
Tələblərə bağlama (məsələn, ödəniş əməliyyatlarının mövcudluğu).
Sübut: alert protokolları, büdcə hesabatları, buraxılış/geri dönüş jurnalları.

13) Tez-tez səhvlər və onlardan necə qaçmaq olar

“99. 99% və ya ölüm": əlçatmaz məqsədlər → daimi alert-səs. real SLO seçin.
Qlobal orta yerli uğursuzluqları gizlədir → kogorts daxil.
e2e olmayan metriklər: müştəridə faktiki deqradasiya ilə yüksək SLO → RUM/sintetika əlavə edin.
Bir eşik üçün alertlər → iki pəncərəli burn rate.
Dəyişikliklər ilə heç bir əlaqə yoxdur → buraxılışlar açıqlanmır, avtomatik geri dönüş yoxdur.

14) Mini-çek tətbiq siyahısı

  • Kritik yolları və onların SLI/SLO təsvir.
  • Müşahidə və istisna pəncərəsi təyin edilmişdir.
  • İki pəncərəli BR-alertlər (sürətli və yavaş).
  • Versiyaların/bayraqların açıqlamaları ilə relizlər və əməliyyatlar daşbordları.
  • Error budget siyasəti buraxılışlara təsir edir.
  • Müntəzəm büdcə icmalları və post-insident RCA.
  • Sənədləşmə və göstəricilərin sahibləri.

15) Hesablama nümunəsi (konkretlik)

SLO API mövcudluğu: 99. 28 gün üçün 9% → büdcə = 0. 1%.
7 gün ərzində 0 yığılıb. Səhvlərin 06% -i → həftəlik büdcənin 60% -i xərclənib.
15 dəqiqəlik qısa pəncərədə səhvlərin 2% -i müşahidə olunur. Bu pəncərədə icazə verilir: '0. 1% × (15 dəq/40320 dəq) ≈ 0. 000037%`.
Burn Rate ≫ 1 (onlarla ×) → sürətli peycer işləyir, kanarya 1% -ə qədər yuvarlanır, «degrade-payments-UX» fiqa bayrağı işə salınır, RCA işə salınır.

16) Yekun

SLA/SLO monitorinqi yalnız hesabatdakı rəqəmlər deyil, dəyişiklik riskinin və xidmət keyfiyyətinin idarə edilməsi mexanizmidir. Düzgün SLI, real SLO, error budget, iki pəncərəli burn-rate riskləri və e2e-müşahidə metrikləri iş həllərinə çevirir: daha sürətli dəyər buraxın və istifadəçi təcrübəsini proqnozlaşdırıla bilən saxlayın.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.