SLA, SLO ва эътимоднокии KPI
1) Истилоҳот ва фарқиятҳо
SLI (Нишондиҳандаи сатҳи хизматрасонӣ) - нишондиҳандаи андозагиришавандаи сифат (масалан, таносуби дархостҳои муваффақ, таъхири p95).
SLO (Ҳадафи сатҳи хизматрасонӣ) - арзиши мақсадноки SLI дар равзанаи вақт (масалан, "муваффақият ≥ 99. 9% дар 28 рӯз").
Буҷаи хатогӣ - Меъёри иҷозатдодашудаи SLO '1 − SLO' мебошад.
SLA (Созишномаи сатҳи хизматрасонӣ) - ӯҳдадориҳои шартномавӣ бо ҷарима/қарзҳо (беруна).
Эътимоднокии KPI - ченакҳои равандҳои амалиётӣ (MTTD/MTTA/MTTR/MTBF,% сабуккунии автоматӣ, фарогирии ҳушдор ва ғайра).
2) Чӣ гуна SLI-ро интихоб кардан мумкин аст (дар асоси сигналҳои тиллоӣ)
1. Таъхир - p95/p99 барои нуқтаҳои ниҳоӣ.
2. Ҳаракати нақлиёт - ҷараёни RPS/RPM/паём.
3. Хатогиҳо - ҳиссаи хатогиҳои 5xx/бизнес (масалан, истисно кардани пардохт "бо сабаби хатогии PSP).
4. Қаноатмандӣ - пур кардани захираҳо (CPU/RAM/IO/lag).
- Бо таҷрибаи даркшудаи корбар робита дорад.
- Аз ҷиҳати техникӣ дастрас ва дар андозагирӣ устувор аст.
- Мо назорат мекунем (амалҳо барои такмил имконпазиранд).
- Арзиши пасти ҷамъоварӣ.
3) Формулаҳо ва намунаҳо
3. 1 Дастрасӣ
Availability = Успешные запросы / Все запросы
Error Budget (за период) = 1 − SLO
Мисол: SLO 99. 9% дар 30 рӯз → буҷети хато = 0. 1%, ки ба 43 дақиқа 12 сония дастнорас аст.
3. 2 Таъхир
SLO аз рӯи таъхир ҳамчун таносуби дархостҳое, ки ба ҳадди ниҳоӣ мувофиқанд, таҳия карда мешавад:
Latency SLI = доля запросов с duration ≤ T
SLO пример: 99% запросов ≤ 300 мс (rolling 28d)
3. 3 Пардохт (Сатҳи тиҷорат)
Payment Success SLI = (успешные проводки — внешние отказы PSP) / все попытки
4) Буҷаи номувофиқ ва меъёри сӯзондан
Хатои буҷет - "зарфи сӯзишворӣ" -и шумо барои навоварӣ (релизҳо, таҷрибаҳо).
Меъёри сӯхтан - суръати истеъмоли буҷа:- канали тез (муайянкунӣ дар ~ 1 соат),
- канали суст (тамоюл аз болои ~ 6-12 соат/24 соат).
- Агар сӯзондан-меъёри> 14. 4 дар 1 соат - SEV-1 (мо буҷаи ҳаррӯзаро дар ~ 100 дақиқа мехӯрем).
- Агар суръати сӯзондан> 6 дар 6 соат - SEV-2 (таназзули босуръат).
5) Огоҳӣ аз ҷониби SLO (бисёр тиреза, бисёр сӯхтан)
Нишондиҳандаи хатогӣ: таносуби 5xx ё вайронкунии таъхир.
Мисолҳои Prom-QL (умумӣ):promql
Доля ошибок за 5 минут sum(rate(http_requests_total{status=~"5.."}[5m]))
/
sum(rate(http_requests_total[5m]))
Быстрый burn (1m окно)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14.4
Медленный burn (30m окно)
(
sum(rate(http_requests_total{status=~"5.."}[30m])) /
sum(rate(http_requests_total[30m]))
) / (1 - SLO) > 2
Барои SLO аз рӯи таъхир, гистограммаҳои фоизиро истифода баред:
promql p95 latency histogram_quantile(0.95, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
6) Намунаҳои SLI/SLO аз ҷониби Domain
6. 1 API дарвозаи/Edge
SLI-Хатогиҳо: Сатҳи посухи 5xx <0. 1% (28д).
SLI-Latency: p95 ≤ 250 мс (рӯз).
SLO: Мавҷудияти ≥ 99. 95% (семоҳа).
6. 2 Пардохтҳо
SLI-Муваффақият: пардохт барои бомуваффақият (ба истиснои камбудиҳои муштарӣ) ≥ 99. 8% (28д).
SLI-Latency: иҷозат ≤ 2 сония барои 99% (рӯз).
SLO: Вақт ба ҳамён p95 ≤ 3 мил (24 соат).
6. 3 Пойгоҳи додаҳо (PostgrE SQL)
SLI-Lag: ақибмонии такрорӣ p95 ≤ 1 сония (рӯз).
Хатогиҳои SLI: Сатҳи хатогии дархост ≤ 0. 05% (28д).
Мавҷудияти кластери SLO ≥ 99. 95%.
6. 4 навбат/ҷараён (Кафка)
SLI-Lag: ақибмонии истеъмолкунанда p95 ≤ N паёмҳо (соат).
SLI-Давомнокӣ - Тасдиқи ≥ 99 вуруд. 99% (28d).
SLO: мавҷудияти брокерҳо ≥ 99. 9%.
7) Раванди эътимоднокӣ KPI
MTTD (Вақти миёна барои муайян кардан)
МТТА (... Эътироф кардан)
MTTR (... Барқарор кардан)
MTBF (...) Байни хатогиҳо)
% ҳодисаҳо бо сабуккунии автоматӣ
SLO/фарогирии ҳушёрии роҳҳои болоии ҳаракат (ҳадаф ≥ 95%)
Ҳиссаи релизҳо бо марҳилаи канарӣ
Истеъмоли буҷети хато аз ҷониби гурӯҳҳо/хусусиятҳо
8) Чӣ гуна SLO-ро воқеӣ бояд гузошт
1. Эътимоднокии ҷории заминаро чен кунед (3-4 ҳафта).
2. Роҳҳои "ҳассос" - ро муайян кунед (воридшавӣ, амонат, бозӣ).
3. Арзиши ҳар як дуршавӣ (вақт, пул, обрӯ) -ро баррасӣ кунед.
4. Ҳадафи шӯҳратпараст, вале муваффақро интихоб кунед (такмили 10-30% дар заминаи аввал).
5. Ҳар семоҳа баррасӣ кунед.
- Дарҳол "панҷ найн" бидуни асос.
- SLO аз рӯи ченакҳо барои корбар намоён нест (масалан, CPU бидуни иртибот бо UX).
- Аз ҳад зиёд SLO → дорупошии фокусӣ.
9) SLO ва ҳисоботи буҷа
Ҳисоботи стандартӣ (ҳар ҳафта/моҳ):- Анҷоми як SLO: против ҳадаф, тамоюлҳо, эътимод.
- Хулосаи истеъмоли хатогӣ: чӣ қадар буҷа нисбат ба кӣ (озод/ҳодиса) "сӯзонда мешавад".
- Панҷ сабаби асосии таназзул, нақшаи CAPA ва вазъи вазифа.
- Таъсири тиҷорат: табдили, ND, нигоҳдорӣ, LTV.
10) Иртибот бо сиёсати озодкунӣ
Буҷаи хато <50% → Варақаҳои ройгон.
50-80% → "ҳолати эҳтиётӣ": танҳо ҳисобҳои камдаромад/канарӣ.
11) SLA (шартнома) - қолабҳои ашё
Ӯҳдадории мавҷудият: масалан, 99. 9 %/моҳ.
Force Majeure: DD OS бидуни назорати оқилона, провайдерҳои тарафи сеюм.
Равзанаи андозагирӣ ва майдони масъулият: манбаъҳои ченакҳо, усули ҳисоб.
Қарзҳо/ҷаримаҳо: ҷадвали сатҳҳо (масалан, мавҷуд набудани 60-120 дақиқа → кредит X%).
Тартиби афзоиш ва огоҳӣ: мӯҳлатҳо, каналҳо.
Маълумот ва махфият: ниқоб, нигоҳдорӣ, нигоҳдории ҳуқуқӣ.
Нақшаи пешгирии такрорӣ (CAPA) дар ҳолати вайронкунӣ.
12) Воситаҳои андозагирӣ
Нишондиҳандаҳои ғайрифаъол: Прометей/Мимир/Танос, содиркунандагон.
Гузоришҳо: Loki/ELK барои ҳисоб кардани муваффақиятҳо/хатогиҳо дар сатҳи тиҷорат.
Синтетика: намунаҳои фаъол (логин/амонат/бозӣ) аз рӯи крон.
Пайгирӣ: Tempo/Jaeger барои p99 мушкилот.
Пардохт/Молия: манбаъҳои ҳақиқии пардохт барои SLI.
13) Намунаҳои дархост (қолабҳо)
Фоизи дархостҳои бомуваффақияти API (ба истиснои 4xx ҳамчун муштарӣ):promql
1 - (
sum(rate(http_requests_total{status=~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
)
Корти SLO:
yaml slo:
name: "API Availability"
window: "28d"
target: 0.999 sli: "1 - 5xx%"
owner: "Platform SRE"
alerting:
fast_burn: {window: "1h", factor: 14.4}
slow_burn: {window: "6h", factor: 6}
Муваффақияти пардохт (барои чорабиниҳои корӣ дар гузоришҳо/ҷараён):
success_rate = (count_over_time({app="payments"} = "status=success"[5m]))
/ (count_over_time({app="payments"} ~ "status=(success fail)"[5m]))
калид> Филтрҳои тозакунӣ барои истисно кардани "коҳиш аз ҷониби муштариён".
14) Финҳо ва эътимоднокӣ
Арзиши як 9: Арзиши илова кардани нӯҳ ба таври экспоненталӣ меафзояд.
Хати каҷи фоида: оптималӣ, ки дар он афзоиши даромад/кам шудани талафот ≥ арзиши иловагии "9".
Портфели SLO: сатҳҳои гуногун барои роҳҳои гуногун (пардохтҳои интиқодӣ "гаронтар" мебошанд, ҳисобот "арзонтар" аст).
15) Сифати SLO/Ҳушдор - Рӯйхати назоратӣ
- SLI бо UX ва ченакҳои тиҷорат робита дорад.
- Тиреза ва агрегатсия мувофиқанд (даврашакл 28d/семоҳа).
- Огоҳиҳои бисёрсоҳавӣ, парпеч кардан, масир дар асоси нақш.
- Ҳуҷҷатгузорӣ: соҳиб, формула, манбаъҳо, дафтарчаи корӣ.
- Панели намоишии SLO бо буҷаи нодуруст ва нишондиҳандаҳои сӯзондан.
- Мунтазам баррасии ҳадафҳо (семоҳа).
- Санҷишҳои синтетикӣ аз рӯи сенарияҳои асосӣ.
16) Нақшаи амалисозӣ (4 такрорӣ)
1. Ҳафтаи 1: инвентаризатсияи роҳҳои корбар, лоиҳаҳои SLI, панелҳои асосӣ.
2. Ҳафтаи 2: расмикунонии SLO, буҷет, огоҳиҳо (сӯхтани зуд/суст).
3. Ҳафтаи 3: ҳамгироӣ бо раванди ҳодиса/озодкунӣ, қоидаҳои яхкунӣ.
4. Ҳафтаи 4 +: SLA-ҳои шартномавӣ, Шарҳи семоҳа, "арзиши як 9" Модели Finops
17) Мини-FAQ
Оё ба ман лозим аст, ки барои як хидмат як SLO дошта бошам?
Беҳтараш 2-3 калид (муваффақият + таъхир) ба ҷои даҳҳо дуюмдараҷа.
Чӣ мешавад, агар буҷа тамом шавад?
Варақаҳои яхкунӣ, тамаркуз ба эътидол ва CAPA, аз байн бурдани хусусиятҳои таҷрибавӣ.
Чӣ гуна бояд аз ихтилофи байни суръати раҳоӣ ва эътимоднокӣ канорагирӣ кард?
Нашри нақшаҳо "аз рӯи буҷа", иҷрои ҳисобҳои канарӣ ва парчамҳои хусусият.
Натиҷа
Эътимоднокӣ аз ҷониби маҷмӯи ченакҳои нобаробар назорат карда намешавад, аммо аз ҷониби система: SLI → SLO → хатои буҷа → ҳушдордиҳӣ ва раванди ҳодиса → CAPA → SLA. Стандартикунонии таърифҳо, манбаъҳои маълумот ва гузоришдиҳӣ, ҳадафҳои истинод ба таҷрибаи корбар ва иқтисодиёт ва мунтазам аз нав дида баромадани нинҳо дар асоси ROI воқеӣ.