Инфрасохтори KPI ва вақти корӣ
Чаро ба шумо лозим аст?
Инфраструктураи KPI "эҳсосот" -ро дар бораи субот ба ҳадафҳои ченшаванда, идоракунии хатар ва тамаркузи кор табдил медиҳад. Нишондиҳандаҳои дуруст SLI-ҳои техникиро бо натиҷаҳои тиҷорат пайваст мекунанд (табдили вақт ба ҳамён, LTV) ва ба шумо имкон медиҳад, ки рушд, сарборӣ ва ҳиссаи инноватсияро бо эътимоднокӣ ба нақша гиред.
Мафҳумҳои асосӣ: SLI, SLO, SLA ва буҷети хатогӣ
SLI (Нишондиҳандаи сатҳи хизматрасонӣ) - нишондиҳандаи андозагирии сифат: таносуби дархостҳои муваффақ, p95 таъхир, вақти корӣ дар як фосила.
SLO (Ҳадафи сатҳи хизматрасонӣ) - Ҳадафи SLI (масалан, "муваффақият ≥ 99. 9% дар 30 рӯз").
SLA (Созишнома) - ваъдаи беруна бо ҷаримаҳо/қарзҳо. Ҳамеша аз SLO гирифта шудааст, аммо ба он баробар нест.
Буҷаи хато = '1 − SLO'. Ин ҳадди ниҳоии нокомии иҷозат барои як равзанаи андозагирӣ мебошад. Барои қабули қарорҳо дар бораи релизҳо ва таҷрибаҳои хатарнок истифода мешавад.
- Мавҷудияти SLO 99. 95% дар 30 рӯз → буҷети хато 0. 05% ≈ 21. 6 дақиқаи "нокомӣ" дар моҳи тақвимӣ.
Чор сигнали тиллоӣ ва иловагӣ
1. Таъхир (p50/p90/p95/p99, дум аз миёна муҳимтар аст).
2. Хатогиҳо (хатогиҳои 5xx/timeout/business).
3. Ҳаракати нақлиёт/интиқол (RPS/QPS, MB ps).
4. Қаноатмандӣ (CPU/RAM/IO/FD/пайвастшавӣ/GC/квота).
Иловагӣ: оғози хунук, навбатҳо/ақибмонӣ, вақти истифода, риояи SLO.
Модели SLI барои намудҳои гуногуни хидматҳо
HTTP/API
Мавҷудият: '(бомуваффақият 2xx/3xx − хатогиҳои мантиқӣ )/( ҳама дархостҳо)'
Таъхир: 'p95' барои дархостҳои муваффақ; ҳадаф дар хатсайрҳои гарм.
Сифат: таносуби дархостҳо бо 'аудитория/миқёс' дуруст аст (бе хатогиҳои authz).
Навбатҳо/асинхронӣ
Вақти коркарди паём: p95 ба охир ≤ N сония
Қафо: медиан <X, думи p99 <Y.
Хатои расонидан: ≤ Z ppm.
DB/кэш
Таъхири амалиёт: p95 гирифтан/гузоштан/содир кардан.
Қаноатмандӣ: истифодаи ҳавзи пайвастшавӣ, таносуби ҳофизаи кэш.
Хатогиҳо: танаффус, тундбодҳо, тӯфонҳои кӯчдиҳӣ.
CDN/Статикӣ
Таносуби хит: сатҳи мақсаднок ≥; деградатсия → афзоиши сарборӣ аз пайдоиш.
Мавҷудияти POP: Ба ҳар ҳол, камбудиҳо аз ҷониби ҳамсояҳо ҷуброн карда мешаванд.
Пардохтҳо (Бизнес SLI)
Вақт ба ҳамён p95, муваффақияти пасандоз/баромад%, сатҳи нокомии PSP.
Ҳисобкунии мавҷудият ва вақти корӣ
Мавҷудияти хидмат = 'дархостҳои бомуваффақият/ҳама дархостҳо' (беҳтараш 'дақиқаҳои корӣ' нестанд).
Алтернатива барои гиреҳҳои инфрасохторӣ 'вақти сабз/вақти тиреза' мебошад.
Равзанаи тақвимӣ: 28-31 рӯз, тирезаи лағжанда: 30/90 рӯзи охир.
Соатҳои корӣ/тирезаҳои танқидӣ: барои бозгашт аз рӯи ҷадвал вақти корӣ ҳисобида мешавад (масалан, соати 08: 00-22: 00 ба вақти маҳаллӣ).
- 'Дастрасӣ (A) ≈ Av (B) × Av (C) × Av (A' B, C) '- гузоштани SLO-ҳоро дар марзҳо муҳим аст.
Маҷмӯи намунавии SLO (намуна)
Дарвозаи API: ≥ 99 дастрас аст. 95 %/30д; p95 таъхири ≤ 120 мс; хато ≤ 0. 2%.
Санҷиш/Пардохтҳо: муваффақияти пасандоз ≥ 98. 5 %/30д; Вақт ба ҳамён p95 ≤ 90 с; PSP-вақт ≤ 0. 3%.
Махзани маълумот: p95 хонед ≤ 10 мс; p95 нависед ≤ 25ms; реплика p95 ≤ 150 мс.
Кэш: таносуби хит ≥ 85%; тӯфони кӯчдиҳӣ = 0/30 д.
Пардохтҳо: коркарди p95 ≤ 5 дақ; қаллобӣ-афтидан-мусбат ≤ 0. 3%.
Буҷаи хатогӣ ва идоракунии тағирот
Агар буҷаи хатогӣ 50% + пеш аз мобайни тиреза тамом шавад, "яхкунӣ" -и хусусиятҳо/релизҳо ҷорӣ карда мешавад, диққати асосӣ ба эътидол оварда мешавад.
Агар буҷа оҳиста сарф карда шавад, шумо метавонед озмоишҳо/канарейкаҳоро суръат бахшед.
Истеъмоли буҷаро бо релизҳо/ҳодисаҳои мушаххас тавассути 'release _ id' пайваст кунед.
Ҳушдор: чӣ гуна "шабона занг назан" беҳуда
Огоҳӣ танҳо дар бораи таназзули SLO ва аломатҳои ҳаётан муҳим, на барои ҳар як метр.
Равзанаи бисёрсоҳавӣ, суръати бисёр сӯхтан: тирезаи кӯтоҳ (5-15 дақиқа) + тирезаи дароз (1-6 соат).
Мисол: "Сатҳи сӯхтан 14 × дар 5 дақиқа ва 6 × дар 1 соат" → саҳифаи занг.
Соатҳои ором барои сигналҳои non-P1; масири моликият.
Панели панелҳо ва амалияи визуалӣ
Панели SLO: мутобиқати хизматрасонӣ, буҷаи боқимонда, харитаҳои вобастагӣ.
Панели пинҳонӣ: p50/p90/p95/p99, таҷзия аз рӯи хатсайрҳо/иҷорагирон/кишварҳо/ASN.
Панели хатогӣ: рамзҳо/сабабҳо, таносуб бо релизҳо/парчамҳои хусусият.
Панели иқтидор: CPU/RAM/IO/шабака/FD/пайвастҳо, тамоюлҳо ва пешгӯиҳо.
Гурӯҳи корӣ: Табдилот, вақт ба ҳамён, пасандозҳо/бозпас гирифтан, таъсири муҳофизат (WAF/Anti-bots).
Ҳодисаҳо, MTTR ва пас аз қатл
Реаксияи KPI:- MTTD (муайянкунӣ), MTTA (қабул), MTTR/MTTC (барқарорсозӣ/нигоҳдорӣ),% ҳодисаҳо бидуни RCA сари вақт.
- Китобҳои бозӣ: кӣ афзоиш меёбад, чӣ гуна парчамҳо/блокҳои хусусиро фурӯзон кардан, чӣ гуна баргардонидани озодкунӣ, иртибот бо тиҷорат.
- Постмортем (беайб): далелҳо, хатти вақт, сабабҳои решавӣ (он/равандҳо), амалҳо: санҷишҳои фаврӣ/дарозмуддат, регрессия, таъсир ба SLO.
Иҷро, пуррагӣ ва таназзул
Хона: сарлавҳаи захираҳои мақсаднок (масалан, CPU <70% p95, RAM <75% p95).
Роҳҳои гарм: профилҳои хатсайрҳои интиқодӣ; 'p99' аз миёна муҳимтар аст.
Усулҳои таназзул: танҳо кэш, танҳо хондан, дастос кардани дархостҳои муҳим, "меъёри нарх "/квота.
Формулаҳо ва намунаҳои ҳисобҳо
1) Мавҷудияти талабот
availability = (total_requests - error_requests) / total_requests
дар куҷо 'error _ дархостҳо' = 5xx + танаффус + хатогиҳои корӣ (танзимшаванда).
2) Буҷаи хатогӣ (дақиқаҳо)
error_budget_minutes = window_minutes (1 - SLO)
Мисол: 30 рӯз (43,200 дақиқа), SLO 99. 95% → 21. 6 дақ.
3) Сатҳи сӯзондан
burn_rate = observed_error_ratio / (1 - SLO)
Агар SLO 99. 9% (буҷа 0. 1%) ва хатои 1% → burn_rate = 10 ×.
4) Мавҷудияти мураккаб
A_total ≈ A_gw × A_auth × A_db × A_psp
Фурӯпошии хурд ба миқдори умумии A. зарба мезананд.
Сиёсати андозагирӣ ва истисно
Тирезаҳои (ҳодисаҳои) ғайринақшавӣ - ба инобат гирифта мешаванд.
Тирезаҳои банақшагирифташуда - танҳо ба назар гирифта мешаванд, агар SLA ин қадар муқаррар карда шуда бошад; барои SLO-ҳо аксар вақт кам карда намешаванд (ё алоҳида ҳамчун "банақшагирифташуда" қайд карда мешаванд).
Синтетика ва корбарони воқеӣ: доштани ҳарду канал (RUM + чекҳои синтетикӣ) муфид аст.
Намунаҳои артефактҳо
KQL/Prom 'QL (ғояҳо)
Хатои SLI (5xx + танаффус) дар 5 дақиқа:promql sum(rate(http_requests_total{status=~"5.. timeout"}[5m]))
/
sum(rate(http_requests_total[5m]))
p95 latency po масир:
promql histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
Сатҳи сӯхтан 5m/1h:
promql
(
sum(rate(errors_total[5m])) / sum(rate(requests_total[5m]))
) / (1 - 0. 999)
SQL (SLI Business Business)
sql
SELECT date_trunc('minute', finished_at) AS ts,
100. 0 sum((status='SUCCESS')::int)::float / count() AS payment_success_pct,
percentile_cont(0. 95) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (finished_at - started_at))) AS ttw_p95_sec
FROM payments
WHERE finished_at > now() - interval '30 days'
GROUP BY 1 ORDER BY 1;
Идоракунии вобастагӣ ва каскадҳо
Шартномаҳои SLO байни дастаҳо: gateway↔auth↔wallet↔PSP.
Сиёсати таназзул: вақте ки вобастагӣ паст мешавад, хидмат ба "режими соддакардашуда" мегузарад.
Парчамҳои хусусият: хомӯш кардани функсияҳои ғайримуқаррарӣ, "рехтани хокистарӣ" барои кам кардани думҳои ниҳонӣ.
Банақшагирии иқтидор ва пешгӯиҳо
Сомес. Пешгӯии RPS/MB аз рӯи тамоюлҳо ва чорабиниҳо (мусобиқаҳо, гугирдҳо, таблиғот).
Озмоиши сарборӣ бо "роҳҳои тиллоӣ", санҷишҳои алоҳида барои PSP/пардохтҳо.
Захира дар авҷи: омили мақсаднок 1. 3 × -2. 0 × сарбории пешбинишуда.
Рӯйхати назоратии SLO/KPI
1. Роҳҳои муҳими корбарро муайян кунед ва SLI-ро "аз нуқтаи назари муштарӣ" гуфтушунид кунед.
2. Ҳадафҳои SLO ва тирезаро интихоб кунед (30/90 рӯз); буҷаи хатогиро ҳисоб кунед.
3. Сохтани коллексияи метрикӣ ба дарвозаҳо/хидматҳо, муқаррар кардани рамзҳо/сабабҳо.
4. Танзимоти огоҳиҳои сабткунӣ (тирезаи кӯтоҳ + дароз), масир ва занг задан.
5. Мутобиқати SLO-ро визуалӣ кунед, бо релизҳо/парчамҳои хусусӣ ҳамроҳ шавед.
6. Эҷоди буҷа бар зидди сиёсати тағирот ва раванди яхкунӣ.
7. Ретроспективаҳо ва RCA оид ба ҳар як санҷиши барзиёд, регрессия.
8. Ҳар семоҳа SLO-ро барои истифодаи воқеии буҷа ва ҳадафҳои тиҷорат баррасӣ кунед.
Хатогиҳои умумӣ
Андозагирии "вақти корӣ бо пинг", сарфи назар кардани хатогиҳои барнома.
SLO-ҳо "дар захира" гузошта шудаанд (99). 999%), аммо дастнорас ва ҳеҷ чизро ҳал намекунад.
Огоҳиҳо дар бораи ченакҳои сатҳи паст ба ҷои нишонаҳои корбар.
Харитаи вобастагӣ вуҷуд надорад → маълум нест, ки он дар куҷо сӯхта истодааст.
Байни SLO ва релизҳо ҳеҷ иртиботе вуҷуд надорад → маълум нест, ки буҷаро кӣ "хӯрдааст".
Ба думҳошон p99 dail миёнаи хуб, вале бад UX VIP корбарон нодида гиред.
IGaming/fintech мушаххас
Қуллаҳои ба нақша гирифташуда: гугирдҳо/чорабиниҳо/аксияҳо - қобилияти пешакӣ афзоиш додан, кэш гарм кардан/CDN, профилҳои лимити махсусро дар бар мегиранд.
Бизнес SLI: Вақт ба ҳамён, муваффақияти пасандоз/бозхонд, "суръати пардохт" p95; дар решаи панели.
PSP/шарикон: SLO/панелҳои инфиродӣ аз ҷониби провайдер, гузариши автоматии масир.
Антибот/зидди қаллобӣ: барои хатогиҳо буҷа набояд вуҷуд дошта бошад - "блокҳои қонунӣ" -ро аз "хатогиҳои техникӣ" ҷудо кунед.
Танзим: нигоҳдории журнал, таҷдиди ҳисобҳои SLO/SLA, гузоришҳо дар бораи ҳодисаҳо.
FAQ
Оё ба ман лозим аст, ки кори банақшагирифташударо аз SLO хориҷ кунам?
Одатан не: SLO таҷрибаи корбарро инъикос мекунад. Шумо метавонед истисноҳоро барои SLA-ҳо муайян кунед.
Чаро p95, на миёна?
Миёна думҳоро ниқоб мекунад; UX думҳоро муайян мекунад (p95/p99).
Оё ман метавонам як SLO барои тамоми маҳсулот дошта бошам?
Ба шумо дарахти SLO лозим аст: якҷоя кардани маҳсулот ва кӯдакон бо роҳҳои/ҷузъҳои интиқодӣ.
Ҷамъ
Системаи пурқуввати инфрасохтори KPI ин SLI-ҳои фармоишӣ, SLO-ҳои воқеӣ, буҷаи хатогӣ ҳамчун фишанги назорати тағирот, интизоми оқилона ва интизоми ҳодисаҳо ва RCA мебошад. Нишондиҳандаҳои техникиро бо ченакҳои корӣ пайваст кунед, ҷамъоварӣ ва визуализатсияро автоматӣ кунед - ва инфрасохтор пешгӯишаванда хоҳад шуд ва вақти корӣ ҳатто дар сенарияҳои баландтарин назорат карда мешавад.