SLA և SLO
1) Տերմիններ և դերեր
SLA (Black Level Agream) - արտաքին պայմանագրային պարտավորություն հաճախորդի առջև (տուգանային վճարներ, վարկեր)։
SLO (Window Level Objective) - ռուսական ներքին մակարդակը, որը աջակցում է SLA-ի կատարումը։
SLI (WindLevel Indication) չափված ցուցիչ է, որի հիմքում գնահատվում են SLO/SLA։
Error Budget-ը «անհասանելիության/սխալների» թույլատրելի մասն է '«Budget = 1 to SLO»։
Scope: չափվում է օգտագործողի աչքերով (end-to-end)։ Միկրովայրկյաններում, ինչպես նաև բաղադրիչի մակարդակում, և միջով։
2) SLI-ի ընտրությունը 'ինչ չափել
Չափանիշը հարաբերությունն է օգտագործողի փորձի և բիզնեսի արժեքի հետ։
Տիպիկ SLI։
Հասանելիություն 'հաջողակ հարցումների մասնաբաժինը' «SLI = հաջողակ/բոլորը»։
Լատենտ 'հարցումների մասը ավելի արագ է քան T.' SLI = P (latency no T) "։
Որակը 'ճիշտ պատասխանների մասնաբաժինը (առանց 5x/ֆունկցիոնալ)։ սխալներ)։
Տվյալների արդիականությունը 'վերարտադրման/ETL 35X րոպե։
Բիզնես գործընթացի արդյունավետությունը 'հաջողակ վճարումների/գրանցման մասը։
Anti-pattern: միայն 200-կի համարեք որպես «հաջողություն», անտեսելով բիզնեսի սխալները։ չափել թեստային ցանցում 'կոդավորման փոխարեն։
3) Բանաձևերն ու դիտման պատուհանները
Պատուհանի հասանելիությունը
`Availability = (OK_requests / All_requests) × 100%`.
SLO լատենտ
«P95 T- ն ավելի լավ է ձևակերպել որպես» SLI = T- ի հարցումների% -ը։
Օրինակ ՝ «որոնման հարցումների 99 տոկոսը 28 օրվա ընթացքում 300 մզ է»։
Սայթաքող պատուհանը 28 կամ 30 օր է (զգայունության և կայունության հավասարակշռություն)։ Մրցույթի համար 'պատուհանի դոպը' 1 ժամ, 6 ժամ, 24 ռուբլիներ
4) Error Budget-ը և փոփոխության արագությունը կառավարելը
Հաշվարկը '"SLO = 99։ 9% «բյուջե =» 0։ 1% սխալ/անհասանելի ժամանակահատվածի համար։
Քաղաքականությունը
Բյուջե> 50 տոկոսը 'օրինագծեր և փորձեր պլանով։
Բյուջեն 10-50 տոկոսն է 'միայն ցածր կոորդինատները, կանանցների խստացումը։
Բյուջեն <10 տոկոսը 'ածխաջրածինների սառեցումը, հիմար պատճառը, հուսալիության բարելավումը։
Առաջադիմական թողարկումների հետ կապը 'canary/feature-flags «ուտում են» բյուջեն չափավոր, երբ այն քայքայվում է։
5) Ալերթ քաղաքականությունը 'շեմերից մինչև burn rate
Ինչու՞ ոչ "SLO-ն 'alert-ը, շատ ուշ։ Անհրաժեշտ է ակտիվություն։
Burn Rate (RF) - բյուջեի այրման արագությունը
«III = (դիտարկված սխալ կարճ պատուհանի/թույլատրելի սխալ այս պատուհանի համար)»։
Եթե 'MS> 1 "- բյուջեն ավելի արագ է, քան նորմը։
Երկու պատուհանի ալերտները (SDE best practice)
Արագ ալերտը (աղմուկը զգայուն է, աղետներ է բռնում) 'պատուհանը 5-10 րոպե, RF 14-20 ռուբլիներ։
Դանդաղ ալերտը (բռնում է սողացող դեգրադացիաները) 'պատուհանը 1-6 ժամ, III-4-ի շեմն է։
Համատեղելու պայմանները 'արագ կամ դանդաղ' լանդշաֆտը on-call։
Մակարդակները 'SLO-ի օգտագործողների համար լանդշաֆտը, թիկետները/ծանուցումները ներքին SLI-ի մոխրագույն քայքայման համար։
6) Դիտողությունն ու ճշմարտության աղբյուրները
Լոգը պատճառների ախտորոշումն է։
Մետրիկները 'թվային SLI (հաջողություն/սխալ, գնահատում էին լատենտները, բաժնետոմսերը, հաշվիչները)։
Թրեյսները ճանապարհների միջով են, «տաք» հատվածների տեղայնացումը։
Սինթետիկան ակտիվ փորձարկումներ է ծայրամասից (region-a)։
Իրական իրադարձությունները 'RUM/հաճախորդների հեռուստաչափություն, բիզնես մետրեր (հակադարձում, հաջողակ վճարումներ)։
Պահանջները ՝ մեկ նկար ածխաջրածինների և մետաղների տաշբորդներում, «տարբերակը/կանարեյկա/դրոշը»։
7) SLO նախագծումը 'շրջադարձային ձևանմուշ
1. Նկարագրեք քննադատական ճանապարհը (օրինակ ՝ «պահեստավորում է քարտեզը»)։
2. NO SLI 'հաջողություն/սխալ, լատենտության շեմն, ամբողջական։
3. Համաձայնեք SLO 'նպատակը 28 օրվա ընթացքում + բացառություններ (պլանավորված պատուհաններ)։
4. Միացրեք SLA-ի հետ, իրավաբանական պարտավորությունը կատարվում է իրական SLO-ի կողմից։
5. Նշանակեք սեփականատեր (ww.owner), RACI-ը և ալտերերի ալիքը։
6. Mastalert-քաղաքականության (երկու պատուհանի RF) և Auto-rakates-ը։
7. Ներդրեք հաշվետվություններ 'բյուջեի շաբաթական ակնարկներ, հետադարձ կապ։
8. Վերանայեք SLO-ն եռամսյակային (բեռի/ճարտարապետության փոփոխություն)։
8) SLO (ձևանմուշներ) օրինակներ
API վճարումներ
Հասանելիություն ՝ «07 99»։ 95% (28d, բացառելով հայտարարված պատուհանները 30 րոպե/վրկ)։
Լատենտ ՝ "07 99 տոկոսը" պատասխաններ '4900 մզ "։
Բիզնեսի վիրահատության հաջողությունը '"07 98։ Հինգ% -ը հաջողակ հեղինակային իրավունքի (fraud-ֆիլտրեր հաշվի են առնվում)։
Խաղերի/բովանդակության որոնումը
Լատենտ ՝ "07 99 տոկոսը" հարցումներ '300 մզ "։
Քեշի արդիականությունը '«355 րոպե»' դեպքերի 99 տոկոսով հրաժարվելը։
Սթրիմինգ իրադարձությունները (KYC/AML)
Առաքում ՝ «07 99»։ 9% -ը '-60 s' (end-to-end, ելույթներով)։
Կորուստը '«07 0»։ 01% հաղորդագրությունները (idempotention/dedeplication ներառված են)։
9) Multi-տարածաշրջանը և multi-tenant
SLO «կոորդինատներ» ՝ երկիր, հիբրիդային պրովայդեր, VIP սեգմենթ, սարք։
Տեղական SLO-ը եզրին 'մետրերը ամենամոտ կետերից (edge/PoP)։
Համախմբումը 'ընդհանուր SLO չպետք է թաքցնի ձախողումները կարևոր կոորդինատների վրա։
Պրովայդերների փոխակերպումը 'ավտոմատ fallback-երթուղիները SLO-gatts մակարդակում։
10) Դաշբորդներն ու հաշվետվությունները
Հիբրիդային դաշորդը 'տարբերակը, կանարեյկան (%), SLI (հաջողություն/լատենտ), RF, դրոշների ճանաչումը։
Վիրահատական dashbord: burn-down բյուջեներ օրվա ընթացքում, լավագույն միջադեպերը, MTTR-ը, խնդրահարույց կոորդինատները։
Շաբաթական հաշվետվությունները 'բյուջեի մնացորդը, RF միտումները, ռուսական պարտքը (նեղ տեղեր), բարելավման պլանը։
11) Գործընթացներ ՝ միջադեպեր, RCA և բարելավումներ
Պատահարի կառավարումը 'alert-ը մեջբերում է RF-ի գնահատումը, բացատրում է կանանցների/դրոշների մասշտաբը։
RCA (արմատական պատճառը) 'փաստեր/timline/հիպոթեզներ/շտկումներ/SLI էֆեկտի ստուգում։
Քաղված դասերը 'սխալ post-mortemes, պարտադիր items գործողություն սեփականատերերի և ժամկետների հետ։
Ցիկլի փակումը 'փոփոխություններ թեստերում, ֆիչի դրոշներում, լիմիտներում, քեշերում, գետերում, քվոտներում։
12) Կոմպլասենսը և աուդիտը
SLO/SLI որպես կառավարման արտեֆակտներ (policy-as-code, անփոփոխ լոգներ)։
Պահանջներին կապելը (օրինակ, հիբրիդային վիրահատությունների հասանելիությունը)։
Ապացույցներ ՝ ալտերտերի արձանագրություններ, տեղեկատվության հաշվետվություններ, օրինագծերի/պատասխանների ամսագրեր։
13) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
“99. 99% կամ մահը" ՝ անհասանելի նպատակները անընդհատ ալերտ-աղմուկ են։ Ընտրել իրական SLO-ն։
Համաշխարհային միջին մարդիկ թաքցնում են տեղական ձախողումները, որոնք պատրաստվում են ներմուծել կոորդինատներ։
Մետրերը e2e չեն 'բարձր SLO-ն, երբ կլիենտում իրական դեգրադացիայի ժամանակ պլանավորվում է ավելացնել RUM/սինթետիկ։
Ալբերտները մեկ շեմով պատրաստվում են անցնել երկու պատուհանի burn rate։
Ոչ մի կապ չկա կանոնավոր օրինագծերի փոփոխության հետ, ոչ մեքենա-պատասխան։
14) Mini-chek-Time-ը ներդրման թերթ
- Նկարագրված են քննադատական ճանապարհները և դրանց SLI/SLO-ը։
- Դիտարկման պատուհանը և բացառությունները։
- Երկաստիճան RF-alerts (արագ և դանդաղ)։
- Օրինագծերի և գործողությունների խմբերը, որոնք ունեն տարբերակներ/դրոշներ։
- Error budget քաղաքականությունը ազդում է ալյումինի վրա։
- Բյուջեի ակնարկները և RCA-ը։
- Մոսկվան և ցուցանիշների սեփականատերերը։
15) Հաշվարկման օրինակ (հստակություն)
SLO հասանելիություն API: 99։ 28 օրվա ընթացքում 9 տոկոսը բյուջեն = 0։ 1%.
7 օրվա ընթացքում կուտակվեց 0։ Միգրանտների սխալների 06 տոկոսը ծախսել է բյուջեի 60 տոկոսը։
Կարճ պատուհանում 15 րոպե նկատվում է սխալների երկու տոկոսը։ Թույլատրելի է այս պատուհանի վրա '0։ 1 տոկոսը (15 րոպե/40320 րոպե) 240։ 000037%`.
Burn Rate 241-ը (տասնյակ 105) աշխատում է արագ լանդշաֆտը, կանարեյկան իջնում է մինչև 1 տոկոսը, միանում է «degrade-payments-UX» ֆիչի դրոշը, սկսվում է RCA-ն։
16) Արդյունքը
SLA/SLO ստանդարտը ոչ միայն թվերն են գրանցամատյանում, այլ այլընտրանքային փոփոխությունների և որակի կառավարման մեխանիզմը։ Ճիշտ SLI-ն, իրական SLO-ը, error budget-ը, երկչափ burn-rate-rate-alerts և e2e-դիտարկումը վերածում են աշխատանքային լուծումների 'ավելի արագ արտադրել արժեքը և պահել օգտագործողի փորձը կանխատեսելի։