GH GambleHub

SLA և SLO

1) Տերմիններ և դերեր

SLA (Black Level Agream) - արտաքին պայմանագրային պարտավորություն հաճախորդի առջև (տուգանային վճարներ, վարկեր)։

SLO (Window Level Objective) - ռուսական ներքին մակարդակը, որը աջակցում է SLA-ի կատարումը։

SLI (WindLevel Indication) չափված ցուցիչ է, որի հիմքում գնահատվում են SLO/SLA։

Error Budget-ը «անհասանելիության/սխալների» թույլատրելի մասն է '«Budget = 1 to SLO»։

Scope: չափվում է օգտագործողի աչքերով (end-to-end)։ Միկրովայրկյաններում, ինչպես նաև բաղադրիչի մակարդակում, և միջով։

2) SLI-ի ընտրությունը 'ինչ չափել

Չափանիշը հարաբերությունն է օգտագործողի փորձի և բիզնեսի արժեքի հետ։

Տիպիկ SLI։

Հասանելիություն 'հաջողակ հարցումների մասնաբաժինը' «SLI = հաջողակ/բոլորը»։

Լատենտ 'հարցումների մասը ավելի արագ է քան T.' SLI = P (latency no T) "։

Որակը 'ճիշտ պատասխանների մասնաբաժինը (առանց 5x/ֆունկցիոնալ)։ սխալներ)։

Տվյալների արդիականությունը 'վերարտադրման/ETL 35X րոպե։

Բիզնես գործընթացի արդյունավետությունը 'հաջողակ վճարումների/գրանցման մասը։

Anti-pattern: միայն 200-կի համարեք որպես «հաջողություն», անտեսելով բիզնեսի սխալները։ չափել թեստային ցանցում 'կոդավորման փոխարեն։

3) Բանաձևերն ու դիտման պատուհանները

Պատուհանի հասանելիությունը

`Availability = (OK_requests / All_requests) × 100%`.

SLO լատենտ

«P95 T- ն ավելի լավ է ձևակերպել որպես» SLI = T- ի հարցումների% -ը։

Օրինակ ՝ «որոնման հարցումների 99 տոկոսը 28 օրվա ընթացքում 300 մզ է»։

Սայթաքող պատուհանը 28 կամ 30 օր է (զգայունության և կայունության հավասարակշռություն)։ Մրցույթի համար 'պատուհանի դոպը' 1 ժամ, 6 ժամ, 24 ռուբլիներ

4) Error Budget-ը և փոփոխության արագությունը կառավարելը

Հաշվարկը '"SLO = 99։ 9% «բյուջե =» 0։ 1% սխալ/անհասանելի ժամանակահատվածի համար։

Քաղաքականությունը

Բյուջե> 50 տոկոսը 'օրինագծեր և փորձեր պլանով։

Բյուջեն 10-50 տոկոսն է 'միայն ցածր կոորդինատները, կանանցների խստացումը։

Բյուջեն <10 տոկոսը 'ածխաջրածինների սառեցումը, հիմար պատճառը, հուսալիության բարելավումը։

Առաջադիմական թողարկումների հետ կապը 'canary/feature-flags «ուտում են» բյուջեն չափավոր, երբ այն քայքայվում է։

5) Ալերթ քաղաքականությունը 'շեմերից մինչև burn rate

Ինչու՞ ոչ "SLO-ն 'alert-ը, շատ ուշ։ Անհրաժեշտ է ակտիվություն։

Burn Rate (RF) - բյուջեի այրման արագությունը

«III = (դիտարկված սխալ կարճ պատուհանի/թույլատրելի սխալ այս պատուհանի համար)»։

Եթե 'MS> 1 "- բյուջեն ավելի արագ է, քան նորմը։

Երկու պատուհանի ալերտները (SDE best practice)

Արագ ալերտը (աղմուկը զգայուն է, աղետներ է բռնում) 'պատուհանը 5-10 րոպե, RF 14-20 ռուբլիներ։

Դանդաղ ալերտը (բռնում է սողացող դեգրադացիաները) 'պատուհանը 1-6 ժամ, III-4-ի շեմն է։

Համատեղելու պայմանները 'արագ կամ դանդաղ' լանդշաֆտը on-call։

Մակարդակները 'SLO-ի օգտագործողների համար լանդշաֆտը, թիկետները/ծանուցումները ներքին SLI-ի մոխրագույն քայքայման համար։

6) Դիտողությունն ու ճշմարտության աղբյուրները

Լոգը պատճառների ախտորոշումն է։

Մետրիկները 'թվային SLI (հաջողություն/սխալ, գնահատում էին լատենտները, բաժնետոմսերը, հաշվիչները)։

Թրեյսները ճանապարհների միջով են, «տաք» հատվածների տեղայնացումը։

Սինթետիկան ակտիվ փորձարկումներ է ծայրամասից (region-a)։

Իրական իրադարձությունները 'RUM/հաճախորդների հեռուստաչափություն, բիզնես մետրեր (հակադարձում, հաջողակ վճարումներ)։

Պահանջները ՝ մեկ նկար ածխաջրածինների և մետաղների տաշբորդներում, «տարբերակը/կանարեյկա/դրոշը»։

7) SLO նախագծումը 'շրջադարձային ձևանմուշ

1. Նկարագրեք քննադատական ճանապարհը (օրինակ ՝ «պահեստավորում է քարտեզը»)։

2. NO SLI 'հաջողություն/սխալ, լատենտության շեմն, ամբողջական։

3. Համաձայնեք SLO 'նպատակը 28 օրվա ընթացքում + բացառություններ (պլանավորված պատուհաններ)։

4. Միացրեք SLA-ի հետ, իրավաբանական պարտավորությունը կատարվում է իրական SLO-ի կողմից։

5. Նշանակեք սեփականատեր (ww.owner), RACI-ը և ալտերերի ալիքը։

6. Mastalert-քաղաքականության (երկու պատուհանի RF) և Auto-rakates-ը։

7. Ներդրեք հաշվետվություններ 'բյուջեի շաբաթական ակնարկներ, հետադարձ կապ։

8. Վերանայեք SLO-ն եռամսյակային (բեռի/ճարտարապետության փոփոխություն)։

8) SLO (ձևանմուշներ) օրինակներ

API վճարումներ

Հասանելիություն ՝ «07 99»։ 95% (28d, բացառելով հայտարարված պատուհանները 30 րոպե/վրկ)։

Լատենտ ՝ "07 99 տոկոսը" պատասխաններ '4900 մզ "։

Բիզնեսի վիրահատության հաջողությունը '"07 98։ Հինգ% -ը հաջողակ հեղինակային իրավունքի (fraud-ֆիլտրեր հաշվի են առնվում)։

Խաղերի/բովանդակության որոնումը

Լատենտ ՝ "07 99 տոկոսը" հարցումներ '300 մզ "։

Քեշի արդիականությունը '«355 րոպե»' դեպքերի 99 տոկոսով հրաժարվելը։

Սթրիմինգ իրադարձությունները (KYC/AML)

Առաքում ՝ «07 99»։ 9% -ը '-60 s' (end-to-end, ելույթներով)։

Կորուստը '«07 0»։ 01% հաղորդագրությունները (idempotention/dedeplication ներառված են)։

9) Multi-տարածաշրջանը և multi-tenant

SLO «կոորդինատներ» ՝ երկիր, հիբրիդային պրովայդեր, VIP սեգմենթ, սարք։

Տեղական SLO-ը եզրին 'մետրերը ամենամոտ կետերից (edge/PoP)։

Համախմբումը 'ընդհանուր SLO չպետք է թաքցնի ձախողումները կարևոր կոորդինատների վրա։

Պրովայդերների փոխակերպումը 'ավտոմատ fallback-երթուղիները SLO-gatts մակարդակում։

10) Դաշբորդներն ու հաշվետվությունները

Հիբրիդային դաշորդը 'տարբերակը, կանարեյկան (%), SLI (հաջողություն/լատենտ), RF, դրոշների ճանաչումը։

Վիրահատական dashbord: burn-down բյուջեներ օրվա ընթացքում, լավագույն միջադեպերը, MTTR-ը, խնդրահարույց կոորդինատները։

Շաբաթական հաշվետվությունները 'բյուջեի մնացորդը, RF միտումները, ռուսական պարտքը (նեղ տեղեր), բարելավման պլանը։

11) Գործընթացներ ՝ միջադեպեր, RCA և բարելավումներ

Պատահարի կառավարումը 'alert-ը մեջբերում է RF-ի գնահատումը, բացատրում է կանանցների/դրոշների մասշտաբը։

RCA (արմատական պատճառը) 'փաստեր/timline/հիպոթեզներ/շտկումներ/SLI էֆեկտի ստուգում։

Քաղված դասերը 'սխալ post-mortemes, պարտադիր items գործողություն սեփականատերերի և ժամկետների հետ։

Ցիկլի փակումը 'փոփոխություններ թեստերում, ֆիչի դրոշներում, լիմիտներում, քեշերում, գետերում, քվոտներում։

12) Կոմպլասենսը և աուդիտը

SLO/SLI որպես կառավարման արտեֆակտներ (policy-as-code, անփոփոխ լոգներ)։

Պահանջներին կապելը (օրինակ, հիբրիդային վիրահատությունների հասանելիությունը)։

Ապացույցներ ՝ ալտերտերի արձանագրություններ, տեղեկատվության հաշվետվություններ, օրինագծերի/պատասխանների ամսագրեր։

13) Հաճախակի սխալներ և ինչպես խուսափել դրանցից

“99. 99% կամ մահը" ՝ անհասանելի նպատակները անընդհատ ալերտ-աղմուկ են։ Ընտրել իրական SLO-ն։

Համաշխարհային միջին մարդիկ թաքցնում են տեղական ձախողումները, որոնք պատրաստվում են ներմուծել կոորդինատներ։

Մետրերը e2e չեն 'բարձր SLO-ն, երբ կլիենտում իրական դեգրադացիայի ժամանակ պլանավորվում է ավելացնել RUM/սինթետիկ։

Ալբերտները մեկ շեմով պատրաստվում են անցնել երկու պատուհանի burn rate։

Ոչ մի կապ չկա կանոնավոր օրինագծերի փոփոխության հետ, ոչ մեքենա-պատասխան։

14) Mini-chek-Time-ը ներդրման թերթ

  • Նկարագրված են քննադատական ճանապարհները և դրանց SLI/SLO-ը։
  • Դիտարկման պատուհանը և բացառությունները։
  • Երկաստիճան RF-alerts (արագ և դանդաղ)։
  • Օրինագծերի և գործողությունների խմբերը, որոնք ունեն տարբերակներ/դրոշներ։
  • Error budget քաղաքականությունը ազդում է ալյումինի վրա։
  • Բյուջեի ակնարկները և RCA-ը։
  • Մոսկվան և ցուցանիշների սեփականատերերը։

15) Հաշվարկման օրինակ (հստակություն)

SLO հասանելիություն API: 99։ 28 օրվա ընթացքում 9 տոկոսը բյուջեն = 0։ 1%.

7 օրվա ընթացքում կուտակվեց 0։ Միգրանտների սխալների 06 տոկոսը ծախսել է բյուջեի 60 տոկոսը։

Կարճ պատուհանում 15 րոպե նկատվում է սխալների երկու տոկոսը։ Թույլատրելի է այս պատուհանի վրա '0։ 1 տոկոսը (15 րոպե/40320 րոպե) 240։ 000037%`.

Burn Rate 241-ը (տասնյակ 105) աշխատում է արագ լանդշաֆտը, կանարեյկան իջնում է մինչև 1 տոկոսը, միանում է «degrade-payments-UX» ֆիչի դրոշը, սկսվում է RCA-ն։

16) Արդյունքը

SLA/SLO ստանդարտը ոչ միայն թվերն են գրանցամատյանում, այլ այլընտրանքային փոփոխությունների և որակի կառավարման մեխանիզմը։ Ճիշտ SLI-ն, իրական SLO-ը, error budget-ը, երկչափ burn-rate-rate-alerts և e2e-դիտարկումը վերածում են աշխատանքային լուծումների 'ավելի արագ արտադրել արժեքը և պահել օգտագործողի փորձը կանխատեսելի։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։