GH GambleHub

MSE մշակույթը և ինժեներական սկզբունքները

1) Ի՞ նչ է SNE մշակույթը

MSE մշակույթը արժեքների և պրակտիկայի մի շարք է, որոնք բաժանում են կառավարվող ձեռնարկությունները 'SLO նպատակները, սխալ բյուջեն բացատրում է արագ կայունացման ռիսկերները։

Հիմնական պարադիգմա 'արագություն հուսալիության թշնամին։ Ածխաջրածինների արագությունը հնարավոր է, երբ ռիսկերը չափվում և ավտոմատացվում են։

Հիմնական արժեքները

User-centric-ը նշում է, թե ինչպես է այն տեսնում օգտագործողը (SLI/SLO)։

Automation-first 'ցանկացած կրկնվող գործողություն ռուսական ջութակ/քաղաքականություն/վերահսկիչ։

Blamelessness-ը 'սխալները' ռուսական, ուսումնասիրում ենք պատճառները, ոչ թե մարդիկ։

System-driven: լուծումներ, որոնք հիմնված են մետրիկի և սխալների վրա։

Simplicity: պարզ, ստուգված մեխանիզմներ> «կախարդական» լուծումներ։

2) DRE հիմնական ինժեներական սկզբունքները

1. SLO/SLI և սխալների բյուջեն գերակայությունների և ալերտինգի հիմքն է։

2. Պատահարը բացատրում է RCA-ի կոդավորման կայունացումը 'առաջին ախտանիշները, հետո պատճառները։

3. Ձեռքի աշխատանքի նվազումը (toil) - MSE ժամանակի 50 տոկոսը, ժամանակի ընթացքում ավելի ցածր։

4. Prod-պատրաստակամությունը '«readiness» -ը պարտադիր է մինչև արտաքին ինտեգրումը։

5. Պարզությունը և մեկուսացումը ավելի քիչ փոխկապակցվածություն են, ավելի շատ սահմանափակումներ blast radius։

6. Լռելյայն դիտարկումը մետրիկներ/լոգներ/հետքեր, SLO-vigets, սինթետիկ է։

7. Փոփոխությունները կառավարվում են 'progressive medivery, canarechivery, 71-rollback։

8. Disby design-ը գաղտնիքներ, հասանելի, աուդիտ, նվազագույն արտոնություններ է։

9. Ուսումնական ցիկլերը, քաոսի խաղերը, հետմորտեմները, հետադարձ հայացքները։

10. FinOps-գիտակցությունը «աղջիկների գինը», cost-to-serve, արդյունավետ SLO։

3) Ծիսակատարություններ և գործընթացներ

3. 1 Production Readiness Review (PRR)

Մինչև ռուսական ծառայությունը պետք է ունենա

SLI/SLO, dashbord և alerts (fox/slow burn)։

Health-endpoints «/healthz », «/readyz», «/startupz »։

Runbook/pleybuk 2019, owner/on-call, escalation chain։

Backups/DR պլանը, ռեսուրսների սահմանները, հաշվարկները։

Համառության թեստերը (ֆիչի դրոշներ, rollback սցենարներ)։

3. 2 Շաբաթական SLO ինդեքսը

Error-budget ծառայության վիճակը։

Հանցագործները մեկ շաբաթվա ընթացքում, CAPA առաջընթացը։

Հիբրիդային ռիսկ. Որտեղ թույլատրվում է/սահմանափակվում է դոպլով (պայմանագրով)։

3. 3 Հետմորտը առանց վիզայի

Փաստերը և թայմլայնը, օգտագործողի ազդեցությունը, որը օգնեց/խանգարեց։

Հիմնական պատճառները (գործընթացներ/գործիքներ), ոչ թե «մեղավոր»։

Հատուկ CAPA-ն սեփականատերերի և ժամկետների հետ, ընկերության ներսում հրապարակայնությունը։

3. 4 Քաոսի խաղեր

Ձախողումների պլանավորված ներարկումները (ցանցը, BD, kash, noda) + wwww.SLO։

«Game day»: Ժամանակն է կայունացման, MTTR չափման, պլեյբուսի օպտիկայի վրա։

4) Ալերտինգը և աղմուկը

Սկզբունքները

Alporonly on ptoms-ը խախտվել է SLO-ը կամ օգտագործողի ճանապարհը։

Multi-71, multi-burn: Արագ և դանդաղ ջրանցքներ։

Delrum/anti flapping '«for», ճնշումը maintenae-ում։

«CPU> 80 տոկոսը» - այսպիսի ազդանշաններ դեշբորդում, ոչ լանդշաֆտներում։

KPI ալերտների հատկությունները

Actionable-ի մասնաբաժինը 80 տոկոսն է։

Timan Time-to-ack 355 րոպե (P1)։

«Pager fatigue» նվազումը 'շաբաթական 1 գիշերային լանդշաֆտ ինժեների վրա։

5) Փոփոխությունների կառավարում

Progressive delivery: canary → 10% → 25% → 50% → 100%.

SLO ազդանշաններով (սխալներ/լատենտ)։

Feature-flags և kill-switch փոխարեն գլոբալ արձագանքի փոխարեն։

Change policy by risk: fast lane для low-risk; CAB-ը միայն high-risk է։

Excanarech (ideino)։

yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6) Toil-ի նվազումը (ռուտինի ձեռքի աշխատանք)

Toil-ի աղբյուրների օրինակները 'ձեռքի դոպլոներ, վերագործարկումներ, թիկետներ «տվեք հասանելիություն», հերթերի մաքրում։

Մոտեցում

Կրկնվող առաջադրանքների բուլգարիզացիան բացատրում է ավտոմատիզացիան/ինքնաարտադրությունը։

KPI: Ժամանակի տոկոսը toil-ում, «ավտոմատացված քայլեր/պատահականություն», «րոպե մինչև www.f-2019»։

Պլատֆորմի ծառայությունների կատալոգը (namespaces, BD, հերթեր, dashbords, alerts)։

7) Դիտարկումը և SLO-առաջին դիզայնը

Golden Signals (latency, traffic, errors, saturation).

SLO քարտերը յուրաքանչյուր թիմում 'նպատակը, պատուհանը, բյուջեն, burn-alerts։

Medilldown: Թիթեղներից/հետքերից; «trace _ id» լռելյայն լոգարաններում։

Սինթետիկ 'blackbox + headless սցենարներ (login/deposit/wwww.kout)։

8) Կարողությունների կառավարումը և կայունությունը

Capacity planning: wwww.RPS/մրցակցություն, AZ/տարածաշրջանի։

Bulkhead/գլուխդինգը 'փամփուշտների մեկուսացումը, երկրորդական գործառույթների հրաժարումը առաջին հերթին։

Backpressure-ը և հերթերը 'լագ-վերահսկողություն, DLQ, հարմարվողական մրցակցություն։

Failover և DR: RPO/RTO, www.DR-drili։

9) Անվտանգությունը որպես հուսալիության մի մաս

Secrets 'գաղտնիքների մենեջեր, JIT հասանելի, աուդիտ։

WAF/DDoS-guard պարագծի վրա, հաճախորդի/տենբերի սահմանները։

PII նվազեցումը, DSAR/Legal Hold-ը պատահականության մեջ։

Supply chain-ը 'արտեֆակտների ստորագրությունը, հիմնական պատկերների քաղաքականությունը։

10) Նա կոլայի առողջությունն է

Պարտատոմսեր առանց «միայնակ», հստակ հանգստի պատուհաններ։

«Գիշերները» շեմն է միայն P1/P2 SLO-ով։

Հոգեբանությունը 'քնի պակասը գրանցվում է որպես վիրահատական ռիսկ։

Մետրիկները 'լանդշաֆտներ/105, գիշերային լանդշաֆտներ/ինժեներ, վերականգնման ժամանակը։

11) MSE հասունության մետրիկները

SLO coverage 'SLO/alerts-ի քննադատական ճանապարհների մասնաբաժինը 90 տոկոսն է։

Error-budget governae: Գոյություն ունի freeze կանոնները և օգտագործվում են։

Toil: 3530-40 տոկոսը ժամանակի միտում, նվազեցման միտում։

MTTD/MTTR: Միջին է զանգվածի դինամիկայում։

System-mitigation rate: % արտադրվում է ավտոմատ ազդեցությամբ։

PRR pass-rate 'ֆորումների մասը, որոնք անցել են պրոդ պատրաստակամությամբ։

POSTmortem SLA: SEV-1 - հետմորտը 3,48 ժամ։

12) Մոսկվան և գիտելիքը

Նվազագույն հավաքածու

Runbooks/playks (առաջին սցենարները ՝ 5xx spike, DB lag, Kafka lag, NodeJ tReady, TLS)։

SLO քարտեր և dashbords։

PRR-chek թերթերը և ածխաջրածինների ձևանմուշները։

Պլատֆորմի ծառայությունների կատալոգը և OLAs/SLAS-ը։

Ուսուցման նյութերը ՝ MSE 101, Chaos 101, On-call 101։

13) Anti-patterna

Hero-culture: «փրկողները» ռուսական ֆիքսների փոխարեն։

Աղմկոտ ալերտինգը 'CPU/սկավառակներ լանդշաֆտներում, հարյուրավոր ավելորդ ազդանշաններ։

«DevOps-ը մարդ է», լուծված պատասխանատվություն, սեփականատեր չկա։

SLO-ի բացակայությունը. <<կանաչ պահեք ամեն ինչ>> ռուսական քաոսը առաջնային է։

Հետաձգված հետմորտեմները և «կախարդների որսը»։

Համաշխարհային տուգանքները առանց կանարների։

Գաղտնիքները ճեպազրույցի/ռեպոյի մեջ; ոչ մի գործողություն չկա։

Observability-ը որպես «գեղեցիկ գրաֆիկներ» առանց actionable ազդանշանների։

14) Արտեֆակտների օրինակները

14. 1 MSE-Hartia (հատված)

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14. 2 Մինի-PRR չեկ-թերթ

  • SLI/SLO և burn-alerts տրամադրված են
  • Health-endpoints և սինթետիկ
  • Runbook/pleybuk + սեփականատեր/on-call
  • Rolbek/fich դրոշներ/canarek/
  • Dashbords latency/errors/traffic/saturation
  • Լիմիտներ/քվոտաներ/guardrails անվտանգություն
  • DR պլանը և bakaps փորձարկվել են

15) Փուլերի ներդրումը (4 սպրինտ)

Սպրինտ 1 - Հիմքը

Որոշել քննադատական օգտագործողական ճանապարհները և SLI-ը։

Ձևակերպել SLO-ը և սկսել burn-alerts։

Ներդրել PRR-ը և նվազագույն պլեյբուսները։

Sprint 2 - Փոփոխությունների կառավարում

Կանարյան կպչուններ, 71-rollback SLO-ով։

Winf-ռուսական վիրահատություններ, ծառայությունների կատալոգ։

Բուլգարիզացիան toil և ավտոմատացման պլանը։

Sprint 3 - Ուսուցման ցիկլեր

Postmortem-ծեսը, քաոսի խաղերի օրացույցը։

Dashbords SLO + միջադեպերը, error-budget հաշվետվությունները։

Sprint 4 - Օպտիմիզացում և մասշտաբներ

SLO պորտֆելը, FinOps «cost per 9»։

DR կարգապահության ներդրումը, անվտանգության աուդիտը։

KPI նա-կոլա է, այրման կանխարգելումը։

16) Mini-FAQ

DIE = «ամեն ինչ վերանորոգել»։

Ոչ։ MSE-ն կառավարում է հուսալիության համակարգը 'SLO, alerting, գործընթացներ, ավտոմատիզացիա և ուսուցում։

Ինչպե՞ ս համոզել բիզնեսը ներդրումներ կատարել բյուջեում։

Ցույց տվեք ROI 'MTTR-ի նվազեցումը, հակադարձման աճը, SLA-ի ավելի քիչ վարկեր, cost-to-serve-ից ցածր, կայուն օրինագծեր։

Արդյո՞ ք MSE-թիմերը կարիք ունեն։

Հիբրիդային մոդել 'ռազմավարական SNE պլատֆորմում + embedded-MSE-ը կրիտիկական ապրանքների մեջ։

Արդյունքը

MSE մշակույթը ոչ թե պաշտոն է, այլ աշխատանքի մեթոդը 'SLO-ն, սխալների բյուջեն հաստատվում է կառավարվող փոփոխություններով ռուսական ուսուցման ավտոմատիզացիան։ Ամրագրեք սկզբունքները, ստեղծեք ծեսեր (PRR, հետմորտեմներ, քաոսի խաղեր), նկարահանեք toil, կառուցեք «լռելյայն» և հոգ տանել նա-օղակի մասին։ Այսպիսով, դուք կստանաք կայուն զարգացման արագություն, կանխատեսելի օրինագծեր և հուսալի, տնտեսական հարթակ։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։