MSE մշակույթը և ինժեներական սկզբունքները
1) Ի՞ նչ է SNE մշակույթը
MSE մշակույթը արժեքների և պրակտիկայի մի շարք է, որոնք բաժանում են կառավարվող ձեռնարկությունները 'SLO նպատակները, սխալ բյուջեն բացատրում է արագ կայունացման ռիսկերները։
Հիմնական պարադիգմա 'արագություն հուսալիության թշնամին։ Ածխաջրածինների արագությունը հնարավոր է, երբ ռիսկերը չափվում և ավտոմատացվում են։
Հիմնական արժեքները
User-centric-ը նշում է, թե ինչպես է այն տեսնում օգտագործողը (SLI/SLO)։
Automation-first 'ցանկացած կրկնվող գործողություն ռուսական ջութակ/քաղաքականություն/վերահսկիչ։
Blamelessness-ը 'սխալները' ռուսական, ուսումնասիրում ենք պատճառները, ոչ թե մարդիկ։
System-driven: լուծումներ, որոնք հիմնված են մետրիկի և սխալների վրա։
Simplicity: պարզ, ստուգված մեխանիզմներ> «կախարդական» լուծումներ։
2) DRE հիմնական ինժեներական սկզբունքները
1. SLO/SLI և սխալների բյուջեն գերակայությունների և ալերտինգի հիմքն է։
2. Պատահարը բացատրում է RCA-ի կոդավորման կայունացումը 'առաջին ախտանիշները, հետո պատճառները։
3. Ձեռքի աշխատանքի նվազումը (toil) - MSE ժամանակի 50 տոկոսը, ժամանակի ընթացքում ավելի ցածր։
4. Prod-պատրաստակամությունը '«readiness» -ը պարտադիր է մինչև արտաքին ինտեգրումը։
5. Պարզությունը և մեկուսացումը ավելի քիչ փոխկապակցվածություն են, ավելի շատ սահմանափակումներ blast radius։
6. Լռելյայն դիտարկումը մետրիկներ/լոգներ/հետքեր, SLO-vigets, սինթետիկ է։
7. Փոփոխությունները կառավարվում են 'progressive medivery, canarechivery, 71-rollback։
8. Disby design-ը գաղտնիքներ, հասանելի, աուդիտ, նվազագույն արտոնություններ է։
9. Ուսումնական ցիկլերը, քաոսի խաղերը, հետմորտեմները, հետադարձ հայացքները։
10. FinOps-գիտակցությունը «աղջիկների գինը», cost-to-serve, արդյունավետ SLO։
3) Ծիսակատարություններ և գործընթացներ
3. 1 Production Readiness Review (PRR)
Մինչև ռուսական ծառայությունը պետք է ունենա
SLI/SLO, dashbord և alerts (fox/slow burn)։
Health-endpoints «/healthz », «/readyz», «/startupz »։
Runbook/pleybuk 2019, owner/on-call, escalation chain։
Backups/DR պլանը, ռեսուրսների սահմանները, հաշվարկները։
Համառության թեստերը (ֆիչի դրոշներ, rollback սցենարներ)։
3. 2 Շաբաթական SLO ինդեքսը
Error-budget ծառայության վիճակը։
Հանցագործները մեկ շաբաթվա ընթացքում, CAPA առաջընթացը։
Հիբրիդային ռիսկ. Որտեղ թույլատրվում է/սահմանափակվում է դոպլով (պայմանագրով)։
3. 3 Հետմորտը առանց վիզայի
Փաստերը և թայմլայնը, օգտագործողի ազդեցությունը, որը օգնեց/խանգարեց։
Հիմնական պատճառները (գործընթացներ/գործիքներ), ոչ թե «մեղավոր»։
Հատուկ CAPA-ն սեփականատերերի և ժամկետների հետ, ընկերության ներսում հրապարակայնությունը։
3. 4 Քաոսի խաղեր
Ձախողումների պլանավորված ներարկումները (ցանցը, BD, kash, noda) + wwww.SLO։
«Game day»: Ժամանակն է կայունացման, MTTR չափման, պլեյբուսի օպտիկայի վրա։
4) Ալերտինգը և աղմուկը
Սկզբունքները
Alporonly on ptoms-ը խախտվել է SLO-ը կամ օգտագործողի ճանապարհը։
Multi-71, multi-burn: Արագ և դանդաղ ջրանցքներ։
Delrum/anti flapping '«for», ճնշումը maintenae-ում։
«CPU> 80 տոկոսը» - այսպիսի ազդանշաններ դեշբորդում, ոչ լանդշաֆտներում։
KPI ալերտների հատկությունները
Actionable-ի մասնաբաժինը 80 տոկոսն է։
Timan Time-to-ack 355 րոպե (P1)։
«Pager fatigue» նվազումը 'շաբաթական 1 գիշերային լանդշաֆտ ինժեների վրա։
5) Փոփոխությունների կառավարում
Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO ազդանշաններով (սխալներ/լատենտ)։
Feature-flags և kill-switch փոխարեն գլոբալ արձագանքի փոխարեն։
Change policy by risk: fast lane для low-risk; CAB-ը միայն high-risk է։
Excanarech (ideino)։
yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }
6) Toil-ի նվազումը (ռուտինի ձեռքի աշխատանք)
Toil-ի աղբյուրների օրինակները 'ձեռքի դոպլոներ, վերագործարկումներ, թիկետներ «տվեք հասանելիություն», հերթերի մաքրում։
Մոտեցում
Կրկնվող առաջադրանքների բուլգարիզացիան բացատրում է ավտոմատիզացիան/ինքնաարտադրությունը։
KPI: Ժամանակի տոկոսը toil-ում, «ավտոմատացված քայլեր/պատահականություն», «րոպե մինչև www.f-2019»։
Պլատֆորմի ծառայությունների կատալոգը (namespaces, BD, հերթեր, dashbords, alerts)։
7) Դիտարկումը և SLO-առաջին դիզայնը
Golden Signals (latency, traffic, errors, saturation).
SLO քարտերը յուրաքանչյուր թիմում 'նպատակը, պատուհանը, բյուջեն, burn-alerts։
Medilldown: Թիթեղներից/հետքերից; «trace _ id» լռելյայն լոգարաններում։
Սինթետիկ 'blackbox + headless սցենարներ (login/deposit/wwww.kout)։
8) Կարողությունների կառավարումը և կայունությունը
Capacity planning: wwww.RPS/մրցակցություն, AZ/տարածաշրջանի։
Bulkhead/գլուխդինգը 'փամփուշտների մեկուսացումը, երկրորդական գործառույթների հրաժարումը առաջին հերթին։
Backpressure-ը և հերթերը 'լագ-վերահսկողություն, DLQ, հարմարվողական մրցակցություն։
Failover և DR: RPO/RTO, www.DR-drili։
9) Անվտանգությունը որպես հուսալիության մի մաս
Secrets 'գաղտնիքների մենեջեր, JIT հասանելի, աուդիտ։
WAF/DDoS-guard պարագծի վրա, հաճախորդի/տենբերի սահմանները։
PII նվազեցումը, DSAR/Legal Hold-ը պատահականության մեջ։
Supply chain-ը 'արտեֆակտների ստորագրությունը, հիմնական պատկերների քաղաքականությունը։
10) Նա կոլայի առողջությունն է
Պարտատոմսեր առանց «միայնակ», հստակ հանգստի պատուհաններ։
«Գիշերները» շեմն է միայն P1/P2 SLO-ով։
Հոգեբանությունը 'քնի պակասը գրանցվում է որպես վիրահատական ռիսկ։
Մետրիկները 'լանդշաֆտներ/105, գիշերային լանդշաֆտներ/ինժեներ, վերականգնման ժամանակը։
11) MSE հասունության մետրիկները
SLO coverage 'SLO/alerts-ի քննադատական ճանապարհների մասնաբաժինը 90 տոկոսն է։
Error-budget governae: Գոյություն ունի freeze կանոնները և օգտագործվում են։
Toil: 3530-40 տոկոսը ժամանակի միտում, նվազեցման միտում։
MTTD/MTTR: Միջին է զանգվածի դինամիկայում։
System-mitigation rate: % արտադրվում է ավտոմատ ազդեցությամբ։
PRR pass-rate 'ֆորումների մասը, որոնք անցել են պրոդ պատրաստակամությամբ։
POSTmortem SLA: SEV-1 - հետմորտը 3,48 ժամ։
12) Մոսկվան և գիտելիքը
Նվազագույն հավաքածու
Runbooks/playks (առաջին սցենարները ՝ 5xx spike, DB lag, Kafka lag, NodeJ tReady, TLS)։
SLO քարտեր և dashbords։
PRR-chek թերթերը և ածխաջրածինների ձևանմուշները։
Պլատֆորմի ծառայությունների կատալոգը և OLAs/SLAS-ը։
Ուսուցման նյութերը ՝ MSE 101, Chaos 101, On-call 101։
13) Anti-patterna
Hero-culture: «փրկողները» ռուսական ֆիքսների փոխարեն։
Աղմկոտ ալերտինգը 'CPU/սկավառակներ լանդշաֆտներում, հարյուրավոր ավելորդ ազդանշաններ։
«DevOps-ը մարդ է», լուծված պատասխանատվություն, սեփականատեր չկա։
SLO-ի բացակայությունը. <<կանաչ պահեք ամեն ինչ>> ռուսական քաոսը առաջնային է։
Հետաձգված հետմորտեմները և «կախարդների որսը»։
Համաշխարհային տուգանքները առանց կանարների։
Գաղտնիքները ճեպազրույցի/ռեպոյի մեջ; ոչ մի գործողություն չկա։
Observability-ը որպես «գեղեցիկ գրաֆիկներ» առանց actionable ազդանշանների։
14) Արտեֆակտների օրինակները
14. 1 MSE-Hartia (հատված)
yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]
14. 2 Մինի-PRR չեկ-թերթ
- SLI/SLO և burn-alerts տրամադրված են
- Health-endpoints և սինթետիկ
- Runbook/pleybuk + սեփականատեր/on-call
- Rolbek/fich դրոշներ/canarek/
- Dashbords latency/errors/traffic/saturation
- Լիմիտներ/քվոտաներ/guardrails անվտանգություն
- DR պլանը և bakaps փորձարկվել են
15) Փուլերի ներդրումը (4 սպրինտ)
Սպրինտ 1 - Հիմքը
Որոշել քննադատական օգտագործողական ճանապարհները և SLI-ը։
Ձևակերպել SLO-ը և սկսել burn-alerts։
Ներդրել PRR-ը և նվազագույն պլեյբուսները։
Sprint 2 - Փոփոխությունների կառավարում
Կանարյան կպչուններ, 71-rollback SLO-ով։
Winf-ռուսական վիրահատություններ, ծառայությունների կատալոգ։
Բուլգարիզացիան toil և ավտոմատացման պլանը։
Sprint 3 - Ուսուցման ցիկլեր
Postmortem-ծեսը, քաոսի խաղերի օրացույցը։
Dashbords SLO + միջադեպերը, error-budget հաշվետվությունները։
Sprint 4 - Օպտիմիզացում և մասշտաբներ
SLO պորտֆելը, FinOps «cost per 9»։
DR կարգապահության ներդրումը, անվտանգության աուդիտը։
KPI նա-կոլա է, այրման կանխարգելումը։
16) Mini-FAQ
DIE = «ամեն ինչ վերանորոգել»։
Ոչ։ MSE-ն կառավարում է հուսալիության համակարգը 'SLO, alerting, գործընթացներ, ավտոմատիզացիա և ուսուցում։
Ինչպե՞ ս համոզել բիզնեսը ներդրումներ կատարել բյուջեում։
Ցույց տվեք ROI 'MTTR-ի նվազեցումը, հակադարձման աճը, SLA-ի ավելի քիչ վարկեր, cost-to-serve-ից ցածր, կայուն օրինագծեր։
Արդյո՞ ք MSE-թիմերը կարիք ունեն։
Հիբրիդային մոդել 'ռազմավարական SNE պլատֆորմում + embedded-MSE-ը կրիտիկական ապրանքների մեջ։
Արդյունքը
MSE մշակույթը ոչ թե պաշտոն է, այլ աշխատանքի մեթոդը 'SLO-ն, սխալների բյուջեն հաստատվում է կառավարվող փոփոխություններով ռուսական ուսուցման ավտոմատիզացիան։ Ամրագրեք սկզբունքները, ստեղծեք ծեսեր (PRR, հետմորտեմներ, քաոսի խաղեր), նկարահանեք toil, կառուցեք «լռելյայն» և հոգ տանել նա-օղակի մասին։ Այսպիսով, դուք կստանաք կայուն զարգացման արագություն, կանխատեսելի օրինագծեր և հուսալի, տնտեսական հարթակ։