Հուսալիության ինժեներություն
1) Ի՞ նչ է SNE-ն, և ինչո՞ ւ է այն անհրաժեշտ։
Հուսալիության ճարտարագիտությունը (Site Reliability Engineering, SNE) զարգացման և օգտագործման հանգույցի կարգապահությունն է, որը վերածում է արտադրանքը չափված։ DRE-ն միացնում է օգտագործողի փորձի (SLI), որակի նպատակները (SLO), սխալների բյուջեները, ավտոմատիզացումը և կառավարվող փոփոխությունները, որպեսզի ավելի արագ ծախսեն արժեքը առանց կայունության կորստի։
Հիմնական նպատակները 'կանխատեսելի UX, արագ օրինագծեր, նվազագույն հոսքեր և վերահսկվող սեփականության արժեքը։
2) DRE սկզբունքները
Մոսկվան ֆիչի պես է։ Առաջնային է մինչև SLO-ի և բիզնեսի նպատակների սահմանները։
Սխալների բյուջեն կառավարում է փոփոխությունների արագությունը։ Եթե բյուջեն այրվում է, կայունության կիզակետը։
Ավտոմատիզացիա> ձեռքով վիրահատություններ։ Յուրաքանչյուր կրկնվող խնդիր ջութակ/օպերատոր/www.pline։
Չափումը։ Միայն այն, ինչ չափվում է (SLI/SLO), կարելի է բարելավել։
Just Culture. Post-morthems-ը առանց պահանջների, կենտրոնանում է ռուսական պատճառների վրա։
Shift-left. Որակը, անվտանգությունը, թեստերը և դիտարկումը զարգացման ցիկլի մի մասն են։
3) Կազմակերպություն և դերեր
պլատֆորմի MSE-թիմը 'ընդհանուր գործիքներ, քաղաքականություններ, դելֆիններ, GitOps, ռուսական և ծառայություններ։
Ներկառուցված SNE (embedded) 'աշխատում են ապրանքային թիմի մոտ, միասին SLO-ի նպատակներով։
Հերթապահություն (on-call) 'ռոտացիաներ, բեռի սահմաններ, փոխհատուցում, վարժություններ։
RACI 'մրցույթի սեփականատերը, SLO, IC-ի սեփականատերը միջադեպերի ժամանակ, Comics Lead, Scribe-ը։
4) SLI/SLO և սխալների բյուջե (միացում արտադրանքի հետ)
SLI 'հասանելիություն, լատենտ, բիզնեսի հաջողությունը, տվյալների արդիականությունը։
SLO 'նպատակներ պատուհանների վրա 28-30 օր + բացառություն։
Error Budget = 1 − SLO. Քաղաքական գործիչները 'ֆորումը, փորձարկումները, կանարեյները և ֆիչին համապատասխանում են իրական բուրն-ռատին։
Կոորդինատների դիզայնը 'տարածքներ, պրովայդերներ, VIP հատվածներ - առանձին SLO, որպեսզի չկորցնեն անոմալիաները։
5) Լռելյայն դիտելը
Մետրիկները 'հաջողությունը/սխալը, p50/p95/p99, saturation (CPU/mem/IO/conn)։
Լոգները 'կառուցվածքային, դիմումների/դրոշների հարաբերակցության հետ։
Թրեյսինգը 'ուշացման և սխալների միջոցով, hot-paths։
Սինթետիկ + RUM 'արտաքին փորձարկումները և իրական հաճախորդների հեռուստաչափությունը։
Dashbords SLO: burn-down բյուջե, հիբրիդային ծանոթություններ, կանարեյկա, պրովայդերներ։
6) Փոփոխությունների կառավարումը և արտադրությունը
Delpline CI/CD 'դետերմինացված հավաքումներ, արտեֆակտների ստորագրություն, անվտանգության սկաններ, թեստեր։
Առաջադիմական ռազմավարություններ ՝ canary/blue-green/shadow; Ֆիչա դրոշները կյանքի ցիկլի հետ։
Gate 's: policy-as-code, SLO-guardrails, auto-rapate, երբ քայքայվում է։
GitOps: կազմաձևը/քաղաքականությունը որպես կոդ, չորեքշաբթի, աուդիտ։
7) Պատահականներն ու հետպատերազմյան մորտեմները
SEV/P մակարդակների հռչակագիրը, IC-ն անմիջապես նշանակվում է, freeze-freeze-ը SEV-1 +-ում։
Burn-rate ալերտները 'կարճ և երկար պատուհաններ, կվորումը տարածաշրջաններով և նմուշների տեսակներով։
Պլեյբուսները 'արձագանքներ, դեգրադացիաներ, պրովայդերների ֆեյլովեր, լիմիտներ/ռետրաններ։
RCA և CAPA 'փաստաբանություն, պատճառաբանություն, չափված գործողություններ, վերահսկողական կետեր (D + 14/D + 30)։
Գիտելիքների կատալոգ 'մենք օգտագործում ենք ձևանմուշներ և դասեր։
8) Հուսալիության փորձարկում
Պայմանագրային թեստերը և consumer-driven medracom-ը միկրովրովիզների համար։
Բեռի պրոֆիլները իրական փամփուշտներով, r99/դադար GC/պոչը։
Chaos/Resilience-Cass 'կախվածության անջատումներ, ցանցեր, հետաձգումներ։ game-days և DR ուսուցումները։
Media BD: expand www.migrate www.ract, շրջադարձային, թեստեր երկու տարբերակով։
9) Հզորության և արժեքի կառավարումը (FinOps)
Capacity Units-ը և headrope-ը կրիտիկական ճանապարհների վրա։
HPA/MSA/KEDA-ն օգտագործողի մետրերի և հերթերի բայերի վրա։
Multi-պրովայդերներ 'քվոտաներ, SLO/լատենտ, avto-feilover։
Unit-economics: դոլար/1k հարցումներ, դոլար/հաջողակ գործարք; քեշի, լոգարանների, egress-ի օպտիմիզացումը։
10) Անվտանգությունը որպես հուսալիության մի մաս
SBS/DMS/SCA, գաղտնիքների որոնում, SBSA, պատկերների ստորագրություն։
MTSA և հասանելիության քաղաքականությունը (OPA/ABAC); նվազագույն արտոնություններ։
Մրցույթի/հավաստագրերի վերացումը, ձեռնարկության վերահսկումը, թեստային սցենարները։
Անվտանգության դեպքերը առանձին պլեյբուսներ են, ֆորենզիկա, կարգավորիչների ծանուցումներ։
11) Մշակույթ և գործընթացներ
SLO ակնարկներ 'շաբաթական/ամսական, պարտքերի գերակայությունը մանուշակագույն մանուշակագույն մանիպուլյացիայի վրա։
Ուսուցումը և սիմվոլը 'on-call դասընթացներ, պատահական փորձեր, chaos-days։
Միասնական ստանդարտներ 'չեկի թերթիկներ պատրաստելու համար, SLA հաղորդակցությունները, փոփի մորտեմի ձևաչափը։
Ալտերի հոգնածության ցուցիչները 'աղմուկը, կամերային թյունինգը։
12) MSE գործառույթների հասունության մետրիկները
DORA-մետրիկները 'դոպլոների հաճախությունը, lead time, MTTR, change-failure-rate։
SLO կատարումը 'կանաչ տարածքում ծառայությունների մասնաբաժինը, burn-rate տենդենցը։
Ալերթ-հիգիենան 'լանդշաֆտների գործողությունների% -ը, ալտերտերի մեդիան/հերթափոխը, կեղծ մասնաբաժինը։
RCA/CAPA 'ժամանակի կատարումը, ռուսական (ոչ անձնական) պատճառների մասնաբաժինը, reopen-rate։
Արժեքը ՝ դոլար/SLO-կետ, դոլար/1k հարցումներ, ավտոմեքենաների արդյունավետություն։
13) Չեկ-թերթ «Պատրաստակամություն դեպի անցյալը»
- SLI/SLO, SLO սեփականատերը և դիտման պատուհանը։
- Dashbords և burn-rate alerts, կան արտաքին սինթետիկ։
- Propline: ստորագրություններ/սկաններ, պայմանագրային/ինտեգրացիոն թեստեր, կանարեյկա/դրոշներ, auto rollbek։
- Peter BD-ի դիմումները, բեռի պրոֆիլները ծածկում են պիկի։
- Pleybuks-ը և պրովայդերների շփումները. կարգավիճակ-էջ։
- Capacity headrope ապացուցված է; HPA/KEDA և պրովայդերների քվոտաները ստուգված են։
- Ջորջներն ու քաղաքական գործիչները 'Git-ում, չորեքշաբթի, աուդիտը միացված է։
- Lenta.ru: գաղտնիքները կոորդինատից դուրս, mTSA/նավարկումը, TFC ժամանակահատվածը վերահսկման տակ։
14) Anti-patterna
«99. 999 տոկոսը կամ ոչինչ" - անհասանելի նպատակները հավիտենական կարմիր burn-rate են։
Ալգորիթմները առանց կանարետների և ֆիչի դրոշների մեծ պայթյուններ են։
Մոնիտորինգի մի կետ պարունակում է կեղծ անհանգստություններ և բացթողումներ։
Առաքյալների ձեռքով հերթափոխը երկարաձգվում է։
Փոստի մորտեմները առանց CAPA-ի կրկնվում են։
MSE-ն որպես «հրշեջ» առանց ճարտարապետությունը փոխելու իրավունք, պարտքը չի փակվում։
15) Ճանապարհային քարտեզը MSE-ի ներդրման (օրինակ 3-6 ամիս)
1. Մեկ ամիս 1: Ծառայության և քննադատական ճանապարհների բուլարիզացիա; SLI/SLO չեռնովիկա; հիմնական dashbords և burn-rate alerts; սկսել on-call։
2. Մեկ ամիս 2: Կանարեյկի/ֆիչ դրոշներ, Auto-antates; GitOps եզրերը; Պլեյբուքերի կատալոգ 2019; կարգավիճակ-էջ։
3. Մեկ ամիս 3: պայմանագրային թեստեր, բեռի պրոֆիլներ, BD-ը expand/www.ract սխեմայի համաձայն։ առաջին game-days.
4. Մեկ ամիս 4-6 'մուլտֆիլմ-պրովայդերական երթուղիներ, DR ուսուցումներ, արժեքի օպտիմիզացում, հասունության չափումներ, KPI թիմերի համար։
16) Արդյունքը
MSE-ն զարգացման վիրահատական համակարգ է 'թափանցիկ որակի նպատակներ (SLO), որոնք կառավարվում են փոփոխության արագության (սխալների բյուջե), ավտոմատիզացման և կարգապահության, կայունության փորձարկման և հասկանալի արժեքի վրա։ Այս մոտեցման դեպքում ածխաջրածինները դառնում են ռուտիկ, իսկ միգրանտները ՝ մրցակցային առավելություն։