Տեխնոլոգիան և ենթակառուցվածքը Windows Express and SLA
Ամպային ճարտարապետություն և SLA
1) Ինչու՞ SLA-ն և ինչպես կառավարել դրանք։
SLA (Windows Level Agrement) - բիզնեսի արտաքին խոստումը/www.ru հասանելիության, արագության և ճկունության մասին։
SLO (No Level Objective) - ներքին տեխնոլոգիական մակարդակներ թիմերի համար։
SLI (WindLevel Indication) չափված չափումներ են, որոնց վրա գնահատվում է SLO-ն։
IGaming/fintech-ը բնութագրվում է գագաթների կոշտ պատուհաններով (RAM, Live Dave, հաշվետվական ժամանակահատվածներ, «աշխատավարձային» օրեր), PSA/KYC պրովայդերների և աշխարհագրության ուժեղ կախվածությունը։ SLA-ն պետք է հաշվի առնի այս վարքագիծը, իսկ ճարտարապետությունը երաշխիքներ է տալիս ոչ միայն միջին, այլ նաև պերցենտալ։
2) Տերմինոլոգիան
Հասանելիությունը (Availability) մրցույթի համար հաջողակ հարցումների մասն է։
Լատինականությունը P50/P95/P99 է հիմնական վիրահատությունների համար։
Սխալ - որոշեք ճիշտ (5xx, թայմաութ, բիզնես սխալ)։
RTO (Recovery Time Objective) - որքա՞ ն ժամանակ է կատարվում վերականգնման համար։
RPO (Recovery Point Objective) - քանի տվյալներ կարելի է կորցնել վթարի ժամանակ։
Error Budget-ը 1 SLO-ն է, «պահեստը» փոփոխության և պատահականության վրա։
3) Ամպային ճարտարապետության շրջանակը SLA-ի տակ
3. 1 Բազմաբնույթ (Multi-AZ)
Վիճակի կրկնապատկումը (BD, kash, հերթեր) առնվազն 2-3 AZ-ի վրա։
Սառը/տաք standbay, ավտոմատ failover։
Տեղական հավասարակշռիչները (L4/L7) health-cheks per-AZ-ի հետ։
3. 2 Մուլտորեգիոն
Մոսկվա-2019 'ցածր RTO/RPO, ավելի բարդ է կոնսիստենտությունը և արժեքը։
Moscow-լոկոմոտիվը (hot/warm) 'ավելի էժան, RTO ավելի շատ, բայց ավելի հեշտ է տվյալների վերահսկումը։
Երկրագրական ռոտինգը (GeoTS/Anycript), «blase radius» մեկուսացումը։
3. 3 Տեղեկատվություն և տվյալներ
Գործարքային BD 'տարածաշրջանի ներսում սինխրոն կրկնօրինակումը, ասինխրոն միջտարածաշրջանային։
Քեշը 'Քրոս-տարածաշրջանային կրկնօրինակումներ, «ental reads + async warmup» ռեժիմը։
Օբյեկտի պահեստ 'տարբերակումը, լայֆ ցիկլները, cross-region replant։
Հերթերը/սթրիմինգը 'հայելային կլաստերներ/մուլտֆիլմ-տարածաշրջանային հոսքեր։
3. 4 Կոնտուրների մեկուսացում
Քննադատական ծառայությունների բաժանումը (payments/wallet) և «ծանր» վերլուծական խնդիրներ։
Rate-limits/www.tas-ի միջև, որպեսզի զեկույցները «ուտեն»։
4) Բարձր հասանելիության պատրանքներ
Bulkhead & Pool Isolation-ը ռուսական և ռեսուրսների գնդակների մեկուսացում է։
Circuit Breaker + Timeouts-ը պաշտպանություն է արտաքին ինտեգրիաներից։
Idempotency-ը կրկնում է հարցումները առանց կրկնակի ապամոնտաժման։
Graceful Degradation-ը, երբ դեգրադացվում է, անջատվում է նեֆունդամենտալ ֆիտները (ավատարներ, ընդլայնված ֆիլտրեր)։
Backpressure, կառավարեք մուտքային հոսքը, թույլ մի տվեք հերթերը «մինչև հորիզոնը»։
Chaos/Failure Inject-ը պլանավորված «ձախողումներ» է հուսալիության վարկածը ստուգելու համար։
5) DR ռազմավարությունը (Draster Recovery)
Ընտրությունը 'վճարումներ/դրամապանակներ' առնվազն Hot Standby; բովանդակություն/կատալոգ - Warm; հաշվետվությունները Backup & Restore-ն են, որոնք ունեն հստակ պատուհաններ։
6) SLI/SLO 'ինչպես ճիշտ չափել
6. 1 SLI մակարդակներում
Հաճախորդի SLI 'end-to-end (ներառյալ դարպասը և արտաքին պրովայդերը)։
Ծառայողական SLI '"մաքուր" լատենտություն/սխալներ "։
Բիզնես-SLI: CR (ռուսական դեպոզիտ), T2W (Time-to-wallet), PMS-decrate։
6. 2 SLO օրինակներ
Windows API-ի հասանելիությունը 3699 է 95 տոկոսը 30 օրվա ընթացքում։
Լատինականությունը payout-նախաձեռնություն է 'P95-350 մզ, P99-700 մզ։
Webhuks PSA: 3699։ 9 տոկոսը 60 վայրկյանում (հետքերով)։
Express Freshness 2019: 3510 րոպե լագը ժամանակի 95 տոկոսով։
6. 3 Error Budget Policy
Բյուջեի 50 տոկոսը փոփոխությունների համար (ֆորումը/փորձարկումները), 50 տոկոսը 'պատահականության վրա։
Բյուջեի այրումը ֆրիզ ֆիչ է, միայն կայունացումը։
7) Արտադրողականություն և մեծացում
HPA/SNA-ն SLO-կողմնորոշված ազդանշաններով (ոչ միայն CPU, այլ նաև գծեր/լատենտ)։
Նախատիպային սկեյլինգը հիմնված է ժամանակացույցի և պատմական գագաթների վրա։
Warm poo.ru/նախնական տաքացումը BD/PSA-ի առջև։
Քեշինգը և edge - կրճատել RTT-ը, հատկապես խաղերի և ստատիկ ասետների համար։
8) Ցանցային շերտը և գլոբալ լուծումը
Anycase/GeoTS-ը նվազագույնի հասցնելու համար լատենտ և ռուսական վթարներ։
Failover-քաղաքականությունը 'տարածաշրջանի health-թեստեր, շեմեր, «stickiness» TTL-ի հետ։
MTSA/WAF/Rate Limit ծայրում, պաշտպանություն բոտից։
Egress-վերահսկողությունը PMS/KYC-ի վրա allow-list-ի և SLA-aronertas-ի վրա։
9) Տվյալները և խորհրդատվությունը
Մրցույթի մակարդակի ընտրությունը 'խիստ (payments) vs event.ru (կատալոգը/վարկանիշները)։
CQRS-ը քննադատական թիմերի ընթերցանությունն ու ուղղությունը բացահայտելու համար։
Medibox/Inbox-ը իրադարձությունների առաքման համար։
Կարդացեք առանց dountaima: expand-migrate-medract, կրկնակի ձայնագրություն MAJOR-փոփոխության ժամանակ։
10) Դիտարկումը (Observability) SLA-ի տակ
Կողպեքների միջով հետքեր 'հարաբերակցություն «trace _ id» գործընկերոջ/տարածաշրջանի/API տարբերակի հետ։
SLO-dashbords burn-rate, «եղանակը» տարածաշրջաններով և պրովայդերներով։
Ալերտները ախտանիշներով, ոչ թե ախտանիշներով-նատրիումի (ոչ թե CPU, այլ R99/սխալ)։
Inthet.ru: Արտաքին ստուգումներ թարգետի երկրներից (TR, RF, EU...)։
Աուդիտը և հաշվետվությունները 'SLI/SLO էքսպորտը ավստրիական պորտալին։
11) Անվտանգությունն ու կոմպլենսը
Ցանցերի և գաղտնի կառավարման (KFC/Vance)։
Թռիչքի կոդավորումը/հանգիստ, PAN/PII։
Դերերի հասանելիության քաղաքականությունը կիսագնդի/վիրահատության համար։
Լոգները անփոփոխ են (WORM) և rentenshn զբոսաշրջիկների համար։
Կարգավորիչ 'պահպանումը տարածաշրջանում, հաշվետվությունները, SLA-ի կատարման ապացուցումը։
12) FinOps: SLA 'որպես արժեքի վարորդ
Դրեք SLO-ի նշանավորման գինը 'որքա՞ ն արժե + 0։ հասանելիության 01 տոկոսը։
Ավելացրեք գագաթնակետային պատուհանները, մի փչացրեք մշտական ուժը։
Right-sizing և «spot որտեղ կարող եք» ֆոնային խնդիրների համար։
Քվոտաները և բյուջեները ուրվագծերում, թույլ մի տվեք «անվճար» քայքայումը։
13) Հուսալիության փորձարկում
GameDay/Chaos-նստաշրջան 'AZ/PSA անջատումը, հերթերի ուշացումը, BGP-ի բացումը։
DR-drili: Ռուսական տարածաշրջանների կանոնավոր դասընթացը RTO նպատակներով։
Load & Soak-ը երկար շեղումներ է, որոնք ունեն իրական պրոֆիլներ։
Replay-2019 'հայտնի ֆեյլների գրադարան և վերարտադրման ջութակներ։
14) SLA պրոցեսորի կողմը
SLO-ի կատալոգը սեփականատերն է, բանաձևը, մետրերը, աղբյուրները, ալերտները։
RFC/ADR-ի միջոցով փոփոխությունները 'ազդեցության գնահատումը error budget-ի վրա։
Հետմորտեմներ 'ճարտարապետության և ռանբուկի բարելավում, SLO գյուղը։
Գործընկերների հետ հաղորդակցությունները 'հաղորդագրություններ, կարգավիճակ-էջ, planned maintenae։
15) SLI/SLO/2019 օրինակները
15. 1 Բանաձևը
SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек
15. 2 SLO-ի օրինակը Power API-ի համար
Հասանելիություն (30 օր): 99։ 95%
P95 endpointa '/v2/payouts/create '35350 ms
5xx (սայթաքող 1 ժամ): <0։ 3%
Webhook delivery ≤ 60 сек (P99): ≥ 99. 9%
RPO դրամապանակի համար ՝ 3660 վայրկյան, RTO 355 րոպե
15. 3 SLA զեկույց (գոյատևումը)
Մոսկվա: 99։ 97% (SLO 99. 95%) +
Խախտումներ ՝ երկու դրվագ RF ոլորտում PMS թայմաուտների պատճառով (միասին 8 րոպե)։
Միջոցները 'ավելացված է smart-routing կոդերով, ավելանում է warm pool-ը PMS-B-ին։
16)
1. Որոշվում են քննադատական օգտագործողական ճանապարհները և համապատասխան SLI-ն։
2. SLO 30/90 օրվա ընթացքում + error budget policy։
3. Բազմամասնությունը և DR պլանը RTO/RPO նպատակներով, փոխանցեցին։
4. Delnthetics-ից, per-region/per-PSA-ից։
5. Կայունության արտոնագրերը ՝ circuit breaker, backpressure, idempotency։
6. Դեգրադացիայի քաղաքականությունը և feature flags-ը անջատված ֆիչի համար։
7. FinOps: Հավասարակշռության բյուջեներ, պիկի կանխատեսում, warm poope։
8. Անվտանգություն 'սեգմենացիա, ծածկագրում, աուդիտ։
9. SLA-ի իրականացումը գործընկերների համար, հաղորդակցման գործընթացը։
10. Հետադարձ հայացքները և SLO-ը յուրաքանչյուր 1-2 զանգվածի։
17) Anti-patterna
Խոստացեք SLA-ն առանց չափված SLI-ի և թափանցիկ հաշվարկման մեթոդների։
Հաշվել «հյուրանոցների մուտքի» հասանելիությունը, անտեսելով դարպասը/պրովայդերը։
Ապավինել միայն միջին լատենտին 'անտեսելով P99 պոչը։
DR «թղթի վրա», իրական դասընթացների բացակայությունը։
«Հավիտենական» ռեսուրսները առանց սահմանների, մեկ զեկույց կանդրադառնա։
Խառնել արձանը և ծանր վերլուծությունը մեկ կլաստերում/BD-ում։
18) Արդյունքը
SLA-ի տակ ամպային ճարտարապետությունը տեխնոլոգիական պաթոգենների համադրություն է (multi-AZ/region, մեկուսացում, ձախողված տվյալներ), գործընթացներ (SLO, error budget, DR-drili) և տնտեսությունը (FinOps)։ Թույլ տվեք ինքներդ ձեզ իրավունք տալ կանխատեսվող ձախողումների. Փորձարկեք անկայունությունը, չափեք պերցենտները, սահմանափակեք «պայթուցիկ շառավիղը» և բացահայտ հաղորդակցվեք։ Այդ ժամանակ SLA խոստումները կդառնան ոչ թե մարքեթինգ, այլ ինժեներական պրակտիկայի կառավարվող։