GH GambleHub

Տեխնոլոգիան և ենթակառուցվածքը Windows Express and SLA

Ամպային ճարտարապետություն և SLA

1) Ինչու՞ SLA-ն և ինչպես կառավարել դրանք։

SLA (Windows Level Agrement) - բիզնեսի արտաքին խոստումը/www.ru հասանելիության, արագության և ճկունության մասին։

SLO (No Level Objective) - ներքին տեխնոլոգիական մակարդակներ թիմերի համար։

SLI (WindLevel Indication) չափված չափումներ են, որոնց վրա գնահատվում է SLO-ն։

IGaming/fintech-ը բնութագրվում է գագաթների կոշտ պատուհաններով (RAM, Live Dave, հաշվետվական ժամանակահատվածներ, «աշխատավարձային» օրեր), PSA/KYC պրովայդերների և աշխարհագրության ուժեղ կախվածությունը։ SLA-ն պետք է հաշվի առնի այս վարքագիծը, իսկ ճարտարապետությունը երաշխիքներ է տալիս ոչ միայն միջին, այլ նաև պերցենտալ։


2) Տերմինոլոգիան

Հասանելիությունը (Availability) մրցույթի համար հաջողակ հարցումների մասն է։

Լատինականությունը P50/P95/P99 է հիմնական վիրահատությունների համար։

Սխալ - որոշեք ճիշտ (5xx, թայմաութ, բիզնես սխալ)։

RTO (Recovery Time Objective) - որքա՞ ն ժամանակ է կատարվում վերականգնման համար։

RPO (Recovery Point Objective) - քանի տվյալներ կարելի է կորցնել վթարի ժամանակ։

Error Budget-ը 1 SLO-ն է, «պահեստը» փոփոխության և պատահականության վրա։


3) Ամպային ճարտարապետության շրջանակը SLA-ի տակ

3. 1 Բազմաբնույթ (Multi-AZ)

Վիճակի կրկնապատկումը (BD, kash, հերթեր) առնվազն 2-3 AZ-ի վրա։

Սառը/տաք standbay, ավտոմատ failover։

Տեղական հավասարակշռիչները (L4/L7) health-cheks per-AZ-ի հետ։

3. 2 Մուլտորեգիոն

Մոսկվա-2019 'ցածր RTO/RPO, ավելի բարդ է կոնսիստենտությունը և արժեքը։

Moscow-լոկոմոտիվը (hot/warm) 'ավելի էժան, RTO ավելի շատ, բայց ավելի հեշտ է տվյալների վերահսկումը։

Երկրագրական ռոտինգը (GeoTS/Anycript), «blase radius» մեկուսացումը։

3. 3 Տեղեկատվություն և տվյալներ

Գործարքային BD 'տարածաշրջանի ներսում սինխրոն կրկնօրինակումը, ասինխրոն միջտարածաշրջանային։

Քեշը 'Քրոս-տարածաշրջանային կրկնօրինակումներ, «ental reads + async warmup» ռեժիմը։

Օբյեկտի պահեստ 'տարբերակումը, լայֆ ցիկլները, cross-region replant։

Հերթերը/սթրիմինգը 'հայելային կլաստերներ/մուլտֆիլմ-տարածաշրջանային հոսքեր։

3. 4 Կոնտուրների մեկուսացում

Քննադատական ծառայությունների բաժանումը (payments/wallet) և «ծանր» վերլուծական խնդիրներ։

Rate-limits/www.tas-ի միջև, որպեսզի զեկույցները «ուտեն»։


4) Բարձր հասանելիության պատրանքներ

Bulkhead & Pool Isolation-ը ռուսական և ռեսուրսների գնդակների մեկուսացում է։

Circuit Breaker + Timeouts-ը պաշտպանություն է արտաքին ինտեգրիաներից։

Idempotency-ը կրկնում է հարցումները առանց կրկնակի ապամոնտաժման։

Graceful Degradation-ը, երբ դեգրադացվում է, անջատվում է նեֆունդամենտալ ֆիտները (ավատարներ, ընդլայնված ֆիլտրեր)։

Backpressure, կառավարեք մուտքային հոսքը, թույլ մի տվեք հերթերը «մինչև հորիզոնը»։

Chaos/Failure Inject-ը պլանավորված «ձախողումներ» է հուսալիության վարկածը ստուգելու համար։


5) DR ռազմավարությունը (Draster Recovery)

ՌազմավարությունRTORPOԱրժեքըԲարդությունՄեկնաբանություն
Backup & Restoreժամացույցրոպե ժամացույցցածր էցածր էՉօգտագործվող համակարգերի համար անընդունելի է երկրորդային միջուկի համար
Warm Standby (տարածք)րոպերոպեմիջին միջինմիջին միջինՊահում ենք նվազագույն կրկնօրինակներ + պարբերական տաքացում
Hot Standby (տարածք)<5-10 րոպե<1-2 րոպեմիջին բարձրահասակմիջին միջինԱրագ failover, քրոս-տարածաշրջանային ամսագրեր
Active-Activeվայրկյան րոպե240-1 րոպեբարձրբարձրՊահանջում է մտածված կոնսիստենտություն և հակամարտություն-2019

Ընտրությունը 'վճարումներ/դրամապանակներ' առնվազն Hot Standby; բովանդակություն/կատալոգ - Warm; հաշվետվությունները Backup & Restore-ն են, որոնք ունեն հստակ պատուհաններ։


6) SLI/SLO 'ինչպես ճիշտ չափել

6. 1 SLI մակարդակներում

Հաճախորդի SLI 'end-to-end (ներառյալ դարպասը և արտաքին պրովայդերը)։

Ծառայողական SLI '"մաքուր" լատենտություն/սխալներ "։

Բիզնես-SLI: CR (ռուսական դեպոզիտ), T2W (Time-to-wallet), PMS-decrate։

6. 2 SLO օրինակներ

Windows API-ի հասանելիությունը 3699 է 95 տոկոսը 30 օրվա ընթացքում։

Լատինականությունը payout-նախաձեռնություն է 'P95-350 մզ, P99-700 մզ։

Webhuks PSA: 3699։ 9 տոկոսը 60 վայրկյանում (հետքերով)։

Express Freshness 2019: 3510 րոպե լագը ժամանակի 95 տոկոսով։

6. 3 Error Budget Policy

Բյուջեի 50 տոկոսը փոփոխությունների համար (ֆորումը/փորձարկումները), 50 տոկոսը 'պատահականության վրա։

Բյուջեի այրումը ֆրիզ ֆիչ է, միայն կայունացումը։


7) Արտադրողականություն և մեծացում

HPA/SNA-ն SLO-կողմնորոշված ազդանշաններով (ոչ միայն CPU, այլ նաև գծեր/լատենտ)։

Նախատիպային սկեյլինգը հիմնված է ժամանակացույցի և պատմական գագաթների վրա։

Warm poo.ru/նախնական տաքացումը BD/PSA-ի առջև։

Քեշինգը և edge - կրճատել RTT-ը, հատկապես խաղերի և ստատիկ ասետների համար։


8) Ցանցային շերտը և գլոբալ լուծումը

Anycase/GeoTS-ը նվազագույնի հասցնելու համար լատենտ և ռուսական վթարներ։

Failover-քաղաքականությունը 'տարածաշրջանի health-թեստեր, շեմեր, «stickiness» TTL-ի հետ։

MTSA/WAF/Rate Limit ծայրում, պաշտպանություն բոտից։

Egress-վերահսկողությունը PMS/KYC-ի վրա allow-list-ի և SLA-aronertas-ի վրա։


9) Տվյալները և խորհրդատվությունը

Մրցույթի մակարդակի ընտրությունը 'խիստ (payments) vs event.ru (կատալոգը/վարկանիշները)։

CQRS-ը քննադատական թիմերի ընթերցանությունն ու ուղղությունը բացահայտելու համար։

Medibox/Inbox-ը իրադարձությունների առաքման համար։

Կարդացեք առանց dountaima: expand-migrate-medract, կրկնակի ձայնագրություն MAJOR-փոփոխության ժամանակ։


10) Դիտարկումը (Observability) SLA-ի տակ

Կողպեքների միջով հետքեր 'հարաբերակցություն «trace _ id» գործընկերոջ/տարածաշրջանի/API տարբերակի հետ։

SLO-dashbords burn-rate, «եղանակը» տարածաշրջաններով և պրովայդերներով։

Ալերտները ախտանիշներով, ոչ թե ախտանիշներով-նատրիումի (ոչ թե CPU, այլ R99/սխալ)։

Inthet.ru: Արտաքին ստուգումներ թարգետի երկրներից (TR, RF, EU...)։

Աուդիտը և հաշվետվությունները 'SLI/SLO էքսպորտը ավստրիական պորտալին։


11) Անվտանգությունն ու կոմպլենսը

Ցանցերի և գաղտնի կառավարման (KFC/Vance)։

Թռիչքի կոդավորումը/հանգիստ, PAN/PII։

Դերերի հասանելիության քաղաքականությունը կիսագնդի/վիրահատության համար։

Լոգները անփոփոխ են (WORM) և rentenshn զբոսաշրջիկների համար։

Կարգավորիչ 'պահպանումը տարածաշրջանում, հաշվետվությունները, SLA-ի կատարման ապացուցումը։


12) FinOps: SLA 'որպես արժեքի վարորդ

Դրեք SLO-ի նշանավորման գինը 'որքա՞ ն արժե + 0։ հասանելիության 01 տոկոսը։

Ավելացրեք գագաթնակետային պատուհանները, մի փչացրեք մշտական ուժը։

Right-sizing և «spot որտեղ կարող եք» ֆոնային խնդիրների համար։

Քվոտաները և բյուջեները ուրվագծերում, թույլ մի տվեք «անվճար» քայքայումը։


13) Հուսալիության փորձարկում

GameDay/Chaos-նստաշրջան 'AZ/PSA անջատումը, հերթերի ուշացումը, BGP-ի բացումը։

DR-drili: Ռուսական տարածաշրջանների կանոնավոր դասընթացը RTO նպատակներով։

Load & Soak-ը երկար շեղումներ է, որոնք ունեն իրական պրոֆիլներ։

Replay-2019 'հայտնի ֆեյլների գրադարան և վերարտադրման ջութակներ։


14) SLA պրոցեսորի կողմը

SLO-ի կատալոգը սեփականատերն է, բանաձևը, մետրերը, աղբյուրները, ալերտները։

RFC/ADR-ի միջոցով փոփոխությունները 'ազդեցության գնահատումը error budget-ի վրա։

Հետմորտեմներ 'ճարտարապետության և ռանբուկի բարելավում, SLO գյուղը։

Գործընկերների հետ հաղորդակցությունները 'հաղորդագրություններ, կարգավիճակ-էջ, planned maintenae։


15) SLI/SLO/2019 օրինակները

15. 1 Բանաձևը


SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек

15. 2 SLO-ի օրինակը Power API-ի համար

Հասանելիություն (30 օր): 99։ 95%

P95 endpointa '/v2/payouts/create '35350 ms

5xx (սայթաքող 1 ժամ): <0։ 3%

Webhook delivery ≤ 60 сек (P99): ≥ 99. 9%

RPO դրամապանակի համար ՝ 3660 վայրկյան, RTO 355 րոպե

15. 3 SLA զեկույց (գոյատևումը)

Մոսկվա: 99։ 97% (SLO 99. 95%) +

Խախտումներ ՝ երկու դրվագ RF ոլորտում PMS թայմաուտների պատճառով (միասին 8 րոպե)։

Միջոցները 'ավելացված է smart-routing կոդերով, ավելանում է warm pool-ը PMS-B-ին։


16)

1. Որոշվում են քննադատական օգտագործողական ճանապարհները և համապատասխան SLI-ն։

2. SLO 30/90 օրվա ընթացքում + error budget policy։

3. Բազմամասնությունը և DR պլանը RTO/RPO նպատակներով, փոխանցեցին։

4. Delnthetics-ից, per-region/per-PSA-ից։

5. Կայունության արտոնագրերը ՝ circuit breaker, backpressure, idempotency։

6. Դեգրադացիայի քաղաքականությունը և feature flags-ը անջատված ֆիչի համար։

7. FinOps: Հավասարակշռության բյուջեներ, պիկի կանխատեսում, warm poope։

8. Անվտանգություն 'սեգմենացիա, ծածկագրում, աուդիտ։

9. SLA-ի իրականացումը գործընկերների համար, հաղորդակցման գործընթացը։

10. Հետադարձ հայացքները և SLO-ը յուրաքանչյուր 1-2 զանգվածի։


17) Anti-patterna

Խոստացեք SLA-ն առանց չափված SLI-ի և թափանցիկ հաշվարկման մեթոդների։

Հաշվել «հյուրանոցների մուտքի» հասանելիությունը, անտեսելով դարպասը/պրովայդերը։

Ապավինել միայն միջին լատենտին 'անտեսելով P99 պոչը։

DR «թղթի վրա», իրական դասընթացների բացակայությունը։

«Հավիտենական» ռեսուրսները առանց սահմանների, մեկ զեկույց կանդրադառնա։

Խառնել արձանը և ծանր վերլուծությունը մեկ կլաստերում/BD-ում։


18) Արդյունքը

SLA-ի տակ ամպային ճարտարապետությունը տեխնոլոգիական պաթոգենների համադրություն է (multi-AZ/region, մեկուսացում, ձախողված տվյալներ), գործընթացներ (SLO, error budget, DR-drili) և տնտեսությունը (FinOps)։ Թույլ տվեք ինքներդ ձեզ իրավունք տալ կանխատեսվող ձախողումների. Փորձարկեք անկայունությունը, չափեք պերցենտները, սահմանափակեք «պայթուցիկ շառավիղը» և բացահայտ հաղորդակցվեք։ Այդ ժամանակ SLA խոստումները կդառնան ոչ թե մարքեթինգ, այլ ինժեներական պրակտիկայի կառավարվող։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։