SLA/OLA պրովայդերների հետ
1) Տերմիններ և սահմաններ
SLI-ն չափված ցուցիչ է (հասանելիություն, p99 լատենտ, հաջողությամբ մշակված webhuks, RPO/RTO)։
SLO-ն SLI-ի նշանակությունն է չափման պատուհանի համար (օրինակ ՝ 99։ 9 %/30 օր)։
SLA-ն իրավաբանորեն պարտավորեցնող փաստաթուղթ է (SLO + ընթացակարգ + 2019)։
OLA-ը ներքին նպատակներն ու գործընթացներն են, որոնք համապատասխանում են SLA-ի պահպանմանը։
UC (Underpinning Corract) - «ենթախումբ» երրորդ դեմքերով (ջրանցքներ, COD, CDN և այլն)։
Սահմանները 'հստակ առանձնացրեք պրովայդերի պատասխանատվության ոլորտը (ամպ/WAF/CDN/ստացիոնար դարպաս/KYC) ձեր գոտուց (կոդ, ֆոսգ, հաճախորդներ)։
2) Քննադատության մատրիցը և մոդելի ընտրությունը
Սեգմենտացրեք պրովայդերներին բիզնեսի վրա։
Մատրիցից կախված է SLA խորությունը, ստուգումների ծավալը և OLA/UC պահանջները։
3) Մետրերը և չափման պատուհանները
Հասանելիությունը (Availability) այն ժամանակի մասն է, երբ ծառայությունը կատարում է հարցումներ համաձայն։
Լատենտ ՝ p95/p99 հիմնական վիրահատությունների համար։ «դանդաղ հաջողությունը» հաշվի է առնվում։
Տվյալների ցանկը ՝ RPO (տվյալների առավելագույն թույլատրելի կորուստ) և RTO (վերականգնման ժամանակը)։
Թողունակություն/լիմիտներ 'երաշխավորված քվոտաներ (RPS/MBps)։
Ինտեգրման որակը 'առաքված webhuks-X մինի մասնաբաժինը, 2xx-պատասխանները, խոհարարները և dedupliations-ը։
Չափման պատուհանը 'պոտենցիալ/սայթաքող 30 օր, բացառություններ (պլանավորված աշխատանքներ) սահմաններով։
«Արտաքին հասանելիության» բանաձևը (օրինակ)
`Availability_ext = 1 − (Downtime_confirmed_outages / Total_minutes_in_window)`
Որտեղ www.age-ը ապացուցված արտաքին մոնիտորինգի վիճակն է, ոչ միայն պրովայդերի կարգավիճակով։
4) SLA պարունակությունը (ձևանմուշներ)
1. Առարկան և տարածքը (ծառայություններ, տարածաշրջաններ, API տարբերակներ)։
2. Սահմանումներ (SLI/SLO, «պատահականություն», «պլանավորված աշխատանք», «ֆորս-մաժոր»)։
3. Մրցույթի նպատակները (SLO) հարցումների և տարածքների կատեգորիաներով։
4. Ստուգում և ապացույցներ. Ինչպե՞ ս են այն մեթոդները, որոնց սենսորները, ինչ պարբերականությամբ։
5. Պատահականներն ու էսկալացիաները 'ջրանցքներ, արձագանքման ժամկետներ/հաղթանակներ, դերեր։
6. Գրանցում ՝ վարկեր/տուգանքներ/բոնուսներ, շեմեր, բանաձևեր։
7. Անվտանգությունը և գաղտնիությունը 'DPA, ծածկագրում, ամսագրեր, խախտումների ծանուցումներ։
8. Փոփոխությունները հետևյալն են ՝ դեպրեքսներ, նոտաների պատուհան, համատեղելիություն։
9. Շարունակականությունը և DR: RPO/RTO, վերականգնման թեստեր։
10. Աուդիտ և համադրություններ 'աուդիտի, հաշվետվությունների, հավաստագրման իրավունք։
11. Exit Plan 'տվյալների արտահանումը, ժամկետները, ձևաչափը, օգնությունը խմբագրության մեջ։
12. Իրավաբանական դիրքերը 'միգրացիա, ֆորս մաժոր, գաղտնիություն, գործողության ժամանակահատվածը։
5) Ձևակերպման օրինակներ (բեկորներ)
5. 1 Հասանելիություն և չափում
"Պրովայդերը ապահովում է 99։ Յուրաքանչյուր օրացուցային ամսվա հասանելիության 95 տոկոսը։ Հասանելիությունը չափվում է Մեքսիկայի արտաքին սինթետիկ դիտարկմամբ 243 տարածաշրջաններից 241-ի ընդմիջումով: Գրանցված անհասանելիությունը 242 տարածաշրջաններում միաժամանակ համարվում է SEV2 մակարդակի պատահար և հաշվարկվում է Downtime-ում։
5. 2 Հիմնական API լատենտ
"POST/POST/POST/payments/authorize '450 ms ամսվա օրվա 95 տոկոսը։ Շեմին գերազանցող հարցումների մասնաբաժնի համար զեկույցը բացատրվում է պատճառների վերլուծությամբ"։
5. 3 Պատահականություն և էսկալացիա
"S1: akk 2415 րոպե, apdeyts յուրաքանչյուր 30 րոպե, նպատակային վերականգնումը 242 ժամ; S2: ack 2430 րոպե, apdeits 3660 րոպե; S3: հաջորդ աշխատանքային օրը։ Ալիքները ՝ հեռախոսը 24-7, չաթ-բրիջը, email-ը։
5. 4 Մոսկվա (վարկեր)
If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%
Վարկերը չեն բացառում վնասը նվազեցնելու այլ եղանակներ, երբ կոպիտ են։
5. 5 Դեպրեքսներ և համատեղելիություն
"Առնվազն 180 օր ծանուցում փոփոխության համար, որոնք խախտում են համատեղելիությունը։ Զուգահեռ աջակցություն vN և vN + 1 առնվազն 90 օր"։
5. 6 Ելք (Exit)
"Էլեկտրացումից 30 օրվա ընթացքում պրովայդերը անվճար տալիս է տվյալների ամբողջական արտահանումը Parquet/JSON + սխեմաների մեջ։ լրացուցիչ վճարային ծառայություններ' X.-ի սակագնի համաձայն, պատճենների ոչնչացումը հաստատվում է ակտով"։
6) OLA 'ներքին աջակցություն արտաքին SLA-ի համար
OLA-ի օրինակը «Պլատֆայի» և «Վճարման թիմի» միջև
Նպատակներ ՝ p99 gateway 24200 ms, error rate 240։ 3%, DR: RPO 0, RTO 30 հազար
Պատասխանատվություն ՝ MSE-on-call, 24 247; ընդհանուր dashbords և alerta։
Գործընթացները 'քաոս-սմուքը թողարկումներում, PR-ում, շեյդինգի էվրիստիկան։
Գեյթ 'Deploy բլոկը SLO/xaoc-թեստի ձախողման ժամանակ։ պարտադիր թարմացում runbook.
7) Մոսկվան և ապացույցները
Սինթետիկ 'արտաքին փորձարկումներ (HTTP/TCP), օգտագործողի ճանապարհը, «դանդաղ հաջողությունը»։
RUM 'իրական օգտագործողի ստանդարտ, որպեսզի ապացուցի ազդեցությունը։
Հարաբերակցություն ՝ wwww.dprovider ', «region», «api _ method», «incident _ id»։
Արտեֆակտներ ՝ սկրինշոտներ/թրեյսներ/լոգներ, KPI արտահանումը, շարժասանդուղքների ժամանակագրությունը։
CI/CD (կեղծ-Rego) մինի-քաղաքականությունը
rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}
8) Պատահականներն ու փոխազդեցությունը
Պլեյբուկ
1. SEV դասակարգումը, war-room բացահայտումը, IC նշանակումը։
2. Պրովայդերի ծանուցումը «տաք կոդով», արտեֆակտների փոխանցումը։
3. Շրջանցիկ ռեժիմները/ֆիչի դրոշները (stale, sheding, rate-cap)։
4. Միասին թայմլայնը, վերականգնումը։
5. Հետմորտը + գործողություն է 'լիմիտների եզրերի նորարարումը, պաշտպանությունը, ռուսական երթուղիները։
6. SLA վարկերի նախաձեռնումը, աղյուսակը բիլինգում։
9) Անվտանգություն և DPA
DPA/մասնավորեցումը '108/108 դերերը, տվյալների կատեգորիաները, կոդավորման հիմքը, վերամշակման ժամկետները/նպատակները, ենթահամակարգերը և դրանց SLA-ը։
Կոդավորումը ՝ TLS1։ 2+, PFS; «Հանգստի տվյալները», բանալիների կառավարումը (KFC/HSM), միգրացիան։
Աուդիտ 'հասանելիության լույսեր, խախտումների մասին ծանուցումներ 72 ժամ, պենտեստային հաշվետվություններ' խնդրանքով։
Տեղայնացում 'պահեստավորման տարածք, առանց համաձայնության հեռացման արգելք։
10) Supply Chain-ը և համատեղելիությունը
SBSA/խոցելիությունը 'CVIM-շեմերի քաղաքականությունը և ուղղման ժամանակահատվածը (քննադատում էր 387 օր, high 3614)։
API-ի համատեղելիությունը 'պայմանագրային թեստեր, «ավազներ» և կայուն ֆիքսերներ։
Պրովայդերի փոփոխությունները 'վաղ ռելիզային նոտաները, ավելի բարձր/բետա պատուհանները, հակառակը։
11) Բազմակողմանիությունը և կեղծավորությունը
Action/Action: ավելի բարդ և ավելի թանկ, բայց ավելի բարձր հասանելիությունը (սեղմեք կոնսիստենտությունը)։
Active/Passive: Սառը/տաք պահուստ, DR-ի ռուսական դասընթացները։
Աբստրակցիաներ/ադապտերներ 'մեկ պայմանագիր, առողջության/արժեքի/ածխածնի գործոնի միկրոակտիվացում (եթե ռելեվանտալ)։
Հիբրիդային/առևտրային պայմանները 'հանդուրժողականությունը, տվյալների դուրսբերման սահմանափակումը, egress արժեքը։
12) Exit պլանը և պարբերական փորձերը
Տվյալների/սխեմաների կատալոգը և ծավալները։
MSK/API տեղափոխության սցենարը (առնվազն second source)։
«Չոր ելքի» թեստը 'էքսպորտը/ռուսական, վերականգնումը, ինվարանտների ստուգումը։
Դուրս գալուց հետո պահեստավորման/տերմինալի իրավաբանական ժամկետները։
13) Պայմանագրի թեստերը և www.orm.ru
API-ի փորձարկումները 'պոզիտիվ/բացասական, լիմիտներ, սխալներ և ռետրաններ։
Իրադարձությունների/webhuks 'ստորագրություն/ժամանակ/dedup/կրկնություններ։
Պերֆ-բազլիններ ՝ p99, թողունակություն; ռելիզային թեստեր պրովայդերի ելույթի մասին։
Քրոս շրջան 'մեկ տարածաշրջանի դեգրադացիան չպետք է խախտի SLO գլոբալ։
14) Anti-patterna
SLA «կարգավիճակի էջում» առանց արտաքին գործընկերների։
Նույն նպատակները բոլոր տարածաշրջանների/էնդպոինտների համար։
Աուդիտի և մանրամասն ամսագրերի իրավունքների բացակայությունը բացատրվում է։
Ոչ OLA/UC-ը արտաքին պարտավորություններ է տալիս ներսում որևէ բան անել։
Անորոշ exit պլանը հաստատեց պատիժը։
«Տուգանքները միայն վարկերով» առանց իրավունքների դադարեցնել համակարգված խախտումների ժամանակ։
Դեպրեքսները առանց ռուսական պատուհանի։
15) Ճարտարապետի չեկի թերթիկը
1. Որոշված SLI/SLO հիմնական ֆլոուի և տարածաշրջանների համար։
2. Ընտրվել է արտաքին մոնիտորինգի մեթոդը և ապացույցային հիմքը։
3. SLA-ում գրված են միջադեպեր, էսկալացիա, պլանային աշխատանքների պատուհաններ և բացառությունների սահմանափակում։
4. Կա վարկային սանդղակ/տուգանքներ և N խախտումների դեպքում էներգիայի իրավունք։
5. DPA/անվտանգություն 'ծածկագրում, ամսագրեր, ծանուցումներ, ենթահամակարգեր, տեղայնացում։
6. Պայմանագրային թեստեր և ավազաքարեր։
7. Ներքին OLA/UC-ն ապահովում է արտաքին SLO-ի կատարումը։
8. DR: Հայտարարված RPO/RTO, կատարվում են դասընթացներ, կան հաշվետվություններ։
9. Exit պլանը 'էքսպորտը, ժամանակը, «չոր ելքի» պրակտիկան։
10. CI/CD խաղացողները արգելափակում են օրինագծերը, որոնք բարձրացնում են SLA խախտման վտանգը։
16) Մինի-օրինակներ (սկետչիներ)
16. 1 «Deplow Gate» քաղաքականությունը պրովայդերի ռիսկի վրա
yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"
16. 2 Էքսպորտը «ռուսական ապացույցներ»
bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '. {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl
16. 3 Ուեբհուկի պայմանագրային թեստը (կեղծ)
python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency
Եզրակացություն
SLA/OLA-ը ոչ միայն «իրավաբանական թուղթ» է, այլ ինտեգրման և որակի կառավարման ճարտարապետական մեխանիզմը։ Ճիշտ չափումները և պատուհանները, արտաքին կարգավորումը, պարզ դեղամիջոցները և դեղամիջոցները, ներքին OLA/UC-ը, խաղալիքները դելֆիններում, մուլտֆիլմերի մատակարարները և իրական exit պլանը վերածում են կախվածությունը պրովայդերներից 'վերահսկվող, չափված և տնտեսապես կանխատեսելի ձեր պլատֆորմի։