Վիրահատական դաշնամուր
(Բաժին ՝ Վիրահատություններ և կառավարում)
1) Նշանակումներ և սկզբունքներ
Վիրահատական դաշույնը «մեկ պատուհան» է պլատֆորմի առողջության և գործողությունների ընդունման համար։ Այն համախմբում է մետրերը, իրադարձությունները, ալտերտերը և բիզնես ցուցանիշները օգտագործողի դերի համատեքստում (SNE, Dist, Finance, Compliance, Suplics, Գործընկերներ)։
Սկզբունքները
Actionable by design: Յուրաքանչյուր տեսարան ունի գործողության կոճակ (rollback, pauze, re-run, re-rope)։
Role-a.ru: Դետալիզացիայի իրավունքները և մակարդակները կախված են դերից/tenault/տարածաշրջանից։
Source-of-truth: թվերը համընկնում են բիլինգի/ամսագրերի/քվիտանների հետ։
Near-real-time + պատմականությունը 'վայրկյաններ/րոպե 2019, ամիսներ/տարիներ միտումների համար։
Intainability: ցանկացած ագրեգատ տեղի է ունենում մինչև հում իրադարձությունը «trace _ id» -ի հետ։
2) Դերեր և սցենարներ (ո՞ վ և ինչու է գալիս)
MSE/Պլատֆորմ ՝ հասանելիություն, p50/p95/p99, սխալ/retray, capacity, cost per 1k իրադարձություններ։
Ապրանք/Վիրահատություն: E2E-Success Rate, փոխադարձություն, գործընկերների քաղցկեղի, ֆիչեֆլագի ժամանակը։
Ֆինանսներ/FinOps: Եկամուտներ/COGS/CM մեկ, egress/ingress, բյուջեներ և գլխարկներ, շեղումներ։
Կոմպլանենս/Անվտանգություն ՝ քվիտանիա/ստորագրություն, PII հարցումներ, SoD խախտումներ, ռեցերտիայի կարգավիճակ։
Supert/CS: Tikets, MTTA/MTTR, SLA-ի և տարածաշրջանների հերթը։
Գործընկերներ/Թենանտներ 'սեփական SLO-ներ, webhuks, usage և քվոտաներ։
3) North Star և հիմնական SLI/SLO
North Star: E2E Success Rate-ը կրիտիկական երթուղիներով յուրաքանչյուր տարածաշրջանում p95-ում։
SLI (օրինակ)
Per-ալիքի/տարածաշրջանի հասանելիությունը։
P50/p95/p99 լատենտ։
Error-rate-ը և գետերի մասը։
Webhuks-ի հաջողությունը (% քվիտանացիաներով)։
1k իրադարձությունների արժեքը և egress/ingress միավորով։
Պատվերը ՝ MTTA, MTR, error-budget burn։
SLO (օրինակ)
Թիվ 99 հասանելիությունը։ 95 %/տարածաշրջանը/ջրանցքը։
p95 35120 ms (վիտրինա), 24250 ms (24kout/porte)։
Webhuks-ի հաջողությունը 99։ Հինգ տոկոսը հինգ-2019 համար պատուհանը։
Winte-ի և wwww.kout = 0 (241 minor unit ըստ բաշխման կանոնների)։
P1-10 րոպե արձագանքի ժամանակը, MTTR 3560 ռուբլիներ
4) Դաշբորդի տվյալների ճարտարապետությունը
Իրադարձական անվադողեր 'հեռուստացույց (traces/metrance/logs), բիզնես լիդենտներ, բիլինգ, կոմպլեքս։
Սթրիմ/ագրեգացիա 'T + 5s/T + 1m near-real-time; CDC/www.box երաշխավորված առաքման համար։
Մոսկվա: Time-series (օպտիկա), OLAP (երկար պատմություն), WORM ամսագրեր (աուդիտ)։
Սեմանտիկ շերտը 'մետրի բառարանը, չափման միավորները, նորմալիզացիան տարածաշրջաններում և տենանտներում։
Լինկը հումքի վրա 'www.ill-down մինչև «trace _ id »/« event _ id» և ստորագրություններ (receipt _ hash)։
5) Ինտերֆեյսի և վիջետների դիզայնը
Համաշխարհային գլխարկ 'ֆիլտրեր (ժամանակ, տարածք, տենանտ, արտադրանք, միջավայր), վիճակի ցուցանիշներ։
Սալիկները (KPIs): E2E Success, հասանելիություն, p95, error-rate, cost/1k, egress։
Գծապատկերներ ՝ spark.ru միտումներ, heat-map տարածաշրջաններում, պերցենտալ գրաֆիկներ։
Աղյուսակներ ՝ լավագույն սխալները, դեգրադացիայի գործընկերները, քվոտաների ավելցուկը, անկանխիկ միջադեպերը։
Գործողությունների հատվածները ՝ «Դադա պրոմո», «Fichi», «Բարձրացնել քվոտան», «Վերադարձնել առաքումը»։
Exprest-help: հուշումներ մետրիկայի/մեթոդիկայի մասին և SLO-ի հետ կապը։
6) Dashbord մոդուլները (առաջարկվող հավաքածու)
1. Պլատֆորմի առողջությունը 'հասանելիություն/լատենտ/սխալ, burn-down error-բյուջե։
2. Գործընկերները 'վեբհուկի կարգավիճակը, քվիտանիան, գաղափարական դուբլին, lag հերթը։
3. Dikout & Gay: Vitrine www.kout-ը համապատասխանում է, «fx _ version», «tax _ rule _ version», հրաժարվող-քեյսերը։
4. Բովանդակություն/Lenty: Հրատարակման ժամանակը, քեշի/անվասայլակի սխալները, freshness-ը։
5. RTP & Limits (եթե կիրառելի է) 'թեոր։ vs observed RTP, limits, էքսպոզիա։
6. FinOps: COGS/միավորը, egress/ingress, compation/storage, բյուջեներ/kap-ալերտներ։
7. Մոսկվա/Compli.ru: SoD, JIT, MFA, ստորագրված վիրահատություններ, PII հարցումներ և ամսագրեր։
8. Super.ru: Հերթերը, MTTA/MTTR, պատճառները, ռունբուկները։
9. Rele.ru/Feature Flags: ածխաջրածինների արձաններ, կանարեկային տարածքներ, ռեգրեսիայի ավտոսրահը միջադեպերի հետ։
10. Experiments: A/B guardrails, ֆիչի ազդեցությունը SLI/ROI վրա։
7) Ալերտա, ռունա և էսկալացիա
P1-P3 մակարդակի ալտերտերը աղմուկով և deduplication համաձայն «trace _ id»։
Avto-runbuks: Երբ աշխատում եք 'ստուգումներ/ֆիքսներ (մաքրում, ռոտինգի փոխակերպում, դադար)։
Էսկալացիա ՝ 24 247, SLO պատասխանը, ալիքները (chat/voice/SMS), «կարմիր կոճակը»։
Post-incident: ձևանմուշները կապված են պատճառահետևանքային կապերի և action items-ի հետ։
8) Բազմաբնույթ և multi-tenae
Կտրվածքներ ՝ շրջան/տենանտ/ջրանցք/պրովայդեր, անկախ SLO և բյուջեներ։
Վստահության գոտիները 'PII/ֆինանսները տեսանելի են միայն համապատասխան ոլորտներում, մնացածը ՝ ագրեգատները։
Cost-a.ru: Հավասարապես p95; օպտիմիզացման առաջարկություններ։
9) Անվտանգությունն ու գաղտնիությունը
RBAC/ABAC 'տեսանելիություն և գործողություններ դերերով։ ReBAC-ը ապրանքի/տենանտի սեփականության համար։
Ստորագրություններ և քվիտանտներ 'ֆինանսական/քննադատական իրադարձությունների համար' հեշի և DSSE-քվիտանիա։
PII-հիգիենան 'թունավորում, դիմակավորում, հասանելիություն միայն հաստատված ջոբայի միջոցով։
Աուդիտ 'WORM ամսագրեր' գենդերային/դերերի/սահմանաչափերի փոփոխության, վերարտադրման համար։
10) Այս մետրի մոդելը (օրինակ)
`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`
`dim` `{region, tenant, product, provider, version, environment}`
`point` `{metric, value, ts, dims{}, trace_id, signature?}`
`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`
`slo` `{name, target, window, burn_rate, owners[], runbook_url}`
`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`
11) API/webhuks dashbord
«POST/ingest/metr.ru» - մեթրիկի ընդունումը (սխեմա, սահմաններ, վավերացում)։
«POST/ingest/events» - բիզնես իրադարձություններ (տարբերակներ/ստորագրություններ)։
`GET /kpis? www.ters... "- վիջետների միավորներ։
"GET/traces/+ trace _ id + - խորը պտտումը։
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.
12) Տվյալների և թեստերի որակը
Windowrac.ru: Սխեմաներ և վալիդացիա ընդունման վրա, տարբերակումը («expand demigrate nowract»)։
Աննոմալիա 'անցքերի/ցատկների, «flatom »/» disise» շեմերը։
Սեմպլյացիան 'high-QPS-ի համար մեթրիկը սայթաքուն է, պահպանելով ռեպրեսենտիվությունը։
Backfill: անվտանգ հետադարձ բեռնումներ, որոնք ունեն տարբերակի նշումներ։
13) Դաշբորդի մետրերը (մետրիկ)
UI/API 3599 հասանելիությունը։ 9%.
Latency p95 հարցումը API-ի համար 300 մզ է։
Completeness-ը այն աղբյուրների մասն է, որոնք ուղարկել են տվյալները պատուհանի մեջ, թիվ 99։ 5%.
Freshness: Lag wwww.30
Medrectness: Անհամապատասխանություն 490-ի ստանդարտ զեկույցների հետ։ 1%.
14) Տնտեսագիտությունը և FinOps-ը Դաշբորդում
Cost per 1k իրադարձությունները պրովայդերի/տարածաշրջանի բաժանման հետ։
Egress/Ingress-ը ջերմային քարտեզներ է, քեշինգի/ռոտինգի առաջարկություններ։
Բյուջեներ/kap-alerts: 80/90/100 տոկոսը, ավտոտրանսլինգը և գերակայությունը։
15) Հասանելիությունը և UX-ը
Գիշերային թեման, համառոտ ստորագրությունները, կարգավիճակների սրբապատկերները։
Ստեղնաշարային ռոտացիա և a11y 'հակադրություն, alt, aria-2019։
Պահպանված ճնշումները ՝ «DRE հերթապահություն», «ֆինանսներ», «գործընկեր»։
Դիպուկահարները և շարինգը 'շտկել վիճակը ֆիլտրերով և հղումով/ֆոսֆով։
16) Ռիսկեր և հակատիպեր
Dash-sprawl: 20 տարբեր dashbords առանց մեկ բառարանի։
Vanity-metrics: գեղեցիկ գրաֆիկներ առանց SLO/գործողությունների։
Թվերի անհամապատասխանությունը 'հաշվետվություններ www.biling/աուդիտ։
Աղմկոտ ալերտներ 'հոգնածություն և բաց թողեք P1։
Www.ill-down-ի բացակայությունը 'անհնար է հասնել առաջնային և պատճառներ։
17) Chek-Show-Show-
- Որոշել դերերը և սցենարները. համաձայնեցնել North Star և SLI/SLO-ը։
- Վերցրեք բառարանը և միավորները։ ձևավորել www.rac.ra.ru։
- Տեղադրեք ingest (metram/events/traces), OLAP և WORM աուդիտ։
- Իրականացնել հիմնական մոդուլները (առողջություն, գործընկերներ, www.kout, FinOps, Lenta.ru)։
- Միացրեք ալտերտերը ռունաների և շարժասանդուղքների հետ։ «կարմիր կոճակը»։
- Ավելացնել գործողությունները 'rollback/pause/re-rope/raise-limit։
- Կառուցել heat-map տարածաշրջաններում/tenants; ֆիլտրեր և ճնշումներ։
- Վերափոխել համապատասխան թվերը բիլինգի/քվիտանտների հետ։
- Խաղ-օր (GameDay) 'պրովայդերի անջատումը, ռետրոյի լավինը, գների վերակենդանացումը։
- Ամեն շաբաթ SLO և post-mortem որակը։
18) RACI
19) FAQ
Կարո՞ ղ ենք փոխարինել բոլոր զեկույցները։
Ոչ։ Դաշբորդը 'կրակելու և գործողությունների համար։ ֆորմալ հաշվետվությունները/աուդիտը առանձին արտեֆակտներ են։
Քանի՞ «իրական ժամանակ» է անհրաժեշտ։
Մրցույթի համար 'վայրկյաններ/րոպե, տնտեսության համար' րոպե/ժամ; ներդաշնակությունը կարևոր է, ոչ թե բացարձակ «առցանց քիթը»։
Ինչպե՞ ս կարող ենք պայքարել ալերտների աղմուկի դեմ։
SLO կողմնորոշված պայմանները, ագրեգացիան, deduplication «trace _ id», գերակայությունը և auto-runbuki։
Ինչպե՞ ս կարելի է ստուգել մետրի ճիշտությունը։
Ստանդարտ զեկույցների, թեստային ֆիդների, վերահսկողական նմուշների և WORM ամսագրերի հետ։
Ռեզյումե 'Վիրահատական տախտակը ոչ թե «գեղեցիկ տախտակ» է, այլ կառավարման գործիք' մեկ SLI/SLO, ինտերֆեյսի գործողություններ, ուղղություն դեպի հումք և խիստ համաձայնություն բիլինգի և աուդիտի հետ։ Կառուցեք այն իրադարձական ճարտարապետության վրա, տվեք համատեքստը դերերով, ավելացրեք ռունաներ և էսկալացիաներ, և կստանաք կանխատեսելի վիրահատություններ, արագ լուծումներ և կայուն աճ։