GH GambleHub

Վիրահատական դաշնամուր

(Բաժին ՝ Վիրահատություններ և կառավարում)

1) Նշանակումներ և սկզբունքներ

Վիրահատական դաշույնը «մեկ պատուհան» է պլատֆորմի առողջության և գործողությունների ընդունման համար։ Այն համախմբում է մետրերը, իրադարձությունները, ալտերտերը և բիզնես ցուցանիշները օգտագործողի դերի համատեքստում (SNE, Dist, Finance, Compliance, Suplics, Գործընկերներ)։

Սկզբունքները

Actionable by design: Յուրաքանչյուր տեսարան ունի գործողության կոճակ (rollback, pauze, re-run, re-rope)։

Role-a.ru: Դետալիզացիայի իրավունքները և մակարդակները կախված են դերից/tenault/տարածաշրջանից։

Source-of-truth: թվերը համընկնում են բիլինգի/ամսագրերի/քվիտանների հետ։

Near-real-time + պատմականությունը 'վայրկյաններ/րոպե 2019, ամիսներ/տարիներ միտումների համար։

Intainability: ցանկացած ագրեգատ տեղի է ունենում մինչև հում իրադարձությունը «trace _ id» -ի հետ։

2) Դերեր և սցենարներ (ո՞ վ և ինչու է գալիս)

MSE/Պլատֆորմ ՝ հասանելիություն, p50/p95/p99, սխալ/retray, capacity, cost per 1k իրադարձություններ։

Ապրանք/Վիրահատություն: E2E-Success Rate, փոխադարձություն, գործընկերների քաղցկեղի, ֆիչեֆլագի ժամանակը։

Ֆինանսներ/FinOps: Եկամուտներ/COGS/CM մեկ, egress/ingress, բյուջեներ և գլխարկներ, շեղումներ։

Կոմպլանենս/Անվտանգություն ՝ քվիտանիա/ստորագրություն, PII հարցումներ, SoD խախտումներ, ռեցերտիայի կարգավիճակ։

Supert/CS: Tikets, MTTA/MTTR, SLA-ի և տարածաշրջանների հերթը։

Գործընկերներ/Թենանտներ 'սեփական SLO-ներ, webhuks, usage և քվոտաներ։

3) North Star և հիմնական SLI/SLO

North Star: E2E Success Rate-ը կրիտիկական երթուղիներով յուրաքանչյուր տարածաշրջանում p95-ում։

SLI (օրինակ)

Per-ալիքի/տարածաշրջանի հասանելիությունը։

P50/p95/p99 լատենտ։

Error-rate-ը և գետերի մասը։

Webhuks-ի հաջողությունը (% քվիտանացիաներով)։

1k իրադարձությունների արժեքը և egress/ingress միավորով։

Պատվերը ՝ MTTA, MTR, error-budget burn։

SLO (օրինակ)

Թիվ 99 հասանելիությունը։ 95 %/տարածաշրջանը/ջրանցքը։

p95 35120 ms (վիտրինա), 24250 ms (24kout/porte)։

Webhuks-ի հաջողությունը 99։ Հինգ տոկոսը հինգ-2019 համար պատուհանը։

Winte-ի և wwww.kout = 0 (241 minor unit ըստ բաշխման կանոնների)։

P1-10 րոպե արձագանքի ժամանակը, MTTR 3560 ռուբլիներ

4) Դաշբորդի տվյալների ճարտարապետությունը

Իրադարձական անվադողեր 'հեռուստացույց (traces/metrance/logs), բիզնես լիդենտներ, բիլինգ, կոմպլեքս։

Սթրիմ/ագրեգացիա 'T + 5s/T + 1m near-real-time; CDC/www.box երաշխավորված առաքման համար։

Մոսկվա: Time-series (օպտիկա), OLAP (երկար պատմություն), WORM ամսագրեր (աուդիտ)։

Սեմանտիկ շերտը 'մետրի բառարանը, չափման միավորները, նորմալիզացիան տարածաշրջաններում և տենանտներում։

Լինկը հումքի վրա 'www.ill-down մինչև «trace _ id »/« event _ id» և ստորագրություններ (receipt _ hash)։

5) Ինտերֆեյսի և վիջետների դիզայնը

Համաշխարհային գլխարկ 'ֆիլտրեր (ժամանակ, տարածք, տենանտ, արտադրանք, միջավայր), վիճակի ցուցանիշներ։

Սալիկները (KPIs): E2E Success, հասանելիություն, p95, error-rate, cost/1k, egress։

Գծապատկերներ ՝ spark.ru միտումներ, heat-map տարածաշրջաններում, պերցենտալ գրաֆիկներ։

Աղյուսակներ ՝ լավագույն սխալները, դեգրադացիայի գործընկերները, քվոտաների ավելցուկը, անկանխիկ միջադեպերը։

Գործողությունների հատվածները ՝ «Դադա պրոմո», «Fichi», «Բարձրացնել քվոտան», «Վերադարձնել առաքումը»։

Exprest-help: հուշումներ մետրիկայի/մեթոդիկայի մասին և SLO-ի հետ կապը։

6) Dashbord մոդուլները (առաջարկվող հավաքածու)

1. Պլատֆորմի առողջությունը 'հասանելիություն/լատենտ/սխալ, burn-down error-բյուջե։

2. Գործընկերները 'վեբհուկի կարգավիճակը, քվիտանիան, գաղափարական դուբլին, lag հերթը։

3. Dikout & Gay: Vitrine www.kout-ը համապատասխանում է, «fx _ version», «tax _ rule _ version», հրաժարվող-քեյսերը։

4. Բովանդակություն/Lenty: Հրատարակման ժամանակը, քեշի/անվասայլակի սխալները, freshness-ը։

5. RTP & Limits (եթե կիրառելի է) 'թեոր։ vs observed RTP, limits, էքսպոզիա։

6. FinOps: COGS/միավորը, egress/ingress, compation/storage, բյուջեներ/kap-ալերտներ։

7. Մոսկվա/Compli.ru: SoD, JIT, MFA, ստորագրված վիրահատություններ, PII հարցումներ և ամսագրեր։

8. Super.ru: Հերթերը, MTTA/MTTR, պատճառները, ռունբուկները։

9. Rele.ru/Feature Flags: ածխաջրածինների արձաններ, կանարեկային տարածքներ, ռեգրեսիայի ավտոսրահը միջադեպերի հետ։

10. Experiments: A/B guardrails, ֆիչի ազդեցությունը SLI/ROI վրա։

7) Ալերտա, ռունա և էսկալացիա

P1-P3 մակարդակի ալտերտերը աղմուկով և deduplication համաձայն «trace _ id»։

Avto-runbuks: Երբ աշխատում եք 'ստուգումներ/ֆիքսներ (մաքրում, ռոտինգի փոխակերպում, դադար)։

Էսկալացիա ՝ 24 247, SLO պատասխանը, ալիքները (chat/voice/SMS), «կարմիր կոճակը»։

Post-incident: ձևանմուշները կապված են պատճառահետևանքային կապերի և action items-ի հետ։

8) Բազմաբնույթ և multi-tenae

Կտրվածքներ ՝ շրջան/տենանտ/ջրանցք/պրովայդեր, անկախ SLO և բյուջեներ։

Վստահության գոտիները 'PII/ֆինանսները տեսանելի են միայն համապատասխան ոլորտներում, մնացածը ՝ ագրեգատները։

Cost-a.ru: Հավասարապես p95; օպտիմիզացման առաջարկություններ։

9) Անվտանգությունն ու գաղտնիությունը

RBAC/ABAC 'տեսանելիություն և գործողություններ դերերով։ ReBAC-ը ապրանքի/տենանտի սեփականության համար։

Ստորագրություններ և քվիտանտներ 'ֆինանսական/քննադատական իրադարձությունների համար' հեշի և DSSE-քվիտանիա։

PII-հիգիենան 'թունավորում, դիմակավորում, հասանելիություն միայն հաստատված ջոբայի միջոցով։

Աուդիտ 'WORM ամսագրեր' գենդերային/դերերի/սահմանաչափերի փոփոխության, վերարտադրման համար։

10) Այս մետրի մոդելը (օրինակ)

`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`

`dim` `{region, tenant, product, provider, version, environment}`

`point` `{metric, value, ts, dims{}, trace_id, signature?}`

`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`

`slo` `{name, target, window, burn_rate, owners[], runbook_url}`

`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`

11) API/webhuks dashbord

«POST/ingest/metr.ru» - մեթրիկի ընդունումը (սխեմա, սահմաններ, վավերացում)։

«POST/ingest/events» - բիզնես իրադարձություններ (տարբերակներ/ստորագրություններ)։

`GET /kpis? www.ters... "- վիջետների միավորներ։

"GET/traces/+ trace _ id + - խորը պտտումը։

Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.

12) Տվյալների և թեստերի որակը

Windowrac.ru: Սխեմաներ և վալիդացիա ընդունման վրա, տարբերակումը («expand demigrate nowract»)։

Աննոմալիա 'անցքերի/ցատկների, «flatom »/» disise» շեմերը։

Սեմպլյացիան 'high-QPS-ի համար մեթրիկը սայթաքուն է, պահպանելով ռեպրեսենտիվությունը։

Backfill: անվտանգ հետադարձ բեռնումներ, որոնք ունեն տարբերակի նշումներ։

13) Դաշբորդի մետրերը (մետրիկ)

UI/API 3599 հասանելիությունը։ 9%.

Latency p95 հարցումը API-ի համար 300 մզ է։

Completeness-ը այն աղբյուրների մասն է, որոնք ուղարկել են տվյալները պատուհանի մեջ, թիվ 99։ 5%.

Freshness: Lag wwww.30

Medrectness: Անհամապատասխանություն 490-ի ստանդարտ զեկույցների հետ։ 1%.

14) Տնտեսագիտությունը և FinOps-ը Դաշբորդում

Cost per 1k իրադարձությունները պրովայդերի/տարածաշրջանի բաժանման հետ։

Egress/Ingress-ը ջերմային քարտեզներ է, քեշինգի/ռոտինգի առաջարկություններ։

Բյուջեներ/kap-alerts: 80/90/100 տոկոսը, ավտոտրանսլինգը և գերակայությունը։

15) Հասանելիությունը և UX-ը

Գիշերային թեման, համառոտ ստորագրությունները, կարգավիճակների սրբապատկերները։

Ստեղնաշարային ռոտացիա և a11y 'հակադրություն, alt, aria-2019։

Պահպանված ճնշումները ՝ «DRE հերթապահություն», «ֆինանսներ», «գործընկեր»։

Դիպուկահարները և շարինգը 'շտկել վիճակը ֆիլտրերով և հղումով/ֆոսֆով։

16) Ռիսկեր և հակատիպեր

Dash-sprawl: 20 տարբեր dashbords առանց մեկ բառարանի։

Vanity-metrics: գեղեցիկ գրաֆիկներ առանց SLO/գործողությունների։

Թվերի անհամապատասխանությունը 'հաշվետվություններ www.biling/աուդիտ։

Աղմկոտ ալերտներ 'հոգնածություն և բաց թողեք P1։

Www.ill-down-ի բացակայությունը 'անհնար է հասնել առաջնային և պատճառներ։

17) Chek-Show-Show-

  • Որոշել դերերը և սցենարները. համաձայնեցնել North Star և SLI/SLO-ը։
  • Վերցրեք բառարանը և միավորները։ ձևավորել www.rac.ra.ru։
  • Տեղադրեք ingest (metram/events/traces), OLAP և WORM աուդիտ։
  • Իրականացնել հիմնական մոդուլները (առողջություն, գործընկերներ, www.kout, FinOps, Lenta.ru)։
  • Միացրեք ալտերտերը ռունաների և շարժասանդուղքների հետ։ «կարմիր կոճակը»։
  • Ավելացնել գործողությունները 'rollback/pause/re-rope/raise-limit։
  • Կառուցել heat-map տարածաշրջաններում/tenants; ֆիլտրեր և ճնշումներ։
  • Վերափոխել համապատասխան թվերը բիլինգի/քվիտանտների հետ։
  • Խաղ-օր (GameDay) 'պրովայդերի անջատումը, ռետրոյի լավինը, գների վերակենդանացումը։
  • Ամեն շաբաթ SLO և post-mortem որակը։

18) RACI

ՏարածքըRACI
Բառարան/SLI/SLOPlatform AnalyticsCTOProduct, SRE, FinanceԲոլորը
Աղբյուրների իրականացումըData EngHead of DataSRE, SecurityProduct
Ալերտներ և ռունաներSRECTOProduct, FinOpsSupport
Անվտանգություն/գաղտնիությունSecurity/PrivacyCISO/DPOLegal, ComplianceԲոլորը
Ֆինանսական մետրերըFinOpsCFOProduct, DataԱուդիտ

19) FAQ

Կարո՞ ղ ենք փոխարինել բոլոր զեկույցները։

Ոչ։ Դաշբորդը 'կրակելու և գործողությունների համար։ ֆորմալ հաշվետվությունները/աուդիտը առանձին արտեֆակտներ են։

Քանի՞ «իրական ժամանակ» է անհրաժեշտ։

Մրցույթի համար 'վայրկյաններ/րոպե, տնտեսության համար' րոպե/ժամ; ներդաշնակությունը կարևոր է, ոչ թե բացարձակ «առցանց քիթը»։

Ինչպե՞ ս կարող ենք պայքարել ալերտների աղմուկի դեմ։

SLO կողմնորոշված պայմանները, ագրեգացիան, deduplication «trace _ id», գերակայությունը և auto-runbuki։

Ինչպե՞ ս կարելի է ստուգել մետրի ճիշտությունը։

Ստանդարտ զեկույցների, թեստային ֆիդների, վերահսկողական նմուշների և WORM ամսագրերի հետ։

Ռեզյումե 'Վիրահատական տախտակը ոչ թե «գեղեցիկ տախտակ» է, այլ կառավարման գործիք' մեկ SLI/SLO, ինտերֆեյսի գործողություններ, ուղղություն դեպի հումք և խիստ համաձայնություն բիլինգի և աուդիտի հետ։ Կառուցեք այն իրադարձական ճարտարապետության վրա, տվեք համատեքստը դերերով, ավելացրեք ռունաներ և էսկալացիաներ, և կստանաք կանխատեսելի վիրահատություններ, արագ լուծումներ և կայուն աճ։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։