Շղթաների և հանգույցների տեսանելիությունը
1) Խնդիրը և դիտարկման օբյեկտը
Շղթաների և հանգույցների տեսանելիությունը էկոհամակարգի կարողությունն է տեսնել, չափել և բացատրել միջանձնային հոսքերի վարքագիծը (108/իրադարձություններ/վճարումներ/CUS/բովանդակություն) և հանգույցները (օպերատորներ, ստուդիաներ/RGS, PMS/APM, KYC/AML պրովայդերներ, աֆիլատներ, ագրեգատորներ, ագրեգատորներ, ագրեգատորներ, stragragragram, stram-2019)։ Նպատակները
պատճառի միջով (կլինիկայից մինչև ինվոիս);
կանխատեսելի SLO և կառավարվող ռիսկ;
արագ RCA և ցածր MTTR;
ապացուցում (ստորագրված կամարներ, WORM-աուդիտ) հեռուստացույցի նվազագույն արժեքով։
2) Դիտարկման ուռուցքաբանությունը
Իրականում
`chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
Կանոնական իրադարձությունները
`click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
Ազդանշանների դասերը
Metr.ru (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (կառուցվածքային), Events (բիզնես), RUM/WORM (անփոփոխ)։
Բոլոր սխեմաները տարբերակվում են Schema Registry-ում։ ժամանակները 'UTC/RF-8601։
3) Տրանսպորտ և հարաբերակցություն
OpenTelemetry: Մեկ մետրիկ/logs/span ձևաչափ; TSDB/արտադրողները։
W3C Trace Express: «traceparent »/« tracestate» -ը հավաքվում է ռեդիրիտների, API, webhuks, անվադողերի միջոցով։
Idempotenty: «Idempotency-Key» կրիտիկական ճանապարհների վրա (վճարումներ/հետբանկեր)։
Exactly-once-ը իմաստալից է 'հեշի/կուրսորի պատմությունը, վեբհուկի կրկնապատկումը։
Exemplars: Մենք կապում ենք latency-ը հատուկ «trance Id» -ի հետ արագ RCA-ի համար։
4) SLI/SLO մոդելը և սխալների բյուջեները
RED (NTTR/դարպաս) ՝ Rate, Errors, Duration։
Golden Signals: latency, traffic, errors, saturation.
USE (ենթակառուցվածքը) 'Utilization, Saturation, Errors։
SLI/SLO (ուղեցույցներ) օրինակները
Ուեբհուկի '3599 առաքում։ 9 տոկոսը, p95-1-2։
Գործընկերների API: p95-150-300 ms, error rate 240։ 3–0. 5%.
Իրադարձությունների շարքը 'lag p95-200-500 ms; առաքումը 3699։ 9%.
Վճարումները/ARM: CR միջանցքում ռուսական; e2e հեղինակային իրավունքի X- ը։
KYC: pass-rate և SLA փուլերը միգրացիայի պրոֆիլների վրա։
System/SFU/CDN: e2e 2-3 s, packet loss 241 տոկոսը, aptaim 3699։ 9%.
Dashbords: Թարմություն 241-5 s; p95 render 241։ 5–2. 0 ս
Սխալների բյուջե 'մենք արձանագրում ենք ժամանակահատվածներ (օրինակ, 30 օր), սխալների տեսակներ (5xx, թայմաուտներ, SLO խախտումներ), www.bonus/malus և stop կոճակներ։
5) Dashbords 'շերտեր և արտեֆակտներ
1. Express Graph (wwww.ru շղթաներ) 'տեղաբանություն, rps/eps, p95/p99, error-rate, saturation, heatmap։
2. Business Flow: Տեսահոլովակը wwww.KYC www.FTD-ն է։ փոխարկելի ձագեր և անջատման պատուհաններ։
3. Payments/KYC: CR www.geo www.ru սարք, մերժման մոպա, latency փուլեր, wwww.cut-over անուններով։
4. Content/RGS/Windows: round-trip, error-rate, SFU/CDN SLI, առաջնորդների և ջեքպոտների սեղաններ։
5. Postbacks/Attribution: Ժամանակահարմար, վիճաբանություն, dedup, կուրսային ճամբարներ։
6. Trust & Risk: scorecards (SLO/ATTR/RG/SEC), "Tier-ի կանխատեսումը։
Յուրաքանչյուր վահանակ 'բանաձևերի տարբերակներով և changelog հղումներով։
6) Ալերտինգը և էսկալացիան
Բազմաստիճան SLO-ալերտներ 'նախազգուշացում (burn-rate 2 ռուբլիներ), քննադատություն (burn-rate 10 ռուբլիներ), հաջորդ գործողությունները (երթուղիների/լիմիտների սառեցումը)։
Կոմպոզիցիոն ձգանները ՝ «latency no + CR 35+ postback lag to», մեջբերում են PSA-ի դեգրադացիայի կասկածը։
Ռոլի ջրանցքները ՝ WPE/Payments/KYC/RGS/Մարքեթինգ/Ֆինանսներ/Legal/RG; համատեքստը անմիջապես ներառում է "trance Id '/" runbook "//stop կոճակ։
Medooze/Muting-քաղաքականությունը աղմկոտ մետրիկի համար, բայց առանց P1-ի կուլ տալու։
7) RCA и war-room
SLA-ը թրեյսի փաթեթով '60-90 s (P1/P2)։
RCA-ն «առանց մեղավոր փնտրելու», ռուսական վարկածի փաստը ռուսական փորձարկումը հաստատեց ռուսական follow-up գործողությունը։
Նովոսիբիրովը (իրադարձություններ 242) 'շարժիչների ավտոմատ ստուգում/բանաձև/դելիգների պատուհանում։
Post-mortem SLO-ն 'ժամանակը մինչև մանկությունը, մինչև դադարը, մինչև հետադարձումը, մինչև գրառումը հրապարակելը։
8) Տվյալների և ծագման գծերի որակը
Express Quality SLI-ը 'ամբողջական, թարմ, եզակիություն («eventId»), վալուտների/լոկալների համակարգումը։
Lineage: վիտրինից/108-ից աղբյուրներին (սխեմաներ/տարբերակներ/սեփականատերեր)։
Օրակուլներ ՝ ստորագրված ագրեգատներ (GGR/NetRev/SLO/RG), «www.Version», «hash (inputs)», «kid», ժամանակահատվածը։
WORM-աուդիտ 'անփոփոխ լույսեր բանաձևեր/108/բացառություններ/invoiss։
9) Սեփականատիրությունը, իրավասությունը և անվտանգությունը
Zero Trust: mTSA, կարճ հոսանքներ, egress-allow-list, կոդավորման/JWKS։
PII-նվազեցումը '«playerID», դետոկենիզացիան միայն սեյֆի գոտիներում։ ՊԴնի արգելքը լոգարաններում/մետրերում։
ABAC/ReBAC/SoD: հասանելիությունը «տեսնում եմ իր և համաձայնեցված»; «Ես չափում եմ բջիջների ազդեցությունը փոխում եմ»։
Տվյալների տեղայնացումը և DPIA/DPA շուկաների համար։ purge քաղաքականությունը և TTL-ը։
10) Հեռուստատեսության և արմատականության կառավարման արժեքը
Cardinality Budget: պիտակների վրա (UserID/URA - արգելված; rope Id/campault Id - թույլատրված)։
Գիստոգրամները «ամռանը» -ի փոխարեն։ exemplars ընտրովի մանրամասն։
Adaptive sampling-ը 'հիմնական տոկոսը + առաջնահերթությունը սխալների/դանդաղ ճանապարհների/նոր տարբերակների համար։
Downsampling/roll-ups երկարությամբ (1c 41m 355m); RSA-treiss պահպանումը կարճ է, ագրեգատները ավելի երկար են։
SLO-first: Մենք հավաքում ենք միայն այն, ինչ աջակցում է որոշումները (SLO/ֆինանսներ/համադրություններ)։
11) Կառավարման ինտեգրումը (MSE-ը բիզնես է)
Guardrails-ը և քարոզարշավները կապված են SLO/սխալների ֆորումների հետ։
Corcut-over երթուղիները APM/KYC-ն դուրս է գալիս միջանցքների համար։
RevExpress/limits: Որակի մեծահասակը 'Q' (SLO/ATTR/RG/SEC) ազդում է տոկոսադրույքների և քվոտաների վրա։
Հանգույցների Scorecards-ը կանխատեսում է ձեռնարկության գերակայությունը և օդաչուների հասանելիությունը։
12) Anti-patterna
«Շատ ճշմարտություններ» ֆորմուլային մետրերի և տարբեր պատուհանների վրա։
Disset-pagination-ը բեռի տակ (օգտագործեք կուրսորները)։
PII լոգարաններում/պանելներում; PDn էքսպորտը BI-ում։
Հետբեկների կենդանաբանական այգին և չգրված webhuks-ը ՝ կաղնու/խոռոչի/սպորների։
Գրաֆը առանց «transid Id» 'գեղեցկության վահանակ, պատճառներ չկան։
Alert-փոթորիկ առանց burn-rate և rolet երթուղիների։
SPOF-ագրեգատորը առանց N + 1/DR։
Բացառություններ առանց TTL/2019 - «լիպիկ» override-ները։
13) Չեկ թերթերը
Նախագծումը
- Ազդանշանների և սխեմաների ուռուցքաբանությունը. տարբերակները և սեփականատերերը։
- W3C traceparent ամենուր; Idempotency-Key-ը կրիտիկական ճանապարհների վրա։
- SLI/SLO և սխալների բյուջեներ. stop-կոճակներ; guardrails.
- Կարդինալիզմի, sampling, retention/roll-ups։
- Privacy/PII 'թունավորում, DPA/DPIA, տեղայնացում։
- Role-based alerta և runbooks.
Մեկնարկը
- Delormant հետքերի/metric/logs; nthetic-պրոգոնները։
- Canarech Telemetria թողարկումների ժամանակ; համեմատական վահանակներ մինչև/հետո։
- War-room pleybuki; SLA-ն թրեյսի փաթեթով։
Վիրահատություն
- Շաբաթական scorecards հանգույց; burn-rate հաշվետվությունները։
- Ամսական cheinjlogy բանաձևեր և SLO/limits։
- DR/xaoc ուսուցումներ ագրեգատորների/անվադողերի/վիտրինի։
14) Հասունության ճանապարհային քարտեզը
v1 (Foundation) 'հիմնական մետրերը + Loga, մեկ trance ID, RCA, առաջնային SLO։
v2 (Integration): OpenTelemetry-ը ամենուր, www.graph, guardrails, oraculs փոխակրիչ, եղջերաթաղանթներ։
V3 (Automation) 'նախնական դեգրադացիաներ, www.cut-over APM/KYC/RGS, smart-reconciliation, limites դինամիկա «Q»։
v4 (Networked Governae) 'ազդանշանների և օրակուլների միջանձնային փոխանակում, DAO կանոնները բանաձևերի/SLO, թափանցիկ գանձարանների։
15) Հաջողության մետրերը
Որակը/ռիսկը ՝ MTTR 112, MTTD 112, վիճաբանություն Բիզնեսը 'uplift կանխատեսելիությունը CR/FTD/ARPU/LTV, գրառումների ճշգրտությունն ու ժամանակին, մեջբերում է NetRev։ Տեխնոլոգիա ՝ p95 API/webhuks/անվադողեր/վիտրինը միջանցքներում։ հանգույցների/CDN/SFU 3599։ 9%. Տնտեսությունը 'Cost-to-Observe (CTO) rps/event, exemplars ագրեգատների տոկոսը, RFC-ի պահպանումը սահմաններում։ Complaens: 0 PDn արտահոսք, հաջողակ DPIA/DPA-աուդիտներ, WORM-ի 100% հասանելիություն։ Տեսանելիությունը վստահության ածանցյալն է 'մեկ ուռուցքաբանություն, ուղու միջով, մետրիկ և իրադարձություններ, SLO-gardrails և oraculs տվյալների, լռելյայն և հեռուստատեսության արժեքի կարգապահություն։ Այս շրջանակը դարձնում է շղթաներ և կատարվում է թափանցիկ, կանխատեսելի և ապացուցված, իսկ էկոհամակարգը արագ արձագանքի և ռիսկի դիմացկուն է։
Ռուսական ռեզյումե