Հեռուստատեսության հոսքերը
1) Նշանակումն ու համատեքստը
Հեռաչափության հոսքերը ապահովում են դիտորդական տվյալների շարունակական ներհոսք պլատֆորմի աշխատանքի մասին 'ինչ է կատարվում, ինչու՞ և ինչքա՞ ն է դա արժե։ IGaming-ում սա բանալին է դեպոզիտների/ռասաների դեգրադացիայի վաղ հայտնաբերման համար, արտաքին պրովայդերների (PMS/KYC/խաղային ստուդիաներ) և ապացուցված SLO/կոմպլասենսին։
2) Հեռուստատեսության աղբյուրների քարտեզը
Metriki (TSDB): RED/USE, բիզնես SLI (հեղինակային իրավունքի հաջողությունը, հաջողակ միգրանտների տոկոսը)։
Թրեյսները (OTel) 'հարցումների շղթաներ API-ի ճակատի միջով։
Լոգները (կառուցվածքային) 'իրադարձություններ, վիրահատությունների աուդիտ, սխալներ։
RUM: TTFB/LCP, JS սխալներ, գեո/սարք։
Սինթետիկ' արտաքին փորձարկման գործարքներ (լոգին/դեպոզիտ/» ավազի» տոկոսադրույք) տարբեր GEO-ից։
Ցածր մակարդակի հեռուստաչափություն ՝ eBPF/pudiling CPU/IO/alloc, ցանցային p95/p99։
Արտաքին կարգավիճակները ՝ webhuks/PMS/KYC/CDN/WAF։
3) Ստանդարտներ և սխեմաներ
OpenTelemetry-ը որպես lingua franca-ն է 'ատրիբուտների սեմանտիկայի միավորումը (նատրիում)։ name, deployment. environment, enduser. Id - դիմակավորված, trace/Wind ID, PMS-2019)։
Սխեմաների մասին պայմանագրերը 'տարբերակումը, շեմա registry լոգոների/թրեյսների համար, «breaking-changes» միայն երկուական դրոշի և grace ժամանակահատվածի միջոցով։
Direrelation-ID: Միասնական 'edrelation _ id' համար/տոկոսադրույքով բոլոր շերտերի միջոցով + exemplars գծապատկերներում։
4) Ինժեներական փոխակրիչ (high-level)
1. Masters: MSK/112/կոլեկտորներ (OTel Collector)։
2. Edge-buferization: Տեղական գծերը (memory/71 k) սահմանափակումներով։
3. Transport: gRPC/HTTOTLP-ը մեջբերում է հաղորդագրությունների բրոքերը (Kafka/Pulsar) idempotency-բեկորների հետ։
4. Processors: նորմալացում, հարստացում (GEO/tenant/ջրանցք), PII ֆիլտրեր, բարակ սեմպլինգ։
5. Fan-out: TSDB-ում (մետրիկներ), հետքերի պահեստում, լոգարանների համակարգում, lake/MSH-ում, alerting/կանոնները։
6. Consumers: dashbords, SLO-alerts (burn-rate), հետազոտություններ, կարգավիճակ-էջ, առյուծների ավտոտներ։
5) QoS-ը և հոսքերի դասարանները
A դասը (իրական ժամանակ, P1) 'SLI/SLO, սինթետիկ, հիմնական պրովայդերներ (PMS/KYC)։ SLA առաքում ՝ <5-10 c, 2499։ 9%.
B դասը (վիրահատական) 'treiss/logs RCA, SLA: <1-2 ռուբլիա
Դասարանը C (վերլուծական) 'ագրեգատները և խաղերը lake/MSH, SLA: ժամ/օր։
Դասարանում միկրոակտիվացումը բացատրում է գերակայությունը, տարբեր վերականգնումները, առանձին հերթերը/տոպիկները։
6) Սեմպլինգ, ագրեգացիա, ռենտենշն
Metriks: downsampling պատմական շարքերը (1s 410s 421m), պերցենտրիկ ագրեգատները, exemplars։
Թրեյզներ ՝ tail-based սեմպլինգ (բարձրացնել մասնաբաժինը անոմալիաների, PMS սխալների, p99- «բարձրացումներ»)։
Լոգները 'խողովակի մակարդակը, սեղմումը, աղմուկը (health-pingi, DEBUG-ն արգելված է)։
Retenshn: «տաք» (7-14 օր մանրուք), «սառը» (միավորներ/արխիվ)։ Per-դասարանի և արժեքի քաղաքականությունները։
7) Գաղտնիությունը և կոմպլենսը
PII-հիգիենան 'դիմակավորում/ինդեքսիզացիա; CUS/քարտային հոսանքների արգելք հեռուստացույցի մեջ։
Գեո-տեղայնացում 'պահեստավորում։ արտահանումը միայն հաստատված workflow (ծածկագրում, TTL, աուդիտ) միջոցով է։
Հասանելիության վերահսկումը 'RBAC/ABAC հեռուստացույցի պահեստների, SoD-ի հեռացման վրա։
8) Հոսքերի հոսքը
Idempotention 'իրադարձությունների բանալիները, պրոցեսորների դեդուպը։
Backpressure: per-tent/ծառայություն ինժեներական լիմիտներ; drop քաղաքականություն ցածր պրիրոտեային դաշտերի համար ծանրաբեռնվածության ժամանակ։
Replays: Brocer- ում պահելը 72 ժամ է վերամշակման համար։
Dead-letter: Սխալների միկրոօրգանիզացումը (սխեման, չափը, PII-խախտումը) անվտանգ DLQ-ի վրա ալտերտերի հետ։
Տարբերակումը '«երկշաբաթություն» սխեմաները փոխելիս (v1 + v2) և սպառողների միգրացիան։
9) Multi-tenant և մեկուսացում
Tegi 'tenrone _ id/brand/region "յուրաքանչյուր իրադարձության մեջ։ 2019-տենանտ քվոտաներ և բյուջեներ։
A/B հոսքերի մեկուսացումը տոպիկների վրա։ showback/chargeback-ով և պահելով։
Դիմակավորում/ագրեգացիա դեպի հոսանքի սահմանները։
10) Հոսքերի կատալոգը (դաշտերի օրինակ)
Մոսկվա '"telemetry. payments. auth. success. rate. eu`
Դաս ՝ A (իրական ժամանակ)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
Աղբյուրը ՝ OTel Collector + PMS-router metr.ru
Սպառողները ՝ SLO-alerta, Exec-dashbord, կարգավիճակ-էջ
Retenshn 'տաք 30 օր, 12 մեզ միավորներ
Սեփականատերը ՝ Payments MSE, dpo-owner (privacy)
SLO հոսք 'ուշացում <10 c p95, կորուստ <0։ 1 %/օր
11) Ալերտինգի և թողարկումների ինտեգրումը
SLO-alerts burn-rate (արագ/դանդաղ պատուհան) ավանդների/։
Release-gates: SLI-ի կանարական վերլուծություն; auto-stop/rollback քայքայման ժամանակ։
Կարգավիճակ-էջ 'ֆիդ-քարտից + SLI միավորներ։
12) Հիմնական dashbords հավաքածու
Exec: aptaim, burn-rate, հեղինակային իրավունքի հաջողությունը/108 (GEO/PSA), պրովայդերների կարգավիճակը, դոլար/RPS հեռուստացույցի։
SYE/Պլատֆորմ ՝ RED/USE ծառայությունների, lag հերթերի, demenier-դետեկտորի, eBPF-պրոֆիլների։
Payments/Risk: փոխարկումը բանկերին/PSA, som/hard declines, KYC SLA, վաղ chargeback ազդանշաններ։
Cost-obs-ը 'ներարկիչի ծավալը ըստ աղբյուրների, կարդինալության ամենաբարձր պիտակները, հոսքերի արժեքը։
13) Դիտարկման ֆինանսները (FinOps)
KPI արժեքը ՝ դոլար/GB ingest, դոլար/trace, դոլար/SLI-dashbord; զեկույց «ծանր» մետրերի և պիտակների մասին։
Օպտիմիզացիան 'ագրեգացիան և downsampling, դինամիկ սեմպլինգը, չաթի-լոգարանների մաքրումը, պահպանման դասը։
Քաղաքական գործիչները 'high-cardinality-ի քվոտաներ, սահմաններ արտանետումների հաճախության, սխեմաների ակնարկների ակնարկների մասին եռամսյակում։
14) Գործընթացներ և դերեր
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Change-Winle-ը սխեմաների համար 'PR-revew, թեստային ստենդներ, սպառողների համատեղելիություն։
Tabletop/Chaos-days: Ռուսական պրովայդերներ, բրոքերի ծանրաբեռնվածություն, backpressure/idempotenty ստուգում։
Post-mortem: ներառել հեռուստացույցի վերլուծություն (ազդանշանների բավարար, կեղծ գործիքներ, արժեքը)։
15) Ճանապարհի քարտեզը (8-12 շաբաթ)
Մոսկվան։ 1-2 'ընթացիկ հոսքերի աուդիտը, աղբյուրների քարտեզը, SLO հեռուստացույցի նպատակները, ստանդարտների ընտրությունը (OTel, TSDB, Treiss, logs)։
Մոսկվան։ 3-4: OTel-կոլեկցիոներներ, միասնական direlation-ID, հիմնական RED/USE + բիզնես SLI ավանդի/տոկոսադրույքի վրա, հոսքերի կատալոգը v0։
Մոսկվան։ 5-6: tail-based սեմպլինգ, GEO, DLQ/idempotention, privacy ֆիլտրեր։
Մոսկվան։ 7-8: FinOps-վահանակ (ingest/retention), downsampling, կարդինալիզմի քվոտաներ, SLO-alerta (burn-rate)։
Մոսկվան։ 9-10: eBPF/ցածր մակարդակի ազդանշաններ, ֆիդների կարգավիճակ-էջ, release-gates։
Մոսկվան։ 11-12: chaos-թեստերը, արժեքի օպտիմիզացումը, all SLA հոսքերը, եռամսյակային ակնարկների գործարկումը։
16) Արտեֆակտների օրինակները
Telemetry Stream Spec: id, սեփականատեր, սխեմա, QoS դասարանը, աղբյուրները, սպառողները, ռետենշինը, SLO/ալերտները, privacy քաղաքականությունը։
Schema PR Template: փոփոխությունը/միգրացիան, համատեղելիությունը, թեստերը, արձագանքման պլանը։
Sampling Policy 'անոմալիաների դեպքում սեմպլինգի բարձրացման կանոնները։ բյուջեներ։
Cost Review Pack: Լավագույն աղբյուրները դոլարով/արժեքով, TTL/ագրեգացիաների առաջարկները։
Incident Telemetry Diklist-ը 'գծագրերի/թրեյսների/լոգարանների ցանկը, որոնք պետք է լինեն RCA-ի համար։
17) KPI/KRI հեռուստատեսության հոսքերը
Առաքում ՝ p95 ուշացում դասարանում, կորցրած հաղորդագրությունների տոկոսը/օր։
Ծածկումը 'քննադատական ճանապարհների մասնաբաժինը հետքերով> 90 տոկոսը, SLI-ի մասնաբաժինը, որը փակված է մետրերով։
Ազդանշանների որակը 'SLI-ով բռնված միգրանտների% -ը մինչև բողոքները, կեղծ/բաց թողած ալերտները։
Արժեքը ՝ դոլար/RPS հեռուստացույցի վրա, դոլար/trace, «աղմուկի» մասնաբաժինը։
Տե՛ ս ՝ բրոքերի քայքայումից հետո վերականգնման ժամանակը, ռելեների ծավալը։
18) Անտիպատերնի
High-cardinality մետրերը (userID, sessionid) TSDB-ում։
Միակ «սև արկղը» լոգոն առանց կառուցվածքի և սխեմաների։
DLQ/idempotenty-ի բացակայությունը բացատրում է դուբլի և պիկի կորուստ։
Առանց FinOps-ի «անվերջ» վերականգնումը բացատրում է հաշիվների էքսպոնենցիալ աճը։
Առանց բիզնես կոնտեքստի (PFC/բանկ/GEO) թրեյզները թույլ ախտորոշում են։
Թիմերի միջև չհամաձայնեցված սխեմաները կոտրում են սպառողները։
Արդյունքը
Հեռաչափության հոսքերը կառավարվող, բազմաշերտ համակարգ են ՝ OTel-ստանդարտներ և սխեմաներ, որոնք հուսալի ներարկում են QoS-ի և backpressure-ի հետ։ Այս պարամետրը տալիս է վաղ ազդանշաններ, արագ RCA, կանխատեսելի ծախսեր և դիմադրություն iGaming պլատֆորմի գագաթնակետին ռեժիմներում։