ტელემეტრიული ნაკადები
1) დანიშნულება და კონტექსტი
ტელემეტრიული ნაკადები უზრუნველყოფს პლატფორმის მუშაობის შესახებ სადამკვირვებლო მონაცემების უწყვეტ შემოდინებას: რა ხდება, რატომ და რამდენი ღირს. IGaming- ში ეს არის ანაბრების/განაკვეთების დეგრადაციების ადრეული გამოვლენის გასაღები, გარე პროვაიდერების ხილვადობა (PSP/KYC/თამაშის სტუდიები) და დადასტურებული შესაბამისობა SLO/Complaens- სთან.
2) ტელემეტრიული წყაროების რუკა
მეტრიკა (TSDB): RED/USE, ბიზნეს SLI (ავტორიზაციების წარმატება, წარმატებული განაკვეთების%).
ბილიკები (OTel): მოთხოვნის ჯაჭვები წინა - API - ბროკერები BD/PSP.
ლოგიკა (სტრუქტურირებული): მოვლენები, ოპერაციების აუდიტი, შეცდომები.
RUM: TTFB/LCP, JS შეცდომები, გეო/მოწყობილობა.
სინთეზური: გარე საცდელი გარიგებები (ლოგინი/ანაბარი/“ ქვიშის“ განაკვეთი) სხვადასხვა GEO- სგან.
დაბალი დონის ტელემეტრია: eBPF/პროფილირება CPU/IO/alloc, ქსელის p95/p99.
გარე სტატუსები: ვებჰუკი/აუზები PSP/KYC/CDN/WAF.
3) სტანდარტები და სქემები
OpenTelemetry, როგორც lingua franca: ატრიბუტების სემანტიკის გაერთიანება (მომსახურება. name, deployment. environment, enduser. id - შენიღბული, trace/ID, PSP კოდები).
სქემების შესახებ შეთანხმებები: ვერსირება, ლოგოების/ტრეისების სქემა, „breaking-changes“ მხოლოდ ორობითი დროშის და გრეის პერიოდის საშუალებით.
Correlation-ID: ერთი 'correlation _ id' გადახდა/განაკვეთი ყველა ფენის მეშვეობით + exemplars percentiles მეტრიკებში.
4) ინჟესტის კონვეიერი (მაღალი ხაზი)
1. Producters: SDK/აგენტები/კოლექციონერები (OTel Collector კვანძებზე).
2. Edge-buferization: ადგილობრივი ხაზები (memory/disk) ლიმიტით.
3. ტრანსპორტი: gRPC/HTTTP - შეტყობინებების ბროკერი (Kafka/Pulsar) პირადობის კლავიშებით.
4. პროფესორები: ნორმალიზაცია, გამდიდრება (GEO/ტენანტი/არხი), PII ფილტრები, თხელი ნიმუში.
5. Fan-out: TSDB- ში (მეტრიკა), ბილიკების შესანახად, ლოგების სისტემაში, lake/DWH- ში, ალერტინგში/წესებში.
6. Consumers: dashbords, SLO-Alerty (burn-rate), გამოძიება, სტატუსის გვერდი, გამოშვების მანქანები.
5) QoS და ნაკადის კლასები
კლასი A (რეალური დრო, P1): SLI/SLO, სინთეზური, საკვანძო პროვაიდერები (PSP/KYC). SLA მიწოდება: <5-10 წმ, 99 ევრო. 9%.
კლასი B (ოპერაციული): ტრეისი/ლოგები RCA, SLA: <1-2 წთ
კლასი C (ანალიტიკური): დანაყოფები და ბრძოლები ტბაში/DWH, SLA: საათი/დღე.
მარშრუტიზაცია კლასში არის პრიორიტეტული, სხვადასხვა რეტენციები, ინდივიდუალური რიგები/ტოპიკა.
6) სემპლინგი, აგრეგაცია, ჭრა
მეტრიკა: ისტორიული რიგების დაშლა (1c-10s-1m), პერცენტილის აგრეგატები, ექსპლარები.
ტრეისი: tail-based sexpling (გაზარდეთ წილი ანომალიებში, PSP შეცდომები, p99- „ადიდებული“).
Logs: პროფილის დონე, შეკუმშვა, ხმაურის ამოღება (Health pings, DEBUG გაყიდვაში აკრძალულია).
Retenshn: „ცხელი“ (7-14 დღის დეტალი), „ცივი“ (აგრეგატები/არქივი). პოლიტიკოსები per-class მონაცემები და ღირებულება.
7) კონფიდენციალურობა და შესაბამისობა
PII ჰიგიენა: იდენტიფიკატორების შენიღბვა/ტოქსიკაცია; KUS/ბარათის ნიშნების დოკუმენტების აკრძალვა ტელემეტრიაში.
გეო-ლოკალიზაცია: იურისდიქციის შენახვა; ექსპორტი - მხოლოდ დამტკიცებული workflow- ის საშუალებით (დაშიფვრა, TTL, აუდიტი).
წვდომის კონტროლი: RBAC/ABAC ტელემეტრიული საცავებისთვის, SoD გადმოტვირთვისთვის.
8) ნაკადების საიმედოობა
Idempotence: მოვლენების გასაღებები, პროცესორებში დედაპლატი.
Backpressure: per tenant/სერვისის ინჟესტის ლიმიტები; გადატვირთვის დროს დაბალი პრიორიტეტული ველების drop პოლიტიკოსები.
Replays: ბროკერში შენახვა 72 საათს შეადგენს ხელახლა დამუშავებისთვის.
Dead-letter: შეცდომების მარშრუტიზაცია (სქემა, ზომა, PII დარღვევა) უსაფრთხო DLQ- ით ალერტებით.
ვერსია: „ორმაგი პირადობის მოწმობა“ სქემების შეცვლისას (v1 + v2) და მომხმარებელთა მიგრაცია.
9) მულტფილმები და იზოლაცია
ჭდეები 'tenant _ id/brand/region' თითოეულ ღონისძიებაში; პრე-ჩრდილოვანი კვოტები და ბიუჯეტები.
A/B ნაკადების იზოლაცია ტოპიკის მიხედვით; showback/chargeback ინჟესტისა და შენახვის შესახებ.
ნიღაბი/აგრეგაცია ექსპორტის დროს ტენანტის საზღვართან.
10) ნაკადების კატალოგი (ველების მაგალითი)
იდენტიფიკატორი: 'telemetry. payments. auth. success. rate. eu`
კლასი: A (რეალური დრო)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
წყარო: OTel Collector + PSP-router metrics
მომხმარებლები: SLO ალერტები, Exec Dashboard, სტატუსის გვერდი
Retenshn: ცხელი 30 დღე, აგრეგატები 12 თვე
მფლობელი: Payments SRE, dpo-owner (კერძო)
SLO ნაკადი: შეფერხება <10 c p95, დაკარგვა <0. 1% დღეში
11) ინტეგრაცია ალერტინთან და გამოშვებასთან
SLO ალერტები burn-rate (სწრაფი/ნელი ფანჯარა) ანაბრების/განაკვეთებისთვის.
Release-gates: SLI კანარის ანალიზი; ავტო გაჩერება/rollback დეგრადაციის დროს.
სტატუსის გვერდი: განახლების ფიდი ინციდენტის ბარათიდან + SLI დანაყოფები.
12) ძირითადი დაშბორდის ნაკრები
Exec: აფთიაქი, burn-rate, ავტორიზაციების/ფსონების წარმატება (GEO/PSP- ის მიხედვით), პროვაიდერების სტატუსი ,/RPS ტელემეტრია.
SRE/პლატფორმა: RED/USE მომსახურებების, რიგების ხაზების, outlier იდენტიფიკაციის, eBPF პროფილების შესახებ.
Payments/Risk: ბანკების კონვერტაცია/PSP, soft/hard declines, KYC SLA, ადრეული chargeback სიგნალები.
Cost-obs: ინჟესტის მოცულობა წყაროების მიხედვით, კარდინალების ტოპ ეტიკეტები, ნაკადების ღირებულება.
13) ფინანსები (FinOps)
KPI ღირებულება: $/GB ingest ,/trace ,/SLI Dashboard; ანგარიში „მძიმე“ მეტრიკებისა და ეტიკეტების შესახებ.
ოპტიმიზაცია: დანაყოფი და დანაყოფი, დინამიური ნიმუში, ჩატის ლოგოების გაწმენდა, მნიშვნელოვანი შენახვის კლასი.
პოლიტიკოსები: მაღალი სტანდარტული კვოტები, ემისიის სიხშირის შეზღუდვები, სქემების მიმოხილვა კვარტალში ერთხელ.
14) პროცესები და როლები
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Change-Control სქემებისთვის: PR review, ტესტის სტენდები, თავსებადობა მომხმარებლებში.
Tabletop/Chaos-days: პროვაიდერების გათიშვა, ბროკერის გადატვირთვა, backpressure/idempotence შემოწმება.
Post-mortem: ჩართეთ ტელემეტრიული ანალიზი (საკმარისი სიგნალები, ყალბი ოპერაციები, ღირებულება).
15) განხორციელების გზის რუკა (8-12 კვირა)
ნვე. 1-2: მიმდინარე ნაკადების აუდიტი, წყაროების რუკა, SLO ტელემეტრიული მიზნები, სტანდარტების არჩევანი (OTel, TSDB, ტრეისი, ლოგოები).
ნვე. 3-4: OTel კოლექციონერები, ერთი correlation-ID, ძირითადი RED/USE + ბიზნეს SLI დეპოზიტზე/განაკვეთზე, ნაკადის დირექტორია v0.
ნვე. 5-6: tail-based ნიმუშები, სინთეზური GEO, DLQ/idempotence, კერძო ფილტრები.
ნვე. 7-8: FinOps პანელი (ingest/retention), downsampling, კარდინალური კვოტები, SLO ალერტა (burn-rate).
ნვე. 9-10: eBPF/დაბალი დონის სიგნალები, ფიდების სტატუსის გვერდი, release-gates.
ნვე. 11-12: ქაოსის ტესტები, ღირებულების ოპტიმიზაცია, ფორმალური SLA ნაკადები, კვარტალური მიმოხილვის სქემების წამოწყება.
16) არტეფაქტების შაბლონები
Telemetry Stream Spec: id, მფლობელი, სქემა, QoS კლასი, წყაროები, მომხმარებლები, რეტენსი, SLO/ალერტები, პირადი პოლიტიკა.
Schema PR Template: ცვლილება/მიგრაცია, თავსებადობა, ტესტები, დაბრუნების გეგმა.
Sampling Policy: წესები ანომალიების დროს ნიმუშის ამაღლების შესახებ; მიზნობრივი ბიუჯეტები.
Cost Review Pack: ტოპ წყაროები $/ღირებულებისთვის, წინადადებები TTL/აგრეგატებზე.
Incident Telemetry Checklist: გრაფიკების/ტრეისების/ლოგოების სია, რომლებიც RCA- სთვის უნდა იყოს.
17) KPI/KRI ტელემეტრიული ნაკადები
ადგილზე მიტანა: p95 შეფერხება კლასში, დაკარგული შეტყობინებების% დღეში.
დაფარვა: კრიტიკული ბილიკების წილი ტრეკით> 90%, SLI წილი, რომელიც დახურულია მეტრიკებით.
სიგნალის ხარისხი: SLI- ით დაჭერილი ინციდენტების% პრეტენზიებამდე, ყალბი/გამოტოვებული ალერტები.
ღირებულება: $/RPS ტელემეტრიაზე ,/trace, „ხმაურის“ წილი ინჟესტში.
საიმედოობა: ბროკერის დეგრადაციის შემდეგ გამოჯანმრთელების დრო, ამანათების მოცულობა.
18) ანტიპატერები
High-cardinality მეტრიკა (userID, sessionID) TSDB- ში.
ლოგოების ერთი „შავი ყუთი“ სტრუქტურისა და სქემების გარეშე.
DLQ/idempotent- ის არარსებობა დუბლი და მწვერვალების დაკარგვა.
FinOps- ის გარეშე „გაუთავებელი“ რეტენციები არის ანგარიშის ექსპონენციალური ზრდა.
ტრეისი ბიზნეს კონტექსტის გარეშე (PSP/bank/GEO) არის სუსტი დიაგნოზი.
მომხმარებლები არღვევენ გუნდებს შორის არაკოორდინირებულ სქემებს.
შედეგი
ტელემეტრიული ნაკადები არის კონტროლირებადი, მრავალსაფეხურიანი სისტემა: OTel სტანდარტები და სქემები - საიმედო ინჟესტი QoS და backpressure - სემპლინგი/აგრეგაცია და რეტენციები ღირებულებისთვის - კონფიდენციალურობა და მრავალ ტენანტი იზოლაცია - SLO-Alerta, Dashbowards და გამოშვების კარიბჭები. ასეთი წრე იძლევა ადრეულ სიგნალებს, სწრაფ RCA, პროგნოზირებადი ხარჯები და iGaming პლატფორმის სტაბილურობა პიკის რეჟიმში.