Telemetriya axını
1) Təyinat və kontekst
Telemetriya axını platformanın işləməsi haqqında davamlı müşahidə məlumatları axını təmin edir: nə baş verir, niyə və nə qədər başa gəlir. iGaming, depozit/bahis deqradasiyalarının, xarici provayderlərin görünürlüyünün (PSP/KYC/oyun studiyaları) və sübut edilə bilən SLO/komplayensin erkən aşkarlanmasının açarıdır.
2) Telemetriya mənbələrinin xəritəsi
Metriklər (TSDB): RED/USE, Business SLI (avtorizasiyaların müvəffəqiyyəti,% uğurlu bahislər).
Traces (OTel): ön → API → broker → DB/PSP vasitəsilə sorğu zəncirləri.
Qeydlər (strukturlaşdırılmış): hadisələr, əməliyyatların auditi, səhvlər.
RUM: TTFB/LCP, JS səhvləri, geo/cihaz.
Sintetika: müxtəlif GEO-lardan xarici sınaq əməliyyatları (giriş/depozit/» qum» dərəcəsi).
Aşağı səviyyəli telemetriya: eBPF/profil CPU/IO/alloc, şəbəkə p95/p99.
Xarici statuslar: PSP/KYC/CDN/WAF vebhukları/hovuzları.
3) Standartlar və sxemlər
OpenTelemetry lingua franca kimi: atributların semantikasının unifikasiyası (service. name, deployment. environment, enduser. id - maskalı, trace/SpanID, PSP kodları).
Sxem sazişləri: version, log/treys üçün schema registry, «breaking-changes» yalnız ikili bayraq və grace-period vasitəsilə.
Correlation-ID: vahid 'correlation _ id' bütün təbəqələr vasitəsilə ödəniş/bahis + metrik üzlüklərdə exemplars.
4) Enjest konveyer (yüksək səviyyəli)
1. Producers: SDK/agentlər/kollektorlar (qovşaqlarda OTel Collector).
2. Edge-bufer: limitləri olan yerli növbələr (memory/disk).
3. Nəqliyyat: gRPC/HTTP OTLP → idempotency açarları ilə mesaj brokeri (Kafka/Pulsar).
4. Processors: normallaşdırma, zənginləşdirmə (GEO/tenant/kanal), PII filtrləri, nazik sempling.
5. Fan-out: TSDB-də (metriklər), trasların anbarında, log sistemində, lake/DWH-də, alertinq/qaydalarda.
6. Consumers: dashboard, SLO-alert (burn-rate), araşdırmalar, status-səhifə, auto-geyt relizlər.
5) QoS və axın sinifləri
A sinfi (real vaxt, P1): SLI/SLO, sintetik, əsas provayderlər (PSP/KYC). SLA çatdırılma: <5-10 c, ≥ 99. 9%.
B sinfi (əməliyyat): RCA, SLA üçün treys/log: <1-2 dəq.
C sinfi (analitik): lake/DWH, SLA-da aqreqatlar və batçlar: saat/gün.
Sinif marşrutu → prioritetləşdirmə, müxtəlif retensiyalar, ayrı-ayrı növbələr/topiklər.
6) Sampling, aqreqasiya, retenshn
Metriklər: tarixi sıraların downsampling (1s → 10s → 1m), üzlük aqreqatları, exemplars.
Traces: tail-based sempling (anomaliyalar, PSP səhvləri, p99- «sıçrayışlar» zamanı payı artırmaq).
Log: profil səviyyəsi, sıxılma, səs-küy atma (health-pings, DEBUG - prod qadağan).
Retenshn: «isti» (7-14 gün detal), «soyuq» (aqreqatlar/arxiv). Siyasət per-sinif məlumat və dəyəri.
7) Gizlilik və uyğunluq
PII-gigiyena: identifikatorların maskalanması/tokenizasiyası; telemetriyada KS/kart tokenlərinin sənədlərinin qadağan edilməsi.
Geo-lokalizasiya: yurisdiksiyalar üzrə saxlama; ixrac - yalnız təsdiq edilmiş workflow (şifrələmə, TTL, audit) vasitəsilə.
Giriş nəzarəti: RBAC/ABAC telemetriya anbarlarına, SoD boşaltma üçün.
8) Axınların etibarlılığı
İdempotentlik: hadisələrin açarları, prosessorlarda dedup.
Backpressure: per-tenant injest limitləri/xidmət; həddindən artıq yükləmə zamanı aşağı prioritet sahələr üçün drop siyasəti.
Replays: broker saxlama ≥ təkrar emal üçün 72 saat.
Dead-letter: səhv marşrutu (sxem, ölçü, PII pozuntusu) ilə təhlükəsiz DLQ.
Versiyalaşdırma: sxemlərin dəyişdirilməsində «iki axın» (v1 + v2) və istehlakçıların miqrasiyası.
9) Multi-tenant və izolyasiya
Hər bir hadisədə 'tenant _ id/brand/region' etiketləri; per-tenant kvotalar və büdcələr.
Topiklər üzrə A/B axınlarının izolyasiyası; enjest və saxlama showback/chargeback.
İxrac zamanı tenant sərhədinə maskalanma/aqreqasiya.
10) Axınlar kataloqu (sahə nümunəsi)
ID: 'telemetry. payments. auth. success. rate. eu`
Sinif: A (real vaxt)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
Mənbə: OTel Collector + PSP-router metrics
İstehlakçılar: SLO-alertlər, Exec-daşbord, status-səhifə
Retenshn: isti 30 gün, aqreqatlar 12 ay
Sahibi: Payments SRE, dpo-owner (privacy)
SLO axını: gecikmə <10 c p95, itki <0. 1 %/gün
11) Alertinq və buraxılışlarla inteqrasiya
depozitlər/dərəcələr üçün burn-rate (sürətli/yavaş pəncərə) SLO-alertlər.
Release-gates: SLI kanar analizi; deqradasiyada avtomatik stop/rollback.
Status-səhifə: Hadisə kartı yeniləmələri + SLI aqreqatları.
12) Açar dashboard dəsti
Exec: uptime, burn-rate, authorization/bahis müvəffəqiyyəti (GEO/PSP), provayder statusu, $/RPS telemetriya.
SRE/Platforma: RED/USE xidmətlər, lag növbələri, outlier-deteksiya, eBPF profilləri.
Payments/Risk: banklara/PSP, soft/hard declines, KYC SLA, erkən chargeback siqnalları.
Cost-obs: mənbələrə görə incest həcmi, kardinallığın top etiketləri, axınlara görə xərc.
13) Maliyyə müşahidə (FinOps)
KPI dəyəri: $/GB ingest, $/trace, $/SLI dashboard; «ağır» metriklər və etiketlər haqqında hesabat.
Optimallaşdırma: aqreqasiya və downsampling, dinamik sampling, chatti log təmizlənməsi, vacib saxlama sinfi.
Siyasətçilər: high-cardinality kvotaları, emissiya tezliyi limitləri, rübdə bir dəfə sxemləri review.
14) Proseslər və rollar
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Sxemlər üçün Change-Control: PR-review, test stendləri, istehlakçılarda uyğunluq.
Tabletop/Chaos-days: provayderlərin bağlanması, brokerin həddindən artıq yüklənməsi, backpressure/idempotentlik testi.
Post-mortem: telemetriya analizini (siqnalların yetərliliyi, saxta işləmələr, xərclər) daxil edin.
15) Yol xəritəsi (8-12 həftə)
Ned. 1-2: Cari axınların auditi, mənbələrin xəritəsi, SLO telemetriya məqsədləri, standartların seçimi (OTel, TSDB, treys, log).
Ned. 3-4: OTel-kollektorlar, vahid correlation-ID, əsas RED/USE + biznes-SLI depozit/dərəcəsi, v0 axın kataloqu.
Ned. 5-6: tail-based sampling, GEO sintetik, DLQ/idempotent, privacy filtrlər.
Ned. 7-8: FinOps paneli (ingest/retention), downsampling, kardinallıq kvotaları, SLO-alertlər (burn-rate).
Ned. 9-10: eBPF/aşağı səviyyəli siqnallar, fid status-səhifəsi, release-gates.
Ned. 11-12: chaos testlər, dəyər optimizasiyası, formal SLA axınları, rüblük review sxemləri başlamaq.
16) Artefakt şablonları
Telemetry Stream Spec: id, sahibi, sxem, QoS sinfi, mənbələr, istehlakçılar, retenshn, SLO/alertlər, gizlilik siyasəti.
Schema PR Template: dəyişiklik/miqrasiya, uyğunluq, testlər, geri dönüş planı.
Sampling Policy: anomaliyalar zamanı sampling qaldırmaq qaydaları; hədəf büdcələri.
Cost Review Pack: $/dəyərlər üzrə ən yaxşı mənbələr, TTL/aqreqasiya təklifləri.
Incident Telemetry Checklist: RCA üçün olmalıdır qrafik/treys/log siyahısı.
17) KPI/KRI telemetriya axını
Çatdırılma: p95 sinif gecikmələri,% itirilmiş mesajlar/gün.
Örtük: trasinqlə kritik yolların payı> 90%, metrlərlə qapalı SLI payı.
Siqnalların keyfiyyəti: şikayətlərə qədər SLI tərəfindən tutulan insidentlərin% -i, saxta/buraxılmış alertlər.
Qiyməti: telemetriya üçün $/RPS, $/trace, enjestdə «səs-küy» payı.
Etibarlılıq: broker deqradasiyasından sonra bərpa vaxtı, repleylərin həcmi.
18) Antipattern
TSDB-də High-cardinality metrika (userId, sessionId).
struktur və sxemləri olmadan vahid «qara qutu» log.
DLQ/idempotentlik yoxdur → pik və itki.
FinOps → hesabların eksponensial artımı olmadan «sonsuz» retansiyaları.
Biznes konteksti olmayan treys (PSP/bank/GEO) → zəif diaqnostika.
→ komandaları arasında razılaşdırılmamış sxemlər istehlakçılar tərəfindən pozulur.
Yekun
Telemetriya axınları idarə olunan, çoxqatlı sistemdir: OTel standartları və sxemləri → QoS və backpressure ilə etibarlı enjest → sampling/aqreqasiya və retens → gizlilik və multi-tenant-izolyasiya → SLO-alertlər, daşbordlar və relizlər geytləri. Belə bir kontur erkən siqnallar, sürətli RCA, proqnozlaşdırıla bilən xərclər və pik rejimlərdə iGaming platformasının sabitliyini təmin edir.