Zəncirlərin və düyünlərin görünürlüyü
1) Hədəf və müşahidə obyekti
Zəncirlərin və düyünlərin görünməsi ekosistemin zəncirlərarası axınların (trafik/hadisələr/ödənişlər/KUS/məzmun) və düyünlərin (operatorlar, studiyalar/RGS, PSP/APM, KYC/AML provayderləri, affiliatlar, aqreqatorlar, axınlar düyünlər). Məqsədlər:- keçici səbəblilik (tıklamadan invoysa qədər);
- proqnozlaşdırıla bilən SLO və idarə olunan risk;
- sürətli RCA və aşağı MTTR;
- Telemetriyanın minimum dəyəri ilə sübut oluna bilər (imzalanmış hesabatlar, WORM-audit).
2) Müşahidə ontologiyası
Mahiyyətlər:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (struktur), Events (biznes), RUM/Synthetic (müştəri/kanallar), Audit/WORM (dəyişməz).
Bütün sxemlər Schema Registry-də versiya olunur; zaman - UTC/ISO-8601.
3) Nəqliyyat və korrelyasiya
OpenTelemetry: vahid metrik/log/span formatı; TSDB/prosessorlar ixracatçıları.
W3C Trace Context: 'traceparent '/' tracestate' redaktorlar, API, vebhuklar, şinlər vasitəsilə atılır.
İdempotentlik: Kritik yollarda «Idempotency-Key» (ödənişlər/postbeklər).
Exactly-once mənasına görə: hash dedup/kursor tarixi, vebhuk yenidən oyun reyestri.
Exemplars: latency histoqramlarını sürətli RCA üçün xüsusi 'traceId' ilə əlaqələndiririk.
4) SLI/SLO modeli və səhv büdcələri
Golden Signals: latency, traffic, errors, saturation.
RED (NTTR/şlyuzlar): Rate, Errors, Duration.
USE (infrastruktur): Utilization, Saturation, Errors.
- Vebhuki: çatdırılma ≥ 99. 9%, p95 ≤ 1-2 s.
- Tərəfdaşların API: p95 ≤ 150-300 ms, error rate ≤ 0. 3–0. 5%.
- Hadisə şin: lag p95 ≤ 200-500 ms; çatdırılma ≥ 99. 9%.
- Ödənişlər/ARM: Profil dəhlizində CR; e2e avtorizasiya ≤ X s.
- KYC: yurisdiksiya profillərinə görə pass-rate və SLA mərhələləri.
- Live/SFU/CDN: e2e 2-3 s, packet loss ≤ 1%, uptime ≥ 99. 9%.
- Daşbordlar: təzəlik ≤ 1-5 s; p95 render ≤ 1. 5–2. 0 s.
Səhv büdcəsi: periodlar (məsələn, 30 gün), səhv növləri (5xx, taymaut, SLO pozuntuları), auto bonus/malus qaydaları və stop düymələri.
5) Daşbordlar: qatlar və artefaktlar
1. Service Graph (zəncir düyünləri): topologiya, rps/eps, p95/p99, error-rate, saturation, yurisdiksiyalara görə heatmap.
2. Business Flow: basın → qeydiyyat → KYC → depozit → FTD → mərc/tur → ödəniş; konversiya huniləri və atributlar pəncərələri.
3. Payments/KYC: CR × geo × cihaz, arıza kodları, latency mərhələləri, şərhlər ilə auto cut-over.
4. Content/RGS/Live: round-trip, error-rate, SFU/CDN SLI, lider cədvəllər və cekpotlar.
5. Postbacks/Attribution: vaxtında, mübahisəli, dedup, kursor lag.
6. Trust & Risk: Knots scorecards (SLO/ATTR/RG/SEC), «Trace paketi üçün vaxt», Tier proqnozu.
Hər panel - formula versiyaları və changelog linkləri ilə.
6) Alertinq və eskalasiya
Çox səviyyəli SLO-alertlər: xəbərdarlıq (burn-rate 2 ×), tənqid (burn-rate 10 ×), sonrakı hərəkətlər (marşrutların/limitlərin soyudulması).
Kompozisiya triggerləri: «latency ↑ + CR ↓ + postback lag ↑» → PSP-nin deqradasiyasına şübhə.
Rol kanalları: SRE/Payments/KYC/RGS/Marketinq/Maliyyə/Legal/RG; kontekstə dərhal 'traceId '/' runbook '/stop düyməsi daxildir.
Səs-küylü metriklər üçün Snooze/Muting siyasəti, lakin P1 susturma olmadan.
7) RCA и war-room
Trace paketi üçün SLA: 60-90 s (P1/P2).
RCA şablon «günahkar axtarışsız»: fakt → hipotez → eksperiment → çıxış → hərəkət → follow-up.
Diff relizlər (hadisələr § 2): hadisə pəncərəsində toqquşmaların/düsturların/konfiqurasiyaların avtomatik yoxlanılması.
Post-mortem SLO: detektivə qədər, fasiləyə qədər, geri çəkilməyə qədər, sabitləşməyə qədər, qeydlərin yayımlanmasına qədər.
8) Məlumat keyfiyyəti və mənşə xətti
Data Quality SLI: dolğunluq, təravət, unikallıq ('eventId'), valyuta/lokal uyğunluq.
Lineage: vitrinlərdən/panellərdən mənbələrə (sxemlər/versiyalar/sahiblər).
Oracle: imzalanmış aqreqatlar (GGR/NetRev/SLO/RG), 'formulaVersion', 'hash (inputs)', 'kid', dövr.
WORM-audit: formula/açar/istisnalar/invoys dəyişməz log.
9) Gizlilik, yurisdiksiya və təhlükəsizlik
Zero Trust: mTLS, qısa ömürlü tokenlər, egress-allow-list, açar rotasiyası/JWKS.
PII-minimallaşdırma: 'playerId' tokenizasiyası, detokinizasiya yalnız seyf zonalarında; log/metriklərdə PN qadağası.
ABAC/ReBAC/SoD: giriş «öz və razılaşdırılmış görürəm»; «Ölçürəm ≠ təsir edirəm ≠ dəyişirəm».
Bazarlar üçün məlumatların lokallaşdırılması və DPIA/DPA; purge siyasətləri və TTL.
10) Telemetriya dəyəri və kardinallığın idarə edilməsi
Cardinality Budget: etiket limitləri (userId/URL/UA - qadağandır; routeId/campaignId - icazə verilir).
Histoqramlar «uçuşda» persentillər əvəzinə; seçici detal üçün exemplars.
Adaptive sampling tracks: əsas faiz + səhvlər üçün prioritet/yavaş yollar/yeni versiyalar.
Downsampling/roll-ups (1s → 1m → 5m); RAW treyslərini qısa saxlamaq, aqreqatları daha uzun saxlamaq.
SLO-first: Yalnız həlləri dəstəkləyən şeyləri (SLO/Finance/Complayance) toplayırıq.
11) İdarəetmə ilə inteqrasiya (SRE, biznes)
Guardrails buraxılışlar və kampaniyalar SLO/səhv büdcələri ilə bağlıdır.
Auto cut-over marşrutları APM/KYC dəhlizlər xaricində metr çıxarkən.
RevShare/Limitlər: 'Q' keyfiyyət çarpanı (SLO/ATTR/RG/SEC-dən) dərəcələrə və kvotalara təsir edir.
Knots Scorecards → trafik prioritetləşdirilməsi və pilot giriş.
12) Anti-nümunələr
Formul metriklərinə və müxtəlif pəncərələrə görə «çoxlu həqiqətlər».
Yükün altında tarixin offset-paginasiyası (kursorlardan istifadə edin).
log/panellərdə PII; BI-yə PD ixracı.
Zoopark postbekov və imzalanmamış vebhuks → dubllar/dəliklər/mübahisələr.
'traceId' olmadan qrafik: panel gözəldir, səbəbsizlik yoxdur.
burn-rate və rol marşrutları olmadan alert fırtına.
N + 1/DR olmadan SPOF-telemetriya aqreqatoru.
TTL/audit olmadan istisnalar - «yapışqan» override.
13) Çek vərəqləri
Dizayn
- Siqnalların və sxemlərin ontologiyası; versiyalar və sahibləri.
- W3C traceparent hər yerdə; Idempotency-Key kritik yollarda.
- SLI/SLO və səhv büdcələri; stop düymələri; guardrails.
- Kardinallıq, sampling, retention/roll-ups siyasətləri.
- Gizlilik/PII: tokenizasiya, DPA/DPIA, lokalizasiya.
- Role-based alerts və runbooks.
Başlanğıc
- yollar/metrik/yuvaları üçün Conformance; synthetic-qaçışlar.
- Buraxılışlarda kanar telemetri; əvvəl/sonra müqayisə panelləri.
- War-room playbook; Trace paketi üçün SLA.
Əməliyyat
- Həftəlik düyünlər scorecards; burn-rate hesabatlar.
- Aylıq düstur çeynjloqu və SLO/limitlərin yenidən baxılması.
- DR/xaoc-təlim aqreqatorları/şin/vitrin.
14) Yetkinlik yol xəritəsi
v1 (Foundation): əsas metriklər + log, vahid traceId, əl RCA, ilkin SLO.
v2 (Integration): OpenTelemetry hər yerdə, service graph, guardrails, oracle konveyer, rol alert.
v3 (Automation): proqnozlaşdırılan deqradasiyalar, auto-cut-over APM/KYC/RGS, smart-reconciliation, limitlərin dinamikası 'Q'.
v4 (Networked Governance): siqnalların və orakulların zəncirlərarası mübadiləsi, formula/SLO DAO qaydaları, şəffaf xəzinələr.
15) Uğur metrikası
Keyfiyyət/risk: MTTR ↓, MTTD ↓, mübahisəli <X%, avtomatik fasilə/geri çəkilmə payı, yolların əhatə dairəsi ≥ 95%.
Biznes: CR/FTD/ARPU/LTV proqnozlaşdırıla bilən uplift, postbeklərin dəqiqliyi və vaxtında, NetRev sabitliyi.
Texnika: p95 API/vebhuk/şin/dəhlizlərdə vitrin; aptime node/CDN/SFU ≥ 99. 9%.
İqtisadiyyat: rps/event-də Cost-to-Observe (CTO),% exemplars ilə aqreqatlar, RAW-ın limitlərdə saxlanması.
Komplayens: 0 PD sızması, uğurlu DPIA/DPA auditləri, WORM-loqların mövcudluğu 100%.
Qısa xülasə
Görünürlük etimadın istehsal dövrəsidir: bir ontologiya, izlər, metrik və hadisələrin kanonikası, SLO-gardrails və məlumat oracle, default məxfilik və telemetriya dəyərinin intizamı. Bu çərçivə zəncirləri və düyünləri şəffaf, proqnozlaşdırıla bilən və sübut edilə bilən, ekosistemi isə reaksiyada sürətli və risklərə davamlı edir.