Devrelerin ve montajların görünürlüğü
1) Görev ve gözlem nesnesi
Devrelerin ve düğümlerin görünürlüğü, bir ekosistemin devreler arası akışların (trafik/olaylar/ödemeler/CCM/içerik) ve düğümlerin (operatörler, stüdyolar/RGS, PSP/APM, KYC/AML sağlayıcıları, bağlı kuruluşlar, toplayıcılar, akış düğümleri) davranışını görme, ölçme ve açıklama yeteneğidir. Hedefler:- Uçtan uca nedensellik (faturaya tıklayın);
- Öngörülebilir SLO'lar ve yönetilen risk;
- Hızlı RCA ve düşük MTTR;
- Minimum telemetri maliyetiyle kanıtlanabilirlik (imzalı özetler, WORM denetimi).
2) Gözlemlenebilirlik ontolojisi
Varlıklar:- 'ChainId', 'nodeId', 'rol' (operatör/stüdyo/psp/kyc/affiliate/stream), 'yargı yetkisi', 'env' (prod/stage/sbx), 'traceId', 'spanId', 'routeId', 'campaignId', 'tableId', 'apmRouteId'.
- 'click', 'session _ start', 'registration', 'kyc _ status', 'deposit/withdraw', 'ftd', 'bet/spin', 'reward _ granted', 'postback _ sent/received', 'jackpot _ contribution/trigger', 'stream _ sli','rg _ guardirail _ hit '.
- Ölçümler (KIRMIZI/KULLANIM/Altın Sinyaller), İzler (W3C traceparent), Günlükler (yapısal), Olaylar (iş), RUM/Sentetik (istemci/kanallar), Denetim/WORM (değiştirilemez).
Tüm şemalar Schema Registry'de çevrilir; Zaman UTC/ISO-8601.
3) Taşıma ve korelasyon
OpenTelemetry: metrikler/günlükler/yayılma alanları için tek bir format; TSDB/işleyicileri için ihracatçılar.
W3C Trace Bağlam: 'Traceparent'/' tracestate' yönlendirmeler, API'ler, webhooks, bus aracılığıyla atılır.
Idempotency: Kritik yollarda 'Idempotency-Key' (ödemeler/geri ödemeler).
Tam anlamıyla bir kez: hash büyükbaba/imleç geçmişi, webhook tekrar kaydı.
Örnekler: Gecikme histogramlarını hızlı RCA'lar için belirli 'traceId'ile ilişkilendirir.
4) SLI/SLO modeli ve hata bütçeleri
Altın Sinyaller: gecikme, trafik, hatalar, doygunluk.
KIRMIZI: Oran, Hatalar, Süre.
USE (altyapı): Kullanım, Doygunluk, Hatalar.
- Webhooks: 99 ≥ teslimat. %9, p95 ≤ 1-2 s.
- Ortak API: p95 ≤ 150-300 ms, hata oranı ≤ 0. 3–0. 5%.
- Olay otobüsü: Gecikme p95 ≤ 200-500 ms; 99 ≥ teslimat. 9%.
- Ödemeler/AWS: Profil koridorunda CR; E2e yetkilendirme ≤ X s.
- KYC: Yargı profili ile geçiş oranı ve SLA aşamaları.
- Canlı/SFU/CDN: e2e 2-3 s, paket kaybı ≤ %1, çalışma süresi ≥ 99. 9%.
- Panolar: tazelik ≤ 1-5 s; P95 render ≤ 1. 5–2. 0 s.
Hata bütçesi: düzeltme süreleri (örneğin, 30 gün), hata türleri (5xx, zaman aşımları, SLO ihlalleri), otomatik bonus/malus kuralları ve durdurma düğmeleri.
5) Gösterge panoları: katmanlar ve eserler
1. Servis Grafiği (tsepi↔uzly): topoloji, rps/eps, p95/p99, hata oranı, doygunluk, yargı yetkisine göre ısı haritası akışları.
2. İş Akışı: klik ^ registratsiya ^ KYC ^ depozit ^ FTD ^ stavka/raund ^ vyplata; dönüşüm hunileri ve ilişkilendirme pencereleri.
3. Ödemeler/KYC: CR × coğrafi × cihazı, arıza kodları, gecikme aşamaları, ek açıklamalarla otomatik kesme.
4. İçerik/RGS/Canlı: gidiş-dönüş, hata oranı, SFU/CDN SLI, leaderboards ve jackpots.
5. Postbacks/Attribution: zamanlama, tartışma, dedup, imleç gecikmeleri.
6. Güven ve Risk: düğüm puan kartları (SLO/ATTR/RG/SEC),'her iz paket için zaman ", Katman tahmini.
Her panel formül sürümleri içerir ve bir changelog'a bağlar.
6) Uyarı ve tırmanma
Çok seviyeli SLO uyarıları: uyarı (burn-rate 2 ×), eleştiri (burn-rate 10 ×), sonraki eylemler (cooling routes/limits).
Bileşimsel tetikleyiciler: "latency↑ + CR↓ + postback lag↑" - PSP bozulması şüphesi.
Rol kanalları: SRE/Ödemeler/KYC/RGS/Pazarlama/Finans/Yasal/RG; Bağlam hemen 'traceId'/' runbook'/stop düğmesini etkinleştirir.
Gürültülü metrikler için erteleme/sessize alma politikaları, ancak P1 sıkışma yok.
7) RCA и savaş odası
İz paket başına SLA: 60-90 s (P1/P2).
RCA paterni "suçlamak yok": olgu, hipotez, deney, takip, eyleme geçirmek.
Release diff (§ 2 events): Olay penceresinde çarpışmaların/formüllerin/yapılandırmaların otomatik kontrolü.
Ölüm sonrası SLO: Tespit etme, duraklatma, geri alma, dengeleme, notların yayınlanma zamanı.
8) Veri kalitesi ve soyu
Veri Kalitesi SLI: bütünlük, tazelik, benzersizlik ('eventId'), para birimlerinin/yerellerin tutarlılığı.
Lineage: Vitrinlerden/panellerden kaynaklara (şemalar/versiyonlar/sahipler).
Oracles: imzalı agregalar (GGR/NetRev/SLO/RG), 'formül' Versiyonu ',' hash (girdiler) ','çocuk', nokta.
WORM denetimi: değişmez formül/anahtar/istisna/fatura günlükleri.
9) Gizlilik, yargı alanları ve güvenlik
Sıfır Güven: mTLS, kısa ömürlü belirteçler, çıkış-izin-listesi, anahtar rotasyon/JWKS.
PII minimizasyonu: 'playerId'nin tokenizasyonu, sadece güvenli bölgelerde detokenizasyon; Günlüklerde/metriklerde PD yasağı.
ABAC/ReBAC/SoD: "onlarınkini gör ve kabul et" erişimi; "Ölçü ≠ etki ≠ değişim".
Pazarlar için veri yerelleştirme ve DPIA/DPA; tasfiye politikaları ve TTL.
10) Telemetri ve kardinalite yönetimi maliyeti
Kardinalite Bütçesi: etiket sınırları (userId/URL/UA - yasaktır; RouteId/campaignId - izin verilir).
Anında yüzdelik yerine histogramlar; Seçici detaylandırma için örnekler.
İzlerin uyarlanabilir örneklemesi: hatalar/yavaş yollar/yeni sürümler için temel yüzde + öncelik.
Yaşa göre altörnekleme/roll-up'lar (1s - 1m - 5m); RAW izlerinin depolanması kısa, agregalar daha uzundur.
SLO-first: Yalnızca çözümleri destekleyenleri toplayın (SLO/finans/uyumluluk).
11) Yönetimle entegrasyon (SRE ↔ işletme)
Korkuluk sürümleri ve kampanyaları SLO/hata bütçelerine bağlıdır.
Metrikler koridorların ötesine geçtiğinde otomatik kesme APM/KYC rotaları.
RevShare/Limits: 'Q' kalite çarpanı (SLO/ATTR/RG/SEC'den) oranları ve kotaları etkiler.
Düğümlerin puan kartları - trafik önceliği ve pilotlara erişim.
12) Anti-desenler
Formül metrikleri ve farklı pencerelerle "birçok gerçek".
Yük altında geçmiş ofset sayfalama (imleçleri kullanın).
Günlüklerde/panellerde PII; PD, BI'ye ihracat yapar.
Postback Hayvanat Bahçesi ve imzasız webhooks - alır/delikler/anlaşmazlıklar.
'TraceId' olmadan grafik: panel güzel, nedensellik yok.
Yanma oranı ve rol yapma yolları olmadan uyarı fırtınası.
N + 1/DR olmadan SPOF telemetri toplayıcı.
TTL/denetim dışı istisnalar yapışkan geçersiz kılmalardır.
13) Kontrol listeleri
Tasarım
- Sinyal ve devrelerin ontolojisi; versiyonları ve sahipleri.
- W3C traceparent her yerde; Kritik yollarda Idempotency-Key.
- SLI/SLO ve hata bütçeleri; durdurma düğmeleri; korkuluklar.
- Kardinalite, örnekleme, tutma/roll-up politikaları.
- Gizlilik/PII: tokenization, DPA/DPIA, yerelleştirme.
- Rol tabanlı uyarılar ve çalışma kitapları.
Başlat
- İzler/metrikler/günlükler için uygunluk; Sentetik koşular.
- Sürümler için kanarya telemetri; öncesi/sonrası karşılaştırma panelleri.
- Savaş odası oyun kitapları; İz paket başına SLA.
Operasyon
- Haftalık düğüm puan kartları; yanma oranı raporları.
- Aylık formül değişimleri ve SLO/limit revizyonları.
- Toplayıcı/lastik/vitrin DR/xaoc egzersizleri.
14) Olgunluk yol haritası
V1 (Temel): temel metrikler + günlükler, tek traceId, manuel RCA'lar, birincil SLO'lar.
V2 (Entegrasyon): Her yerde OpenTelemetry, servis grafiği, korkuluklar, oracle boru hattı, rol yapma uyarıları.
V3 (Otomasyon): tahmini bozulma, otomatik kesme APM/KYC/RGS, akıllı mutabakat, 'Q'ile limit dinamikleri.
V4 (Ağa Bağlı Yönetişim): Zincirler arası sinyal ve oracle değişimi, formül/SLO DAO kuralları, şeffaf hazineler.
15) Başarı metrikleri
Kalite/risk: MTTR↓, MTTD↓, tartışılabilirlik <% X, otomatik duraklatma/geri alma payı, iz kapsamı ≥ %95.
İş: öngörülebilirliği artırmak CR/FTD/ARPU/LTV, geri dönüşlerin doğruluğu ve zamanlaması, istikrar NetRev.
Teknik: Koridorlarda p95 API/webhooks/lastikler/vitrinler; düğüm çalışma zamanı/CDN/SFU ≥ 99. 9%.
Ekonomi: Rps/olay başına Cost-to-Observe (CTO), örneklerle % agrega, sınırlarda RAW depolama.
Uyumluluk: 0 PD sızıntısı, başarılı DPIA/DPA denetimleri, WORM günlüklerinin %100 kullanılabilirliği.
Kısa özet
Görünürlük bir üretim güven döngüsüdür: bir ontoloji, uçtan uca izler, metrikler ve olayların bir kanonu, SLO gardrails ve veri oracles, varsayılan gizlilik ve telemetri maliyet disiplini. Böyle bir çerçeve, zincirleri ve düğümleri şeffaf, öngörülebilir ve kanıtlanabilir ve ekosistemi duyarlı ve riske dayanıklı hale getirir.