Telemetri konuları
1) Amaç ve bağlam
Telemetri akışları, platformun performansı hakkında sürekli bir gözlemsel veri akışı sağlar: neler oluyor, neden ve ne kadara mal oluyor. Bu, iGaming'de depozito/bahis düşüşünün erken tespiti, dış sağlayıcıların (PSP/KYC/oyun stüdyoları) görünürlüğü ve kanıtlanabilir SLO/uyumluluk uyumluluğunun anahtarıdır.
2) Telemetri kaynak haritası
Metrikler (TSDB): KIRMIZI/KULLANIM, ticari SLI (yetkilerin başarısı, başarılı bahislerin yüzdesi).
OTel: Önden istek zincirleri - API - brokerler - veritabanı/PSP.
Günlükler (yapılandırılmış): olaylar, denetim işlemleri, hatalar.
RUM: TTFB/LCP, JS hataları, geo/device.
Sentetikler: Farklı GEO'lardan harici deneme işlemleri (giriş/depozito/kum oranı).
Düşük seviye telemetri: eBPF/CPU profilleme/IO/alloc, ağ p95/p99.
Harici durumlar: webhooks/PSP/KYC/CDN/WAF havuzları.
3) Standartlar ve şemalar
Lingua franca olarak OpenTelemetri: Nitelik semantiğinin birleştirilmesi (hizmet. İsim, dağıtım. Çevre, enduser. id - maskelenmiş, trace/SpanID, PSP kodları).
Şema kuralları: sürüm oluşturma, günlükler/yollar için şema kaydı, yalnızca ikili bayrak ve grace dönemi boyunca "kırma-değişiklikler".
Korelasyon-ID: Tüm katmanlar üzerinden ödeme/bahis için tek 'korelasyon _ id' + metrik yüzdeliklerde örnekler.
4) Enjeksiyon konveyörü (yüksek seviye)
1. Üreticiler: SDK/ajanlar/toplayıcılar (düğümlerde OTel Collector).
2. Kenar arabellekleme: sınırları olan yerel kuyruklar (bellek/disk).
3. Taşıma: gRPC/HTTP OTLP - idempotency anahtarlarıyla mesaj aracısı (Kafka/Pulsar).
4. İşlemciler: normalleştirme, zenginleştirme (GEO/kiracı/kanal), PII filtreleri, ince örnekleme.
5. Fan çıkışı: TSDB'de (metrikler), izleme deposunda, günlük sisteminde, göl/DWH'de, uyarı/kurallarda.
6. Tüketiciler: gösterge panoları, SLO uyarıları (yanma oranı), araştırmalar, durum sayfası, otomatik kapıları serbest bırakın.
5) QoS ve akış sınıfları
Sınıf A (gerçek zamanlı, P1): SLI/SLO, sentetikler, anahtar sağlayıcılar (PSP/KYC). Teslimat SLA: <5-10c, ≥99. 9%.
B Sınıfı (ameliyathaneler): RCA, SLA için yollar/günlükler: <1-2 dk.
Sınıf C (analitik): Gölde/DWH'de kümeler ve kümeler, SLA: saat/gün.
Sınıf yönlendirme - önceliklendirme, farklı istekler, bireysel kuyruklar/konular.
6) Örnekleme, toplama, tutma
Metrikler: Tarihsel dizilerin aşağı örneklenmesi (1s - 10s - 1m), yüzdelik kümeler, örnekler.
Yollar: kuyruk tabanlı örnekleme (anomaliler, PSP hataları, p99- "patlamalar" için artış payı).
Günlükler: profil seviyesi, sıkıştırma, gürültü reddi (sağlık-pingleri, satışta DEBUG - yasaktır).
Tutma: "Sıcak" (7-14 gün detay), "soğuk" (birimler/arşiv). Sınıf başına veri ve maliyet politikaları.
7) Gizlilik ve uyumluluk
PII hijyeni: tanımlayıcıların maskelenmesi/tokenizasyonu; Telemetride CCM belgelerinin/kart belirteçlerinin yasaklanması.
Coğrafi yerelleştirme: yargı yetkisine göre depolama; dışa aktarma - yalnızca onaylanmış iş akışı (şifreleme, TTL, denetim) aracılığıyla.
Erişim kontrolü: Telemetri depolarına RBAC/ABAC, yüklemeler için SoD.
8) Akış güvenilirliği
Idempotence: olay anahtarları, işlemcilerde dedup.
Geri baskı: kiracı/hizmet başına enjeksiyon sınırları; Düşük öncelikli aşırı yükleme alanları için bırakma ilkeleri.
Tekrarlar - yeniden işleme için broker ≥72 h'de saklayın.
Dead-letter: DLQ'yu uyarılarla güvenceye almak için yönlendirme hataları (şema, boyut, PII ihlali).
Sürüm oluşturma: Devreleri değiştirirken "çift akış" (v1 + v2) ve tüketici geçişi.
9) Çok kiracı ve izolasyon
Her olayda 'tenant _ id/brand/region' etiketleri; marjinal kotalar ve bütçeler.
Topikaller tarafından A/B akışlarının izolasyonu; Enjeksiyon ve depolama konusunda showback/ters ibraz.
İhracat sırasında kiracı sınırına maskeleme/toplama.
10) Akış dizini (örnek alanlar)
Tanımlayıcı: 'telemetri. ödemeler. auth. başarı. oranı. 'euu
Sınıf: A (gerçek zamanlı)
Схема: '{zaman damgası, kiracı, bölge, psp, bank_bin_group, success_rate, pencere}'
Kaynak: OTel Collector + PSP-router metrikleri
Tüketiciler: SLO uyarıları, Exec panosu, durum sayfası
Tutma: 30 gün boyunca sıcak, 12 ay boyunca agrega
Sahibi: Ödemeler SRE, dpo-sahibi (gizlilik)
Akış SLO: gecikme <10 c p95, kayıp <0. %1/gün
11) Uyarı ve bültenlerle entegrasyon
Mevduat/oranlar için yanma oranı (hızlı/yavaş pencere) ile SLO uyarıları.
Release-gates: SLI kanarya analizi; Bozulma sırasında otomatik durdurma/geri alma.
Durum sayfası: olay kartı + SLI birimlerinden beslemeyi güncelleyin.
12) Bir dizi anahtar gösterge paneli
Exec: çalışma süresi, yanma oranı, yetkilerin/oranların başarısı (GEO/PSP tarafından), sağlayıcı durumu, $/RPS telemetrisi.
SRE/Platform: RED/USE by service, lag queues, outlier detection, eBPF profilleri.
Ödemeler/Risk: Banka dönüşümü/PSP, yumuşak/sert düşüşler, KYC SLA, erken ters ibraz sinyalleri.
Maliyet-obs: kaynağa göre enjeksiyon hacmi, kardinalitenin üst etiketleri, akışa göre maliyet.
13) Gözlemlenebilirlik Finansmanı (FinOps)
KPI maliyeti: $/GB alım, $/trace, $/SLI-dashboard; "Ağır" metrikler ve etiketler hakkında rapor verin.
Optimizasyonlar: toplama ve altörnekleme, dinamik örnekleme, geveze günlükleri temizleme, önemli depolama sınıfı.
Politikacılar: Yüksek kardinalite kotaları, ihraç sıklığı sınırlamaları, planların dörtte bir kez gözden geçirilmesi.
14) Süreçler ve roller
Veri/Gözlemlenebilirlik Sahipleri на домены (Ödemeler, Oyunlar, Çekirdek API, Infra).
Devreler için Change-Control: PR-review, test tezgahları, tüketicilerde uyumluluk.
Masa üstü/Kaos günleri: sağlayıcıların bağlantısının kesilmesi, komisyoncu aşırı yüklenmesi, geri basınç/idempotency kontrolü.
Ölüm sonrası: Telemetri analizini içerir (sinyallerin yeterliliği, yanlış alarmlar, maliyet).
15) Uygulama Yol Haritası (8-12 hafta)
Ned. 1-2: mevcut akışların denetimi, kaynak haritası, telemetri SLO hedefleri, standartların seçimi (OTel, TSDB, yollar, günlükler).
Ned. 3-4: OTel toplayıcıları, tek korelasyon-ID, depozito/bahis için temel RED/USE + business SLI, akış dizini v0.
Ned. 5-6: kuyruk tabanlı örnekleme, GEO sentetikleri, DLQ/idempotency, gizlilik filtreleri.
Ned. 7-8: FinOps paneli (alma/tutma), altörnekleme, kardinalite kotaları, SLO uyarıları (yakma oranı).
Ned. 9-10: eBPF/düşük seviyeli sinyaller, durum sayfası beslemesi, serbest bırakma kapıları.
Ned. 11-12: kaos testleri, maliyet optimizasyonu, resmi SLA akışları, planların üç aylık gözden geçirilmesinin başlatılması.
16) Eser desenleri
Telemetri Akışı Özellikleri: id, sahip, şema, QoS sınıfı, kaynaklar, tüketiciler, saklama, SLO/uyarılar, gizlilik politikası.
Şema PR Şablonu: değişim/geçiş, uyumluluk, testler, geri alma planı.
Örnekleme Politikası: anomaliler durumunda örneklemeyi kaldırma kuralları; hedef bütçeler.
Maliyet İnceleme Paketi: $/Değer, TTL/Toplama Tekliflerine Göre En İyi Kaynaklar.
Olay Telemetri Kontrol Listesi: RCA için olması gereken grafiklerin/izlerin/günlüklerin bir listesi.
17) Telemetri akışlarının KPI/KRI
Teslimat: Sınıfa göre p95 gecikmeleri, % kayıp mesajlar/gün.
Kapsam: izleme ile kritik yolların oranı> %90, metriklerle kapatılan SLI'ların oranı.
Sinyal kalitesi: SLI'da şikayetlerden önce yakalanan olayların %'si, yanlış/cevapsız uyarılar.
Maliyet: Telemetri için $/RPS, $/trace, enjeksiyondaki "gürültü" payı.
Güvenilirlik: komisyoncu bozulmasından sonra kurtarma süresi, tekrar hacmi.
18) Antipatterns
TSDB'de yüksek kardinalite metrikleri (userId, sessionId).
Yapılandırma ve şemalar olmadan günlüklerin tek bir'kara kutusu ".
DLQ/idempotency yok - kopyalar ve tepe kayıpları.
FinOps olmadan "sonsuz" retentions - üstel fatura büyümesi.
İş bağlamı olmayan yollar (PSP/banka/GEO) - kötü teşhis.
Komutlar arasındaki tutarsız şemalar - tüketiciler kırmak.
Toplam
Telemetri akışları kontrollü, çok katmanlı bir sistemdir: OTel standartları ve şemaları, QoS ve geri basınç ile güvenilir enjeksiyon, maliyet, gizlilik ve çok kiracılı izolasyon için örnekleme/toplama ve rötuşlar, SLO uyarıları, panolar ve serbest bırakma kapıları. Böyle bir devre, erken sinyaller, hızlı RCA, öngörülebilir maliyetler ve en yüksek modlarda iGaming platformunun kararlılığını verir.