Gerçek zamanlı izleme
(Bölüm: Operasyonlar ve Yönetim)
1) Neden gerçek zamanlı izleme
Gerçek zamanlı "milisaniye büyüsü'değil, sapmaları tespit etme ve SLO pencerelerinde hareket etme yeteneğidir. IGaming/fintech için bu şu anlama gelir:- Kritik rotaların kullanılabilirliği ve gecikmelerinin (p50/p95/p99) anlık görünürlüğü;
- Olay bütünlüğü kontrolü (web kitapları, ödemeler, RTP/limitleri)
- Finansal güvenlik (1k olayların çıkışı/maliyeti, takas/emanet);
- (uygunluk makbuzları, PII hijyeni).
2) Mimari anahat
Katmanlar:1. Üreticiler: hizmetler, SDK'lar, kenar düğümleri, ödeme/içerik sağlayıcıları.
2. Ingest ağ geçitleri: 'metrics/traces/logs/events' alıcıları backpressure ve kota ile.
3. Otobüs/akış: katılımlı broker (kiracı/bölge/rota), tekrar oynatma için tutma.
4. Akış işleme: pencere toplamaları (T + 5s/T + 1m), tekilleştirme, zaman normalleştirme, SLI hesaplaması.
5. Depolar: zaman serisi (RAM), OLAP (geçmiş), WORM günlükleri (denetim).
6. Analitik ve uyarı: SLO kuralları, istatistiksel dedektörler, anormal.
7. Panolar ve rünler: Eylemler için UI (pause/re-route/rollback/raise-limit).
Temel uygulamalar:- Metrikler/olaylar için veri sözleşmeleri (şemalar, sürümler, doğrulama).
- Alan etkinliklerinin garantili yayınlanması için Outbox/CDC.
- 'Trace _ id/event _ id'tarafından idempotency ve dedup.
- Saat senkronizasyonu: NTP/PTP, 'çarpık' düzeltme, zaman şelaleleri (olay vs işlem süresi).
3) Telemetri türleri ve semantik
Metrikler (SLI): p-persentil sayaçları/gages/histogramlar.
İzler: uçtan uca 'trace _ id/span _ id', paket RPC↔sobytiya↔vebkhuki.
Günlükler: yapılandırılmış, 'tenant _ id/region/version'ile.
Ticari etkinlikler: 'PaymentAuthorized', 'WebhookDelivered', 'RTPWindowClosed'.
Makbuzlar: Makbuzlar/imzalar (finans/kritik işlemler için).
4) Zaman ve pencereler
Zaman türleri: olay zamanı, alım zamanı, işlem zamanı.
Windows: Geç olaylar için su tutma (filigran) ile sürgülü (5-30 s), geçiş (1-5 dakika).
Kompaktlık: bir akışta agrega (histogram eskizleri) - yalnızca gerekli yüzdelik kutularını saklayın.
5) Normalleştirme ve veri kalitesi
Girdi doğrulama: şema/aralıklar/gerekli alanlar; reddedildi - sebep etiketi ile karantinaya alındı.
Veri tekilleştirme: '(event_id, producer, seq)'ile; + KV bellekte "seen-cache" saklayın.
Metriklerin düzeltilmesi: "çift sayım've" düz çizgi'ye karşı (sensörler sessizdir).
Örnekleme: yüksek QPS için - uyarlanabilir, bir hata ile; Kritik SLI - dolu.
6) SLI/SLO (referans)
Kuzey Yıldızı: Bölgeye göre hedef p95'te E2E Başarı Oranı.
SLI:- Kanal/bölge başına kullanılabilirlik.
- Anahtar yolları boyunca p50/p95/p99 gecikme.
- Hata oranı/Yeniden deneme hızı.
- Webhook teslimat başarı oranı (% makbuzlarla doğrulandı).
- Fiyat/vergi tutarlılığı ('teklif = = ödeme', ± 1 küçük birim).
- Maliyet-SLI: 1k olayların maliyeti, birim başına çıkış/giriş.
- Kullanılabilirlik ≥ 99. 28 günlük pencerede %95.
- p95: vitrin ≤ 120ms, teklif/ödeme ≤ 250ms.
- Webhook'lar 99 ≥ başarılı. %5/5-dk pencere.
- Δ quote↔checkout = 0 (± 1 küçük birim).
- P1 ≤ 10 dk, MTTR ≤ 60 dk'ya tepki.
7) Uyarı ve rünler (otomatik işlemler)
Seviyeler: P1 (SLO yetmezliği/umutsuzluk), P2 (bozulma), P3 (trend/riskler).
Gürültü engelleme: 'trace _ id'ile dedup, nedensel zincirlerin korelasyonu.
- "PriceMismatch" - dizin yenileme, mutabakat 'fx _ version/tax _ rule _ version', tazminat politikası;
- WebhookLag - çalışanları yeniden düzenleme, partiyi artırma, kuyruklara öncelik verme;
- "RTP Drift -" promosyonu duraklatın, paytable/sürümünü kontrol edin, profili geri alın;
- "Çıkış Dalgalanması" - sıkıştırma/önbellek sabitleme/alternatif rotayı etkinleştirin.
- Eskalasyon: matris 24 × 7, çağrı üzerine rotasyon, kanallar (sohbet/çağrı/SMS).
8) Gösterge panoları (operasyonel widget'lar)
Platform sağlığı: kullanılabilirlik, p95/p99, hata oranı, yanmış hata bütçesi.
Entegrasyonlar/webhooks: başarı, gecikme, çiftler/idempotence, makbuzlar.
Ödeme/fiyatlar: vitrina↔checkout tutarsızlıklar, FX/Vergi sürümleri, reddetme durumları.
RTP/limitleri: theor. Vs gözlemlenen RTP, limitlerin harekete geçirilmesi, maruz kalma.
FinOps: 1k başına maliyet, çıkış/giriş, bütçeler/sınır uyarıları.
Güvenlik/Uyumluluk: SoD, JIT, MFA, PII istekleri, Girit imzaları. operasyonlar.
Serbest Bırakma/Bayraklar: özellik durumları, kanarya bölgeleri, olaylarla bağlantı.
9) Çok bölgeli ve çok kiracılı
'Kiracı/bölge'ye göre bölümleme.
Bölgelere göre bağımsız SLO'lar/kotalar; Bölgeler arası uyarıların kısıtlamaları (böylece yerel bir arıza tüm dünyayı "boyamaz").
Veri güven bölgeleri: PII/finans - yalnızca izin verildiğinde; Genel olarak pano - kümeler/karmalar.
10) Güvenlik, gizlilik, kanıtlanabilirlik
Giriş kimlik doğrulaması: anahtarlar/karşılıklı TLS, hız sınırları, paket imzaları.
PII minimizasyonu: ilkeller yerine belirteçler, maskeler/hash tanımlayıcıları.
Makbuzlar: Finansal/kritik olaylar için DSSE/imzalar.
WORM günlükleri: denetim için değişmez günlükler, Merkle dilimleri.
Erişim Kontrolü: RBAC/ABAC/ReBAC, hassas paneller için JIT.
11) Anormal ve korelasyonlar
Korkuluklar: SLI tarafından statik eşikler.
İstatistikler: Trendler için Shewhart/CUSUM/EWMA.
ML/sinyaller: mevsimsellik/kanallar/ASN/sağlayıcılar; Bültenleri/ficheflags etkisi.
Korelasyonlar: Olayları sürümlerle, yapılandırma değişiklikleriyle, trafik artışlarıyla, promosyonlarla ilişkilendirin.
12) Performans ve maliyet
Telemetri bütçesi: QPS/hacim başına sınır; "Konuşkan" metriklerin reddedilmesi.
Sıkıştırma/toplama: altörnekleme geçmişi (1s - 10s - 1min), mağaza yüzdelik skeçleri.
Çıkış kontrolü: yerel önbellekler/toplamlar, kenar ön işleme.
Maliyet farkında uyarılar :/1k olaylarının veya çıkışın maliyeti planın ötesine geçerse bir sinyal.
13) API Entegrasyonları ve Sözleşmeleri
'POST/ingest/metrics' (JSON/OTLP): kimlik doğrulama, kotalar, şema/sürüm.
'POST/ingest/events' (signed): dedup/TTL/nonce.
'GET/kpis? filters = region, tenant, route '- UI için kümeler.
'GET/traces/{ trace _ id}' - zinciri çözün.
Вебхуки: 'IncidentRaised', 'CotaCapReached', 'PriceMismatch', 'WebhookLag', 'RTPDrift'.
14) Olay oyun kitapları (kısa biçimli)
P1 Dostupnost↓: yönlendirmeyi değiştirin, devre kesicileri etkinleştirin, müşteri zaman aşımlarını azaltın, acil durum durumu sonrası.
P1 Quote≠Checkout: promosyon/fiyat dinamiklerini dondur, önbellek kuvveti sakatlığı, FX/Vergi sürüm karşılaştırması, tazminat.
P1 WebhookLag: çalışanları/rekabet gücünü artırın, parti boyutu, önemsiz web kitaplarını devre dışı bırakın.
P2 RTP Drift: bonus duraklatma, paytable/sürüm doğrulama, izleme penceresi uzantısı, rapor.
P2 Çıkış Dalgalanması: sıkıştırma, kenar önbelleği, trafiğin hareketli kısmı, geçici kotalar.
15) Kendini izlemenin kalite metrikleri
UI/API kullanılabilirliği ≥ 99. 9%.
Tazelik: Operasyonel paneller için günlük ≤ 30 s güncelleyin.
Bütünlük: ≥ 99. Kaynakların %5'i pencereye veri gönderdi.
Doğruluk: referans standart ≤ 0 ile tutarsızlık. 1%.
MTTA/MTTR uyarı boru hattı: P1 ≤ 1/10 dk.
16) Uygulama kontrol listesi
- Kuzey Yıldızı ve SLI/SLO'yu bölgeye/kanala göre tanımlayın.
- Tüm telemetri akışları için veri sözleşmeleri ve şemaları girin.
- Alımları kota, geri basınç ve veri tekilleştirme ile yapılandırın.
- Filigranlı veri yolu/akış ve pencere toplamalarını dağıtın.
- Zaman serisi/OLAP/WORM ve fatura paketi oluşturun.
- Başlangıç uyarıları + otomatik rünler, tırmanma matrisi 24 × 7.
- Role göre panolar oluşturun: SRE/Product/FinOps/Compliance/Partners.
- PII minimizasyonunu, imzaları ve RBAC/ABAC/ReBAC'ı ekleyin.
- FinOps metriklerini (maliyet/1k, çıkış, depolama) ve ağız korumalarını girin.
- Hold GameDay: webhook lag, fiyat senkronizasyon dışı, retray-burst, bölge hatası.
17) iGaming/fintech bağlantısı
RTP ve Limitler: Gözlemlenen RTP'nin kontrolü ve dakikalar/saatler içindeki limitler, "fazla/düşük ücret" konusunda uyarılar.
Ödemeler/harcamalar: Yetkilerin uçtan uca takibi, takas ve makbuzlar; SLA PSP.
İştirakler: nakliye dönüşümleri (web kitapları) ve anlaşmazlıklar - emanet/uzlaşma.
Promo: trafik artışları - kuyruk koruması ve çıkış fiyatı; Bütçeler üzerindeki korkuluklar.
18) SSS
Gerçek zamanlı her yerde zorunlu mu?
Hayır. "Sıcak" konturlar - saniye/dakika (olaylar, ödemeler, webhooks). Ekonomi/analitik - dakika/saat.
Yanlış alarmlarla nasıl başa çıkılır?
SLO yönelimli koşullar, 'trace _ id'ile toplama ve dedup, salımlarla korelasyon, eşik histerezisi.
Tüm kayıtları sonsuza kadar saklamam gerekiyor mu?
Hayır. WORM - yalnızca denetim/kritik konular için; Gerisi downsampling/TTL.
Neden "quote≠checkout" bulundu?
FX/Vergi sürümleri, önbellek sakatlığı, yuvarlama. Sürümler, SWR stratejisi ve tutarlılık testleri ile işlenir.
Özet: Gerçek zamanlı izleme bir disiplindir: sıkı veri sözleşmeleri, pencere hesaplamaları, normalleştirilmiş zaman, makbuzlar ve SLO uyarıları içeren bir paket, ayrıca her widget'ta bir eylem düğmesi. Doğru yaparak, MTTR'yi azaltıyor, bütçeyi kontrol altında tutuyor ve ekosistemi bölgeye ve kiracıya göre güvenle ölçeklendiriyorsunuz.