GH GambleHub

Gözlemlenebilirlik ve durum kontrolü

1) Hedefler ve ilkeler

Amaç: Olayları önlemek ve SLO'yu ihlal etmeden veya OPEX'i şişirmeden hızlı bir şekilde iyileşmek için "neler olduğunu've" neden'i gerçek zamanlı olarak anlamak.
İlkeler: SLO-ilk, "altın sinyaller" (gecikme, trafik, hatalar, doygunluk), tek bir telemetri standardı (OpenTelemetry), minimum düzeyde yeterli detaylar, açıklanabilirlik, maliyet bilincine sahip gözlemlenebilirlik.

2) Gözlenebilirlik katmanları

1. Metrikler: SLI/SLO, kapasite ve eğilimler için toplamlar (RED/USE modelleri).
2. İzler: nedensel istek zincirleri, ödeme ve oyun işlemleri.
3. Günlükler/olaylar: operatör/hizmet eylemlerinin ayrıntılı bağlamı ve denetimi.
4. Sentetikler (kara kutu): Harici API/web yolu kontrolleri, PSP/KYC sağlık pingleri.
5. RUM (gerçek kullanıcı): front-line metrics (TTFB, LCP, JS hataları), geo/device dilimleri.
6. Düşük seviye telemetri: eBPF/CPU profilleme/IO/alloc, ağ persentil gecikmeleri.

3) SLI seti ve altın sinyaller

Gecikme: Kritik yollarla p50/p95/p99 (giriş, para yatırma, oran, para çekme).
Hatalar: 5xx/zaman aşımı/düşüş payı (sağlayıcılar/bankalar tarafından normalleştirilir).

Trafik/Verim: RPS/TPS, aktif oturumlar, olaylar/saniye

Doygunluk: CPU/RAM/IO yükü, kuyruk derinliği, havuz kullanımı, replikasyon gecikmesi.
İş SLI: pencere başına başarılı mevduat/% oranları, KYC/PSP dönüşüm sapmaları, ters ibraz payı.

4) Telemetri mimarisi

Standart enjeksiyon: OpenTelemetry SDK/collector - normalleştirme, örnekleme, gizlilik filtreleri - depolama (TSDB, izler, günlükler).
Korelasyon: Günlüklerde ve metriklerde trace-id/span-id (örnekler); Ödemeler/oyun etkinlikleri için tek korelasyon kimliği.
Topoloji: hizmet grafiği, canlı SLI'lara sahip bağımlı dış sağlayıcılar.
Maliyet yönetimi: saklama düzeyleri, toplamalar, dinamik örnekleme, "sıcak "/" soğuk "depolama sınıfları.

5) Metrikler: Tasarım ve kardinalite

Kurallar: Az sayıda etiket, zaman serisinde yüksek kardinalite (userId, sessionId) yasağı; Bu tür ayrıntılar - sadece rotalarda/günlüklerde.
KIRMIZI/KULLANIM: İstekler-Hatalar-Süre для API; Altyapı için Kullanım-Doygunluk-Hatalar.
Örnekler: yüksek yüzdeliklerin belirli iz örneklerine bağlanması.
İş metrikleri: $/RPS, PSP bankası/GEO dönüşümü, sağlayıcı esnekliği.

6) İzleme: Derinlik ve Örnekleme

Bağlam: iz bağlamını ön tarafa atıyoruz? API? Broker? Işlemciler? Veritabanları/PSP.
Örnekleme: temel %1-10, anomaliler ile - kurallara göre dinamik artış (kuyruk tabanlı).
Odak: ödeme akışı (init> auth> yakalama/yerleşme), oyun işlemleri (bahis> yerleşme), KYC (init> doğrulama).
Ek açıklamalar: PSP-yanıt kodu, banka-BIN/ihraççı-kategori, bölge, risk oranı.

7) Günlükler ve denetimler

Yapılandırılmış günlükler: JSON, profile göre seviye (prod üzerinde INFO, hata ayıklamada DEBUG).
Gizlilik filtreleri: PII maskeleme, günlüklerde ham KYC belgelerinin yasaklanması.
Denetim olayları: kim/ne/nerede/ne zaman/neden, bilet kimliği, yüksek riskli işlemler için ön/posta değerleri (bonuslar, limitler, PSP yönlendirmesi).
Uygun olmama: WORM/değişmez, imza, politika ile saklama.

8) Durum kontrolü (sağlık)

Liveness/Readiness/Startup: doğru örnekler (liveness'ta dış bağımlılıkları kontrol etmeyin).
Bozulmuş mod: açık hizmet bozulması bayrakları, böylece uyarılar ve durum sayfası tutarlı olur.
Bütçe sağlığı: Yakma oranı hata bütçesi (hızlı/yavaş pencere), kaynaklara ve kuyruklara göre boşluk.

9) Uyarı ve erken uyarı

SLO uyarıları: "ham" p95 yerine hata bütçesine göre (4 saatlik ve 1 saatlik pencereler).
Anomaliler: 5xx patlamaları için STL/IQR/çevrimiçi dedektörler, belirli bir GEO/bankada PSP yetkileri düşer.
Kök neden ipuçları: Uyarıları en son sürümlerle/phicheflags/planlı çalışmalarla ilişkilendiririz.
Çalışma kitapları: Her uyarının bir oyun kitabına, grafiklere, "hızlı kontrollere" bağlantıları vardır.

10) Gösterge panoları (kim ne görür)

Exec: çalışma süresi/SLO, yakma oranı, başarılı mevduat/oranlar, sağlayıcı durumu, kapasite tahmini ve $/RPS.
SRE/platform: Servis tarafından KIRMIZI/KULLANIM, kuyruklar/gecikme, havuz kullanımı, çoğaltma gecikmesi, CDN/WAF, eBPF profilleri.
Ödemeler/Risk: PSP/banka/GEO yetkilerinin başarısı, yumuşak/sert düşüşler, KYC zamanı, ters ibraz erken sinyalleri.
Destek/CS: olay durum paneli, yanıt SLA'ları, SSS makroları.

11) FinOps-Gözlemlenebilirlik

Tutma: "Ham" parçalar için 7-14 gün, daha uzun birimler; seçici - sıcak hizmetler.
Örnekleme/toplama: Anomaliye göre dinamik örnekleme, eski serilerin altörneklenmesi.
Ingest politikaları: gürültüyü kesmek (sağlık pingleri, gereksiz günlükler), yüksek kardinalite metrikleri için kotalar.
KPI maliyeti: $/GB alım, $/trace, $/SLI gösterge paneli; En iyi yiyenlerin periyodik incelemeleri.

12) Gizlilik ve uyumluluk

PII/Finans: maskeleme, tokenizasyon, telemetride veri minimizasyonu.
Coğrafi yerelleştirme: yargı yetkisine göre depolama ve işleme; Günlük dışa aktarma - yalnızca şifreleme ve TTL ile onaylanmış iş akışı aracılığıyla.
Telemetriye denetim erişimi: RBAC/ABAC, yüklemeler için SoD, istek günlüğü.

13) Olay yönetimi ve bültenleri ile entegrasyon

Durum sayfası: olay kartından otomatik güncelleme beslemesi.
Serbest bırakma kapısı: SLI kanarya analizi, burn-rate> threshold'da otomatik durdurma serbest bırakma.
Ölüm sonrası: yollar/günlüklerden zaman çizelgesi, gerçek SLI'ler ve ihlal pencereleri.

14) Uygulama uygulaması (8-12 hafta)

Ned. 1-2: kritik yolların ve SLI'nin envanteri; yığın seçimi (OTel, TSDB, günlükler, izler); bağımlılık haritası.
Ned. 3-4: 3-5 anahtar hizmetlerinde OTel uygulaması (login/deposit/rate), temel KIRMIZI/KULLANIM, günlüklerde izleme bağlamı.
Ned. 5-6: SLO ve yanma oranı uyarıları; PSP/KYC'ye göre sentetikler; İlk runbook'lar; Web/mobil için RUM.
Ned. 7-8: dinamik örnekleme, örnekler, hizmet haritası; Exec/SRE/Payments panoları.
Ned. 9-10: eBPF/sıcak darboğaz profili; Gizlilik filtreleri; kotalar/retansiyonlar.
Ned. 11-12: SLI tarafından serbest bırakma kapıları ve otomatik geri alma; Durum sayfası masa üstü öğretileri ile entegrasyon.

15) Eser desenleri

Hizmetin SLO-kartı: SLI, hedefler, pencereler, hata bütçesi, uyarılar, sahipler.
Alert Spec: metrik/durum, eşikler, deadup/sessizlik, alıcılar, çalışma kitabı.
Dashboard Spec: kitle, sorular, 6-8 widget, veri kaynağı, yenileme hızı.
Telemetri Politikası: Hangi alanlara izin verilir/yasaklanır, saklama, maskeleme, dışa aktarma.
Maliyet İnceleme Paketi: Üst Seri/Log Akışları, Örnekleme Teklifi/TTL, Beklenen Tasarruf.

16) Gözlemlenebilirlik fonksiyonu KPI

MTTA/MTTR (SLO-uyarı uygulamasından sonra iyileştirme).
Kullanıcı şikayetlerinden önce sentetik/SLI tarafından tespit edilen olayların %'si.
Manuel müdahale olmadan SLI ile kapıyı geçen bültenlerin oranı.
Tanılamayı sürdürürken telemetri başına $/RPS'de azalma.
Kritik yolların izleme kapsamı (> %90).
Korelasyonun doğruluğu "gerçek SLI ↔ durum güncellemesi".

17) Antipatterns

"Her şeyi kaydedin" - maliyet ve gürültü patlaması.
SLO/burn-rate yerine "raw" metriklerinde uyarılar - çağrı cihazı yorgunluğu.
Metriklerin yüksek kardinalitesi (userId) - TSDB fırtınaları.
İş bağlamı olmayan yollar (PSP/banka/GEO) - içgörü yok.
Gözlemlenebilirliğin bültenler/olaylarla ilişkisi yoktur - telemetri ayrı yaşar.

Toplam

Gözlemlenebilirlik ve durum kontrolü bir dizi araç değil, yönetilen bir sistemdir: doğru SLI/SLO - standartlaştırılmış telemetri ve korelasyon - SLO uyarı ve runbook'lar - sürümler ve durum iletişimi ile entegrasyon - maliyet bilincine sahip operasyon ve gizlilik. Böyle bir döngü, aşırı trafik zirvelerinde bile erken sinyaller, hızlı RCA ve iş esnekliği sağlar.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.