Gözlemlenebilirlik ve durum kontrolü
1) Hedefler ve ilkeler
Amaç: Olayları önlemek ve SLO'yu ihlal etmeden veya OPEX'i şişirmeden hızlı bir şekilde iyileşmek için "neler olduğunu've" neden'i gerçek zamanlı olarak anlamak.
İlkeler: SLO-ilk, "altın sinyaller" (gecikme, trafik, hatalar, doygunluk), tek bir telemetri standardı (OpenTelemetry), minimum düzeyde yeterli detaylar, açıklanabilirlik, maliyet bilincine sahip gözlemlenebilirlik.
2) Gözlenebilirlik katmanları
1. Metrikler: SLI/SLO, kapasite ve eğilimler için toplamlar (RED/USE modelleri).
2. İzler: nedensel istek zincirleri, ödeme ve oyun işlemleri.
3. Günlükler/olaylar: operatör/hizmet eylemlerinin ayrıntılı bağlamı ve denetimi.
4. Sentetikler (kara kutu): Harici API/web yolu kontrolleri, PSP/KYC sağlık pingleri.
5. RUM (gerçek kullanıcı): front-line metrics (TTFB, LCP, JS hataları), geo/device dilimleri.
6. Düşük seviye telemetri: eBPF/CPU profilleme/IO/alloc, ağ persentil gecikmeleri.
3) SLI seti ve altın sinyaller
Gecikme: Kritik yollarla p50/p95/p99 (giriş, para yatırma, oran, para çekme).
Hatalar: 5xx/zaman aşımı/düşüş payı (sağlayıcılar/bankalar tarafından normalleştirilir).
Trafik/Verim: RPS/TPS, aktif oturumlar, olaylar/saniye
Doygunluk: CPU/RAM/IO yükü, kuyruk derinliği, havuz kullanımı, replikasyon gecikmesi.
İş SLI: pencere başına başarılı mevduat/% oranları, KYC/PSP dönüşüm sapmaları, ters ibraz payı.
4) Telemetri mimarisi
Standart enjeksiyon: OpenTelemetry SDK/collector - normalleştirme, örnekleme, gizlilik filtreleri - depolama (TSDB, izler, günlükler).
Korelasyon: Günlüklerde ve metriklerde trace-id/span-id (örnekler); Ödemeler/oyun etkinlikleri için tek korelasyon kimliği.
Topoloji: hizmet grafiği, canlı SLI'lara sahip bağımlı dış sağlayıcılar.
Maliyet yönetimi: saklama düzeyleri, toplamalar, dinamik örnekleme, "sıcak "/" soğuk "depolama sınıfları.
5) Metrikler: Tasarım ve kardinalite
Kurallar: Az sayıda etiket, zaman serisinde yüksek kardinalite (userId, sessionId) yasağı; Bu tür ayrıntılar - sadece rotalarda/günlüklerde.
KIRMIZI/KULLANIM: İstekler-Hatalar-Süre для API; Altyapı için Kullanım-Doygunluk-Hatalar.
Örnekler: yüksek yüzdeliklerin belirli iz örneklerine bağlanması.
İş metrikleri: $/RPS, PSP bankası/GEO dönüşümü, sağlayıcı esnekliği.
6) İzleme: Derinlik ve Örnekleme
Bağlam: iz bağlamını ön tarafa atıyoruz? API? Broker? Işlemciler? Veritabanları/PSP.
Örnekleme: temel %1-10, anomaliler ile - kurallara göre dinamik artış (kuyruk tabanlı).
Odak: ödeme akışı (init> auth> yakalama/yerleşme), oyun işlemleri (bahis> yerleşme), KYC (init> doğrulama).
Ek açıklamalar: PSP-yanıt kodu, banka-BIN/ihraççı-kategori, bölge, risk oranı.
7) Günlükler ve denetimler
Yapılandırılmış günlükler: JSON, profile göre seviye (prod üzerinde INFO, hata ayıklamada DEBUG).
Gizlilik filtreleri: PII maskeleme, günlüklerde ham KYC belgelerinin yasaklanması.
Denetim olayları: kim/ne/nerede/ne zaman/neden, bilet kimliği, yüksek riskli işlemler için ön/posta değerleri (bonuslar, limitler, PSP yönlendirmesi).
Uygun olmama: WORM/değişmez, imza, politika ile saklama.
8) Durum kontrolü (sağlık)
Liveness/Readiness/Startup: doğru örnekler (liveness'ta dış bağımlılıkları kontrol etmeyin).
Bozulmuş mod: açık hizmet bozulması bayrakları, böylece uyarılar ve durum sayfası tutarlı olur.
Bütçe sağlığı: Yakma oranı hata bütçesi (hızlı/yavaş pencere), kaynaklara ve kuyruklara göre boşluk.
9) Uyarı ve erken uyarı
SLO uyarıları: "ham" p95 yerine hata bütçesine göre (4 saatlik ve 1 saatlik pencereler).
Anomaliler: 5xx patlamaları için STL/IQR/çevrimiçi dedektörler, belirli bir GEO/bankada PSP yetkileri düşer.
Kök neden ipuçları: Uyarıları en son sürümlerle/phicheflags/planlı çalışmalarla ilişkilendiririz.
Çalışma kitapları: Her uyarının bir oyun kitabına, grafiklere, "hızlı kontrollere" bağlantıları vardır.
10) Gösterge panoları (kim ne görür)
Exec: çalışma süresi/SLO, yakma oranı, başarılı mevduat/oranlar, sağlayıcı durumu, kapasite tahmini ve $/RPS.
SRE/platform: Servis tarafından KIRMIZI/KULLANIM, kuyruklar/gecikme, havuz kullanımı, çoğaltma gecikmesi, CDN/WAF, eBPF profilleri.
Ödemeler/Risk: PSP/banka/GEO yetkilerinin başarısı, yumuşak/sert düşüşler, KYC zamanı, ters ibraz erken sinyalleri.
Destek/CS: olay durum paneli, yanıt SLA'ları, SSS makroları.
11) FinOps-Gözlemlenebilirlik
Tutma: "Ham" parçalar için 7-14 gün, daha uzun birimler; seçici - sıcak hizmetler.
Örnekleme/toplama: Anomaliye göre dinamik örnekleme, eski serilerin altörneklenmesi.
Ingest politikaları: gürültüyü kesmek (sağlık pingleri, gereksiz günlükler), yüksek kardinalite metrikleri için kotalar.
KPI maliyeti: $/GB alım, $/trace, $/SLI gösterge paneli; En iyi yiyenlerin periyodik incelemeleri.
12) Gizlilik ve uyumluluk
PII/Finans: maskeleme, tokenizasyon, telemetride veri minimizasyonu.
Coğrafi yerelleştirme: yargı yetkisine göre depolama ve işleme; Günlük dışa aktarma - yalnızca şifreleme ve TTL ile onaylanmış iş akışı aracılığıyla.
Telemetriye denetim erişimi: RBAC/ABAC, yüklemeler için SoD, istek günlüğü.
13) Olay yönetimi ve bültenleri ile entegrasyon
Durum sayfası: olay kartından otomatik güncelleme beslemesi.
Serbest bırakma kapısı: SLI kanarya analizi, burn-rate> threshold'da otomatik durdurma serbest bırakma.
Ölüm sonrası: yollar/günlüklerden zaman çizelgesi, gerçek SLI'ler ve ihlal pencereleri.
14) Uygulama uygulaması (8-12 hafta)
Ned. 1-2: kritik yolların ve SLI'nin envanteri; yığın seçimi (OTel, TSDB, günlükler, izler); bağımlılık haritası.
Ned. 3-4: 3-5 anahtar hizmetlerinde OTel uygulaması (login/deposit/rate), temel KIRMIZI/KULLANIM, günlüklerde izleme bağlamı.
Ned. 5-6: SLO ve yanma oranı uyarıları; PSP/KYC'ye göre sentetikler; İlk runbook'lar; Web/mobil için RUM.
Ned. 7-8: dinamik örnekleme, örnekler, hizmet haritası; Exec/SRE/Payments panoları.
Ned. 9-10: eBPF/sıcak darboğaz profili; Gizlilik filtreleri; kotalar/retansiyonlar.
Ned. 11-12: SLI tarafından serbest bırakma kapıları ve otomatik geri alma; Durum sayfası masa üstü öğretileri ile entegrasyon.
15) Eser desenleri
Hizmetin SLO-kartı: SLI, hedefler, pencereler, hata bütçesi, uyarılar, sahipler.
Alert Spec: metrik/durum, eşikler, deadup/sessizlik, alıcılar, çalışma kitabı.
Dashboard Spec: kitle, sorular, 6-8 widget, veri kaynağı, yenileme hızı.
Telemetri Politikası: Hangi alanlara izin verilir/yasaklanır, saklama, maskeleme, dışa aktarma.
Maliyet İnceleme Paketi: Üst Seri/Log Akışları, Örnekleme Teklifi/TTL, Beklenen Tasarruf.
16) Gözlemlenebilirlik fonksiyonu KPI
MTTA/MTTR (SLO-uyarı uygulamasından sonra iyileştirme).
Kullanıcı şikayetlerinden önce sentetik/SLI tarafından tespit edilen olayların %'si.
Manuel müdahale olmadan SLI ile kapıyı geçen bültenlerin oranı.
Tanılamayı sürdürürken telemetri başına $/RPS'de azalma.
Kritik yolların izleme kapsamı (> %90).
Korelasyonun doğruluğu "gerçek SLI ↔ durum güncellemesi".
17) Antipatterns
"Her şeyi kaydedin" - maliyet ve gürültü patlaması.
SLO/burn-rate yerine "raw" metriklerinde uyarılar - çağrı cihazı yorgunluğu.
Metriklerin yüksek kardinalitesi (userId) - TSDB fırtınaları.
İş bağlamı olmayan yollar (PSP/banka/GEO) - içgörü yok.
Gözlemlenebilirliğin bültenler/olaylarla ilişkisi yoktur - telemetri ayrı yaşar.
Toplam
Gözlemlenebilirlik ve durum kontrolü bir dizi araç değil, yönetilen bir sistemdir: doğru SLI/SLO - standartlaştırılmış telemetri ve korelasyon - SLO uyarı ve runbook'lar - sürümler ve durum iletişimi ile entegrasyon - maliyet bilincine sahip operasyon ve gizlilik. Böyle bir döngü, aşırı trafik zirvelerinde bile erken sinyaller, hızlı RCA ve iş esnekliği sağlar.