GH GambleHub

Operasyonel pano

(Bölüm: Operasyonlar ve Yönetim)

1) Amaç ve prensipler

Operasyonel bir gösterge paneli, platform sağlığını izlemek ve harekete geçmek için'tek bir pencere'dir. Kullanıcı rolü bağlamında metrikleri, olayları, uyarıları ve iş anahtar rakamlarını toplar (SRE, Ürün, Finansal, Uyumluluk, Destek, İş Ortakları).

İlkeler:
  • Tasarıma göre işlem yapılabilir: Her widget'ın bir eylem düğmesi vardır (geri alma, pauze, yeniden çalıştırma, yeniden rota).
  • Role duyarlı: Haklar ve ayrıntı düzeyleri role/kiracıya/bölgeye bağlıdır.
  • Gerçeğin kaynağı: sayılar faturalama/günlükler/faturalarla birleşir.
  • Gerçek zamana yakın + tarihsellik: Olaylar için saniye/dakika, eğilimler için aylar/yıllar.
  • Açıklanabilirlik: herhangi bir agrega 'trace _ id'ile ham bir olaya genişler.

2) Roller ve senaryolar (kim gelir ve neden)

SRE/Platform: kullanılabilirlik, p50/p95/p99 gecikme süresi, hata/yeniden ödeme, kapasite, 1k olay başına maliyet.
Ürün/Operasyonlar: E2E-Success Oranı, dönüşüm, ortak onboarding süresi, phicheflags.
Finans/FinOps: birim başına gelir/COGS/CM, çıkış/giriş, bütçeler ve kapaklar, sapmalar.
Uyumluluk/Güvenlik: Makbuzlar/imzalar, PII istekleri, SoD ihlalleri, yeniden sertifikalandırma durumu.
Destek/CS: bilet kuyruğu, MTTA/MTTR, ortağa ve bölgeye göre SLA.
Ortaklar/Kiracılar: kendi SLO metrikleri, webhook durumları, kullanımı ve kotaları.

3) Kuzey Yıldızı ve anahtar SLI/SLO

Kuzey Yıldızı: Her bölgede p95 hedefindeki kritik rotalarda E2E Başarı Oranı.

SLI (örnek):
  • Kanal/bölge başına kullanılabilirlik.
  • P50/p95/p99 gecikme süresi.
  • Hata oranı ve geri alma oranı.
  • Webhook teslimat başarı oranı (makbuzlarla %).
  • Birim başına 1k olay ve çıkış/giriş maliyeti.
  • Olayların Özeti: MTTA, MTTR, hata bütçe yanık.
SLO (örnek):
  • Kullanılabilirlik ≥ 99. %95/bölge/kanal.
  • P95 ≤ 120 ms (vitrin), ≤ 250 ms (ödeme/teklif).
  • Webhooks'un başarısı ≥ 99. 5 dakikada %5. Pencere.
  • Teklif ve ödeme arasındaki Δ = 0 (tahsis kurallarına göre ± 1 küçük birim).
  • Reaksiyon süresi P1 ≤ 10 dk, MTTR ≤ 60 dk.

4) Pano veri mimarisi

Olay veriyolu: telemetri (izler/metrikler/günlükler), iş etkinlikleri, faturalandırma, uyumluluk.
Akış/toplama: Neredeyse gerçek zamanlı için T + 5s/T + 1m pencereler; Garantili teslimat için CDC/giden kutusu.
Depolar: zaman serisi (RAM), OLAP (uzun geçmiş), WORM günlükleri (denetim).
Anlamsal katman: metriklerin sözlüğü, birimler, bölgeye ve kiracılara göre normalleştirme.
Hammaddelere bağlantı: 'trace _ id'/' event _ id've imzalar (receipt_hash).

5) Arayüz ve widget tasarımı

Genel başlık: filtreler (zaman, bölge, kiracı, ürün, çevre), durum göstergeleri.
Karolar (KPI): E2E Başarı, kullanılabilirlik, p95, hata oranı, maliyet/1k, çıkış.
Grafikler: ışıltı eğilimleri, bölgelere göre ısı haritası, yüzdelik çizelgeler.
Tablolar: üst hatalar, bozulma ile ortaklar, kotaları aşan, kapatılmamış olaylar.
Eylem bölümleri: "Promosyonu duraklat", "Geri alma özelliği", "Kotayı yükselt", "Teslimatı yeniden başlat".
Bağlam yardımı: metrikler/teknikler ve SLO ile iletişim hakkında ipuçları.

6) Gösterge paneli modülleri (önerilen set)

1. Platform sağlığı: kullanılabilirlik/gecikme/hatalar, hata giderme bütçesi.
2. İş ortağı entegrasyonları: webhook durumu, makbuzlar, idempotent alır, gecikme kuyrukları.
3. Ödeme ve Fiyatlar: vitrina↔checkout uyumluluk, 'fx _ version', 'tax _ rule _ version', arıza durumları.
4. İçerik/Dizinler: yayınlama süresi, önbellek/geçersiz kılma hataları, tazelik.
5. RTP ve Limitler (varsa): theor. Vs gözlemlenen RTP, limitlerin harekete geçirilmesi, maruz kalma.
6. FinOps: COGS/birim, çıkış/giriş, hesaplama/depolama, bütçeler/kapak uyarıları.
7. Güvenlik/Uyumluluk: SoD, JIT, MFA, imzalı işlemler, PII istekleri ve günlükler.
8. Destek: kuyruklar, MTTA/MTTR, nedenler, otomatik çalışma kitapları.
9. Serbest Bırakma/Özellik Bayrakları: serbest bırakma durumları, kanarya bölgeleri, olaylarla otomatik yapıştırma regresyonları.
10. Deneyler: A/B korkulukları, SLI/ROI üzerindeki özelliklerin etkisi.

7) Uyarılar, rünler ve yükselmeler

Gürültü engelleme ve 'trace _ id' veri tekilleştirme ile Seviye P1-P3 uyarıları.
Otomatik çalışma kitapları: tetiklendiğinde - denetimleri/düzeltmeleri başlatma (önbelleği temizleme, yönlendirmeyi değiştirme, promosyonu duraklatma).
Eskalasyon: matris 24 × 7, yanıt SLO, kanallar (sohbet/ses/SMS), "kırmızı düğme".
Olay sonrası: nedensel rapor şablonları ve eylem öğeleri.

8) Çok bölgesellik ve çok kiracı

Dilimler: bölge/kiracı/kanal/sağlayıcı, bağımsız SLO'lar ve bütçeler.
Güven bölgeleri: PII verileri/finansmanı - yalnızca ilgili alanlarda görünür, geri kalanı - kümeler.
Maliyet bilincine sahip: rotaları aynı p95'teki fiyata göre karşılaştırmak; optimizasyon önerileri.

9) Güvenlik ve gizlilik

RBAC/ABAC: role göre görünürlük ve eylemler; Ürün/kiracı mülkiyeti için ReBAC.
İmzalar ve makbuzlar: finansal/kritik olaylar için - hash ve DSSE makbuzları.
PII hijyeni: tokenizasyon, maskeleme, yalnızca onaylanmış jablar yoluyla erişim.
Denetim: WORM yapılandırma/rol/limit değişiklikleri, tekrarlanabilirlik için günlükler.

10) Metrik veri modeli (örnek)

'metrik' {adı, birimi, türü: sayaç/ölçü/hist, sahibi, sla_ref}'

'dim' '{bölge, kiracı, ürün, sağlayıcı, sürüm, çevre}'

'nokta' '{metrik, değer, ts, dims {}, trace_id, imza?}'

'event' '{tür, önem, subject_id, payload_hash, receipt_hash, ts}'

'slo' {name, target, window, burn_rate, owners [], runbook_url}'

'alert' '{slo _ ref, durum, durum, ack_by, acknowledged_at, runbook_step}',

11) gösterge tablosu API/webhooks

'POST/ingest/metrics' - metrikleri alma (şema, limitler, kimlik doğrulama).
'POST/ingest/events' - iş etkinlikleri (sürümler/imzalar).
'GET/kpis? Filtreler... '- widget'lar için kümeler.
'GET/traces/{ trace _ id}' - derin tanıtım.
Вебхуки: 'IncidentRaised', 'CotaCapReached', 'PriceMismatch', 'WebhookDeliveryLag', 'SecuritySoDViolation'.

12) Veri kalitesi ve testler

Veri sözleşmeleri: şemalar ve resepsiyonda doğrulama, sürüm oluşturma ('genişlet> göç et> sözleşme').
Anomaliler: Eksikliklerin/sıçramaların izlenmesi, eşikler "düz çizgi "/" gürültü ".
Örnekleme: yüksek QPS metrikleri için - temsiliyeti korurken kayar.
Backfill: güvenli sürüm etiketli geri yükler.

13) Kontrol panelinin kendisinin metrikleri (metrikler metrikleri)

UI/API kullanılabilirliği ≥ 99. 9%.
Gecikme p95 API istekleri ≤ 300 ms.
Tamlık - Pencereye veri gönderen kaynakların yüzdesi ≥ 99. 5%.
Tazelik: artımlı güncellemeler 30 s ≤ gecikir.
Doğruluk: referans raporlarla tutarsızlık ≤ 0. 1%.

14) Panodaki Ekonomi ve FinOps

Sağlayıcı/bölge tarafından ayrıştırılan 1k olay başına maliyet.
Çıkış/Giriş ısı haritaları, önbellekleme/yönlendirme önerileri.
Bütçeler/sınır uyarıları: %80/90/100, otomatik ticaret ve önceliklendirme.

15) Kullanılabilirlik ve UX

Gece teması, kısa başlıklar, durum simgeleri.
Klavye gezinme ve a11y: kontrast, alt, arya etiketleri.
Kaydedilen hazır ayarlar: "SRE duty", "finance", "partner".
Anlık görüntüler ve paylaşım: filtreler ve link/dışa aktarma ile durum yakalama.

16) Riskler ve anti-kalıplar

Dash-sprawl: Tek bir metrik sözlüğü olmadan 20 farklı gösterge panosu.
Vanity metrikleri: SLO/eylemlerle bağlantısı olmayan güzel grafikler.
Rakamların tutarsızlığı: raporlar ≠ faturalandırma/denetim.
Gürültülü uyarılar: yorgunluk ve P1 ihmalleri.
Delme yokluğu: Birincil ve nedenlere ulaşmak imkansızdır.

17) Uygulama kontrol listesi

  • Rolleri ve senaryoları tanımlayın; Kuzey Yıldızı ve SLI/SLO'ya katılıyorum.
  • Bir metrik ve birim sözlüğü oluşturun; Veri sözleşmelerini resmileştirmek.
  • Alımları (metrikler/olaylar/izler), OLAP ve WORM denetimini yapılandırın.
  • Anahtar modülleri uygulayın (sağlık, ortaklar, ödeme, FinOps, Güvenlik).
  • Rünler ve yükselmeler ile uyarıları dahil edin; "kırmızı düğme".
  • Geri alma/duraklatma/yeniden yönlendirme/yükseltme sınırı eylemleri ekleyin.
  • Bölgeye/kiracıya göre ısı haritası oluşturun; Filtreler ve hazır ayarlar.
  • Giden rakamları fatura/faturalarla doğrulayın.
  • Oyun günü (GameDay): Sağlayıcının bağlantısının kesilmesi, retras çığ, fiyatların senkronizasyonu.
  • Haftalık SLO incelemeleri ve ölüm sonrası kalite.

18) RACI

AlanRACBEN
Metrik Sözlüğü/SLI/SLOPlatform AnalitiğiCTOÜrün, SRE, FinansTüm
Kaynak entegrasyonlarıVeri EngVeri BaşkanıSRE, GüvenlikÜrün
Uyarılar ve rünlerSRECTOÜrün, FinOpsDestek
Güvenlik/GizlilikGüvenlik/GizlilikCISO/DPOYasal, uyumlulukTüm
Finansal metriklerFinOpsCFOÜrün, VeriDenetim

19) SSS

Tüm raporlar pano ile değiştirilebilir mi?
Hayır. Gösterge tablosu - RAM ve eylemler için; resmi raporlama/denetim - bireysel eserler.

Ne kadar "gerçek zamana" ihtiyacınız var?
Olaylar için - saniye/dakika, ekonomi için - dakika/saat; Tutarlılık önemlidir, mutlak "çevrimiçi'değil.

Uyarıların gürültüsüyle nasıl başa çıkılır?
SLO odaklı koşullar, toplama, 'trace _ id'ile veri tekilleştirme, önceliklendirme ve otomatik çalışma kitapları.

Metriklerin doğruluğu nasıl kontrol edilir?
Referans raporları, test beslemeleri, kontrol örnekleri ve WORM günlükleri ile düzenli mutabakatlar.

Özet: Operasyonel pano bir "güzel tahta'değil, bir yönetim aracıdır: tek SLI/SLO, arayüzden eylemler, hammaddelere izleme ve faturalandırma ve denetim ile sıkı tutarlılık. Bir etkinlik mimarisi üzerine inşa edin, role göre bağlam verin, runes ve escalations ekleyin - ve öngörülebilir operasyonlar, hızlı kararlar ve sürdürülebilir büyüme elde edersiniz.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.