GH GambleHub

Operasyonlar ve Yönetim Olay Önleme

Olay önleme

1) Neden ihtiyacınız var

Bir olaya verilecek en iyi tepki, o olaya sahip olmamaktır. IGaming/fintech için, kesinti süresinin her dakikası kayıp bahisler/depozitolar, sağlayıcılardan para cezaları, itibar riskleridir. Sistemik önleme, Değişim Hatası Oranını azaltır, SLO'ları stabilize eder ve yangınları söndürmek yerine geliştirmek için komut süresini serbest bırakır.

Hedefler:
  • Kritik yollarda olay olasılığını en aza indirin (para yatırma, bahis, oyun başlatma, para çekme).
  • SLO ve cüzdana çarpmadan önce bozulmayı durdurun.
  • Arıza yarıçapını sınırlayın (patlama yarıçapı) ve kurtarmayı hızlandırın.

2) Önlemenin temel ilkeleri

1. SLO-ilk ve hata bütçesi: Değişiklikler, SLO'ları devirme ve bütçeyi yakma riski taşıyorsa serbest bırakılmaz.
2. Derinlemesine savunma: koruma katmanları - veri şemaları ve yapılandırmalarından ağ politikalarına ve phicheflags'a.
3. Başarısızlık için tasarım: kırıcılar, zaman aşımları, titreme geri çekilmeleri, idempotency, bozulma.
4. Küçük ve geri dönüşümlü değişiklikler: küçük artışlar + hızlı geri dönüş (özellik bayrakları/kanarya).
5. Tasarıma göre gözlemlenebilirlik: Her kritik adım ve bağlantı için metrikler/günlükler/izler.

3) Risk ve kritik yol haritası

Etki alanlarına göre bir "acı haritası" yapın: Ödemeler, Bahisler, Oyunlar, KYC, Promosyonlar, Jackpotlar, İçerik.

Düzelttiğimiz her yol için:
  • İş metrikleri (dönüşüm, GGR, ortalama kontrol).
  • Teknik SLO'lar (gecikme süresi p95/p99, çalışma süresi, başarı oranı).
  • Bağımlılıklar (iç/dış), limitler/kotalar.
  • "Güvenli mod" davranışı (devre dışı bıraktığımız/basitleştirdiğimiz).
  • Runbook sahibi.

4) Korkuluklar (koruyucu bariyerler)

Zaman aşımları ve kesiciler: arama hizmeti, dahili olanların toplamından daha kısa bir zaman aşımına sahiptir; Hata/gecikme arttığında kırıcı açılır.
Bölme izolasyonu: downstreams için ayrı bağlantı/işçi havuzları.
Hız sınırı ve geri basınç: Çığlara ve geri çekilme fırtınalarına karşı koruma.
Degradation ficheflags: "minimum mod" - kolay cevaplar, önbellek tekrarları, ağır özellikleri devre dışı bırakma.
Çok satıcılı ve feilover: alternatif PSP/KYC, rota değiştirme.
Yapılandırmaların doğrulanması: özelliklerin ve sınırların güvenli bir şekilde değiştirilmesi için şemalar/gömlekler/politikalar.

5) Değişim yönetimi

Ön sürüm kapıları: testler, güvenlik, CDC (tüketici odaklı sözleşmeler), şema uyumluluğu.
Kanarya sürümü + otogatlar: %1 - %10 - %100; p99/hata oranı/yanma bütçesi büyümesinde otomatik durdurma.
Özellik bayrakları: dağıtım olmadan anlık geri alma/değiştirme davranışı.
Yayın takvimi: En yüksek spor/turnuva pencerelerinden ve sağlayıcılarda bakımdan kaçının.
Dağıtım sonrası kontroller: otomatik senkronizasyon, önceki/sonraki metriklerin eşiklerle karşılaştırılması.

6) Önleyici tedbir olarak test etme

Birim/sözleşme/entegrasyon: OpenAPI/AsyncAPI sözleşmeleri, CDC ve sağlayıcı/moka.
Yük ve stres: prime time için trafik profilleri; Bağlantı/IOPS/kota limitleri için testler.
Soak/long-haul: Kaynak sızıntıları, saat/gün ufkunda artan gecikmeler.
Kaos/oyun günleri: Broker/PSP/KYC düşüşü, bölge boşluğu, "yavaş sağlayıcı".
Felaket Kurtarma Tatbikatları: Bölgeleri değiştirmek ve veritabanlarını geri yüklemek için düzenli eğitim.

7) Bozulmanın erken tespiti

Kapasite uyarıları: boşluk, kuyruk gecikmeleri, veritabanı bağlantıları, önbelleklerde tahliye.
SLO-yanma oranı: bütçeyi "yakma" tehlikeli bir oranda sinyal.
Adaptif eşikler: yanlış azaltmak için mevsimsellik/günlük desenler.
Kompozit uyarılar: "Maksimum + açık devrede gecikme ↑ + HPA" ⇒ yüksek risk.
Satıcı sağlığı: Her sağlayıcı için kotalar/zaman aşımları/hatalar + aramaların maliyeti.

8) Dış sağlayıcılarla çalışmak

OLA/SLA ↔ SLO: Anlaşmaları hedeflerimize bağlamak.
Feilover'ın oyun kitapları: PSP-X ⇆ PSP-Y rotaları, belirteç önbelleği, ödemesiz para yatırma modları.
Kum havuzları ve sözleşmeler: Her büyük değişiklikten önce test akışı.
Sağlayıcı pencereleri: panolardaki ek açıklamalar ve otomatik bastırma kuralları.

9) Veriler, yapılandırmalar ve sırlar

Değişim politikaları: iki çift gözün kod incelemesi, şemaların doğrulanması/JSON/YAML.
Sırlar: KMS/Secrets Manager, rotasyon, ortama/role göre ayırma.
Bayraklar/limitler: denetim ve anında geri alma ile API ile değiştirin.
Geçişler: "Iki adımlı" (genişlet, göç et, kontrat), toplam geriye dönük uyumluluk.

10) Eğitim ve takım hazırlığı

Çağrı üzerine eğitim: olay simülasyonları, gölge görevi, merkezi çalışma kitabı've.
Birleştirilmiş iletişim biçimleri: durum/devir/olay güncelleme şablonları.
Güvenli kültür: Suçsuz ölüm sonrası, mekanik nedenler ve önleyici eylem.

11) Önleme panoları (minimum)

Risk ve Hazırlık: SLO/bütçe, katman katman boşluk,'en iyi savunmasız bağlantılar ".
Güvenliği Değiştirin: kanaryaların yüzdesi, geri tepmeler, "serbest bırakıldıktan sonra" uyarılar, otogazların TO'su.
Satıcı Paneli: Her sağlayıcı için p95/hata/kotalar/maliyet, satıcı destek yanıt süresi.
Kaos/DR Hazırlık: egzersiz sıklığı, bölge değiştirme süresi, kurtarma başarısı.
Config/SecOps: bayrak/limit/gizli değişiklikler, anomaliler.

12) Önleyici uyarı örnekleri


ALERT SLOBurnRateHigh
IF slo_error_budget_burnrate{name="payments_api"} > 4 FOR 10m
LABELS {severity="critical", team="payments"}

ALERT PostDeployRegression
IF (api_p99_ms{service="bets"} > baseline_1d 1. 3) AND (release_window="canary")
FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderQuotaNearLimit
IF usage_quota_ratio{provider="psp_x"} > 0. 9 FOR 5m
LABELS {severity="warning", team="integrations"}

ALERT QueueLagAtRisk
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND (hpa_desired == hpa_max)
FOR 10m
LABELS {severity="critical", team="streaming"}

13) Önleme kontrol listesi (günlük/zirvelerden önce)

  • Güncel zirve takvimi (maçlar, turnuvalar, kampanyalar, sağlayıcı pencereleri).
  • API/DB/önbellek/kuyruklar, HPA/VPA hazırlığı, önbellek ısınması.
  • Sağlayıcıların durumu (kotalar, limitler, 24 saat içinde bozulma), feiler yapılandırılmış.
  • Kanarya kapıları etkindir, geri alma özelliği bayrakları sahipler tarafından kullanılabilir.
  • SLO/Kapasite uyarıları aktiftir, planlı çalışma için bastırma öngörülmüştür.
  • Runbook've güncellendi, çağrı üzerine teyit, eskalasyon kanalları çalışıyor.

14) Anti-desenler (kaçınılması gerekenler)

Kanarya veya bayraklar olmadan "Büyük Gece Bültenleri".
Ortak hat başı engelleme havuzları.
Idempotent olmayan işlemler ve darboğaz zaman aşımları için retrays.
Uyarılarda histerezis yokluğu - eşik boyunca testere.
Gözlenebilirlik ve zaman aşımı yönetimi olmadan satıcı SDK'sına kör inanç.
Sahne/sandbox ve CDC olmadan "Let's Do the Prod".

15) Önleme KPI'ları

Hata Oranını Değiştirme (hedef ≤ %10-15 veya hedefiniz).
Olay Öncesi Tespit Oranı: Bozulma aşamasında önlenen olayların yüzdesi.

Olaylar Arası Ortalama Süre (MTBI) и MTTR

Kapsama koruması: Bayraklar/kesiciler/zaman aşımları/kanarya ile % kritik yollar.
Kaos/DR ritmi: Egzersizlerin sıklığı ve başarısı.
Satıcı hazırlığı: Yedekleme sağlayıcısına ortalama geçiş süresi.

16) Hızlı başlangıç (30 gün)

1. Hafta: kritik yol haritası, SLO'lar ve sahipleri; SLO-burn uyarıları ve kapasite uyarıları içerir.
2. Hafta: Kanarya Kapıları + Phicheflags; Temel kaos komut dosyaları (sağlayıcı/kuyruk).
3. Hafta: "Güvenliği Değiştir've" Satıcı Paneli "panoları, feilover oyun kitapları.
4. Hafta: Üç aylık dönem için DR egzersiz (kısmi), retrospektif ve sertleştirme planı.

17) Şablonlar (parçalar)

Kanarya otogaz politikası (şartlı YAML):

canary_policy:
guardrails:
- metric: api_p99_ms threshold: 1. 3 baseline_1d window: 10m action: pause_and_rollback
- metric: error_rate threshold: 2 baseline_1d window: 5m action: pause max_step: 10%
step_interval: 15m required_annotations: [release_notes, feature_flags, runbook_link]
Bozulma planı (özet):

safe_mode:
payments:
- freeze_heavy_providers
- enable_cached_token_flow
- route_to_psp_y_if(psp_x_error_rate > 5%)
games:
- limit_broadcasts
- reduce_lobby_heavy_widgets bets:
- raise_risk_score_threshold
- cache_odds_snapshot

18) SSS

S: Kaynaklar kıt ise ilk önce ne uygulanacak?
C: Kritik yollarda, kanarya kapılarında ve geri alma phicheflags'larında SLO-burn uyarıları; Sonra - bir risk haritası ve sağlayıcı sahte.

S: Önlemenin "işe yaradığını" nereden biliyorsunuz?
C: Değişim Hatası Oranı düşüyor, önlenen olayların oranı artıyor, MTTR ve uyarı gürültüsü azalıyor, "gece" sayfalarının sayısı azalıyor.

S: Düzenli kaos egzersizlerine ihtiyacımız var mı?
A: Evet. Eğitim olmadan, bir feuillower ve DR neredeyse her zaman kağıt üzerinde göründüğünden daha uzun ve daha acı vericidir.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.