Operasyonlar ve Yönetim Olay Önleme
Olay önleme
1) Neden ihtiyacınız var
Bir olaya verilecek en iyi tepki, o olaya sahip olmamaktır. IGaming/fintech için, kesinti süresinin her dakikası kayıp bahisler/depozitolar, sağlayıcılardan para cezaları, itibar riskleridir. Sistemik önleme, Değişim Hatası Oranını azaltır, SLO'ları stabilize eder ve yangınları söndürmek yerine geliştirmek için komut süresini serbest bırakır.
Hedefler:- Kritik yollarda olay olasılığını en aza indirin (para yatırma, bahis, oyun başlatma, para çekme).
- SLO ve cüzdana çarpmadan önce bozulmayı durdurun.
- Arıza yarıçapını sınırlayın (patlama yarıçapı) ve kurtarmayı hızlandırın.
2) Önlemenin temel ilkeleri
1. SLO-ilk ve hata bütçesi: Değişiklikler, SLO'ları devirme ve bütçeyi yakma riski taşıyorsa serbest bırakılmaz.
2. Derinlemesine savunma: koruma katmanları - veri şemaları ve yapılandırmalarından ağ politikalarına ve phicheflags'a.
3. Başarısızlık için tasarım: kırıcılar, zaman aşımları, titreme geri çekilmeleri, idempotency, bozulma.
4. Küçük ve geri dönüşümlü değişiklikler: küçük artışlar + hızlı geri dönüş (özellik bayrakları/kanarya).
5. Tasarıma göre gözlemlenebilirlik: Her kritik adım ve bağlantı için metrikler/günlükler/izler.
3) Risk ve kritik yol haritası
Etki alanlarına göre bir "acı haritası" yapın: Ödemeler, Bahisler, Oyunlar, KYC, Promosyonlar, Jackpotlar, İçerik.
Düzelttiğimiz her yol için:- İş metrikleri (dönüşüm, GGR, ortalama kontrol).
- Teknik SLO'lar (gecikme süresi p95/p99, çalışma süresi, başarı oranı).
- Bağımlılıklar (iç/dış), limitler/kotalar.
- "Güvenli mod" davranışı (devre dışı bıraktığımız/basitleştirdiğimiz).
- Runbook sahibi.
4) Korkuluklar (koruyucu bariyerler)
Zaman aşımları ve kesiciler: arama hizmeti, dahili olanların toplamından daha kısa bir zaman aşımına sahiptir; Hata/gecikme arttığında kırıcı açılır.
Bölme izolasyonu: downstreams için ayrı bağlantı/işçi havuzları.
Hız sınırı ve geri basınç: Çığlara ve geri çekilme fırtınalarına karşı koruma.
Degradation ficheflags: "minimum mod" - kolay cevaplar, önbellek tekrarları, ağır özellikleri devre dışı bırakma.
Çok satıcılı ve feilover: alternatif PSP/KYC, rota değiştirme.
Yapılandırmaların doğrulanması: özelliklerin ve sınırların güvenli bir şekilde değiştirilmesi için şemalar/gömlekler/politikalar.
5) Değişim yönetimi
Ön sürüm kapıları: testler, güvenlik, CDC (tüketici odaklı sözleşmeler), şema uyumluluğu.
Kanarya sürümü + otogatlar: %1 - %10 - %100; p99/hata oranı/yanma bütçesi büyümesinde otomatik durdurma.
Özellik bayrakları: dağıtım olmadan anlık geri alma/değiştirme davranışı.
Yayın takvimi: En yüksek spor/turnuva pencerelerinden ve sağlayıcılarda bakımdan kaçının.
Dağıtım sonrası kontroller: otomatik senkronizasyon, önceki/sonraki metriklerin eşiklerle karşılaştırılması.
6) Önleyici tedbir olarak test etme
Birim/sözleşme/entegrasyon: OpenAPI/AsyncAPI sözleşmeleri, CDC ve sağlayıcı/moka.
Yük ve stres: prime time için trafik profilleri; Bağlantı/IOPS/kota limitleri için testler.
Soak/long-haul: Kaynak sızıntıları, saat/gün ufkunda artan gecikmeler.
Kaos/oyun günleri: Broker/PSP/KYC düşüşü, bölge boşluğu, "yavaş sağlayıcı".
Felaket Kurtarma Tatbikatları: Bölgeleri değiştirmek ve veritabanlarını geri yüklemek için düzenli eğitim.
7) Bozulmanın erken tespiti
Kapasite uyarıları: boşluk, kuyruk gecikmeleri, veritabanı bağlantıları, önbelleklerde tahliye.
SLO-yanma oranı: bütçeyi "yakma" tehlikeli bir oranda sinyal.
Adaptif eşikler: yanlış azaltmak için mevsimsellik/günlük desenler.
Kompozit uyarılar: "Maksimum + açık devrede gecikme ↑ + HPA" ⇒ yüksek risk.
Satıcı sağlığı: Her sağlayıcı için kotalar/zaman aşımları/hatalar + aramaların maliyeti.
8) Dış sağlayıcılarla çalışmak
OLA/SLA ↔ SLO: Anlaşmaları hedeflerimize bağlamak.
Feilover'ın oyun kitapları: PSP-X ⇆ PSP-Y rotaları, belirteç önbelleği, ödemesiz para yatırma modları.
Kum havuzları ve sözleşmeler: Her büyük değişiklikten önce test akışı.
Sağlayıcı pencereleri: panolardaki ek açıklamalar ve otomatik bastırma kuralları.
9) Veriler, yapılandırmalar ve sırlar
Değişim politikaları: iki çift gözün kod incelemesi, şemaların doğrulanması/JSON/YAML.
Sırlar: KMS/Secrets Manager, rotasyon, ortama/role göre ayırma.
Bayraklar/limitler: denetim ve anında geri alma ile API ile değiştirin.
Geçişler: "Iki adımlı" (genişlet, göç et, kontrat), toplam geriye dönük uyumluluk.
10) Eğitim ve takım hazırlığı
Çağrı üzerine eğitim: olay simülasyonları, gölge görevi, merkezi çalışma kitabı've.
Birleştirilmiş iletişim biçimleri: durum/devir/olay güncelleme şablonları.
Güvenli kültür: Suçsuz ölüm sonrası, mekanik nedenler ve önleyici eylem.
11) Önleme panoları (minimum)
Risk ve Hazırlık: SLO/bütçe, katman katman boşluk,'en iyi savunmasız bağlantılar ".
Güvenliği Değiştirin: kanaryaların yüzdesi, geri tepmeler, "serbest bırakıldıktan sonra" uyarılar, otogazların TO'su.
Satıcı Paneli: Her sağlayıcı için p95/hata/kotalar/maliyet, satıcı destek yanıt süresi.
Kaos/DR Hazırlık: egzersiz sıklığı, bölge değiştirme süresi, kurtarma başarısı.
Config/SecOps: bayrak/limit/gizli değişiklikler, anomaliler.
12) Önleyici uyarı örnekleri
ALERT SLOBurnRateHigh
IF slo_error_budget_burnrate{name="payments_api"} > 4 FOR 10m
LABELS {severity="critical", team="payments"}
ALERT PostDeployRegression
IF (api_p99_ms{service="bets"} > baseline_1d 1. 3) AND (release_window="canary")
FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderQuotaNearLimit
IF usage_quota_ratio{provider="psp_x"} > 0. 9 FOR 5m
LABELS {severity="warning", team="integrations"}
ALERT QueueLagAtRisk
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND (hpa_desired == hpa_max)
FOR 10m
LABELS {severity="critical", team="streaming"}
13) Önleme kontrol listesi (günlük/zirvelerden önce)
- Güncel zirve takvimi (maçlar, turnuvalar, kampanyalar, sağlayıcı pencereleri).
- API/DB/önbellek/kuyruklar, HPA/VPA hazırlığı, önbellek ısınması.
- Sağlayıcıların durumu (kotalar, limitler, 24 saat içinde bozulma), feiler yapılandırılmış.
- Kanarya kapıları etkindir, geri alma özelliği bayrakları sahipler tarafından kullanılabilir.
- SLO/Kapasite uyarıları aktiftir, planlı çalışma için bastırma öngörülmüştür.
- Runbook've güncellendi, çağrı üzerine teyit, eskalasyon kanalları çalışıyor.
14) Anti-desenler (kaçınılması gerekenler)
Kanarya veya bayraklar olmadan "Büyük Gece Bültenleri".
Ortak hat başı engelleme havuzları.
Idempotent olmayan işlemler ve darboğaz zaman aşımları için retrays.
Uyarılarda histerezis yokluğu - eşik boyunca testere.
Gözlenebilirlik ve zaman aşımı yönetimi olmadan satıcı SDK'sına kör inanç.
Sahne/sandbox ve CDC olmadan "Let's Do the Prod".
15) Önleme KPI'ları
Hata Oranını Değiştirme (hedef ≤ %10-15 veya hedefiniz).
Olay Öncesi Tespit Oranı: Bozulma aşamasında önlenen olayların yüzdesi.
Olaylar Arası Ortalama Süre (MTBI) и MTTR
Kapsama koruması: Bayraklar/kesiciler/zaman aşımları/kanarya ile % kritik yollar.
Kaos/DR ritmi: Egzersizlerin sıklığı ve başarısı.
Satıcı hazırlığı: Yedekleme sağlayıcısına ortalama geçiş süresi.
16) Hızlı başlangıç (30 gün)
1. Hafta: kritik yol haritası, SLO'lar ve sahipleri; SLO-burn uyarıları ve kapasite uyarıları içerir.
2. Hafta: Kanarya Kapıları + Phicheflags; Temel kaos komut dosyaları (sağlayıcı/kuyruk).
3. Hafta: "Güvenliği Değiştir've" Satıcı Paneli "panoları, feilover oyun kitapları.
4. Hafta: Üç aylık dönem için DR egzersiz (kısmi), retrospektif ve sertleştirme planı.
17) Şablonlar (parçalar)
Kanarya otogaz politikası (şartlı YAML):
canary_policy:
guardrails:
- metric: api_p99_ms threshold: 1. 3 baseline_1d window: 10m action: pause_and_rollback
- metric: error_rate threshold: 2 baseline_1d window: 5m action: pause max_step: 10%
step_interval: 15m required_annotations: [release_notes, feature_flags, runbook_link]
Bozulma planı (özet):
safe_mode:
payments:
- freeze_heavy_providers
- enable_cached_token_flow
- route_to_psp_y_if(psp_x_error_rate > 5%)
games:
- limit_broadcasts
- reduce_lobby_heavy_widgets bets:
- raise_risk_score_threshold
- cache_odds_snapshot
18) SSS
S: Kaynaklar kıt ise ilk önce ne uygulanacak?
C: Kritik yollarda, kanarya kapılarında ve geri alma phicheflags'larında SLO-burn uyarıları; Sonra - bir risk haritası ve sağlayıcı sahte.
S: Önlemenin "işe yaradığını" nereden biliyorsunuz?
C: Değişim Hatası Oranı düşüyor, önlenen olayların oranı artıyor, MTTR ve uyarı gürültüsü azalıyor, "gece" sayfalarının sayısı azalıyor.
S: Düzenli kaos egzersizlerine ihtiyacımız var mı?
A: Evet. Eğitim olmadan, bir feuillower ve DR neredeyse her zaman kağıt üzerinde göründüğünden daha uzun ve daha acı vericidir.