Risk azaltma stratejileri
1) Hedefler ve ilkeler
Amaç: Olayların olasılığını azaltmak, "patlama yarıçapını" sınırlamak, MTTR'yi ve finansal/düzenleyici sonuçları azaltmak.
İlkeler: önlemek> tespit etmek> içermek> kurtarmak; SLO-ilk; Segmentasyon ve izolasyon; otomasyon; doğrulanabilirlik (egzersizler ve testler); Maliyet bilincinde.
2) Risk taksonomisi (üzerinde hareket ettiğimiz şey)
Yük ve üretken: aşırı yük, kuyruklar, gecikme kuyrukları.
Teknolojik/altyapı: AZ/bölge arızaları, veritabanı/önbellek bozulması, güvenlik açıkları, DDoS.
Bağımlılıklar: PSP/KYC/AML, oyun sağlayıcıları, CDN/WAF, posta/SMS ağ geçitleri.
Ödeme/finansal: yetkilerde düşüş, dolandırıcılık/ters ibrazda artış, nakit boşlukları.
Uyumluluk/düzenleme: veri depolama, sorumlu oyun, lisanslar.
Süreç/insan: sürüm hataları, manuel işlemler, yanlış yapılandırmalar.
İtibar/pazarlama: promosyon zirveleri, kamusal alanda olumsuzluk.
3) Önleme stratejileri (olasılığı azaltmak)
1. Mimari yalıtım
Kiracı tarafından trafik/kota sınırları olan çok kiracı.
Kritik yolların ayrılması: ayrı alanlarda depozito/oran/çıktı.
Ağ politikaları sıfır güven, en az ayrıcalık, sırlar ve anahtar rotasyonu.
2. Varsayılan performans
CQRS, denormalizasyon, sıcak anahtar önbelleğe alma, idempotency.
Geçerli bağlantı havuzları, backpressure, zaman aşımları ve jitter retreas.
İstek/sayfa boyutu sınırları, N + 1 koruması.
3. Kritik bağımlılıklar için multi-all
Ödemeler: Sağlık ve ücrete duyarlı yönlendirmeli 2-3 PSP.
Depolama: replikalar/parçalama, farklı depolama sınıfları, gecikme kontrolü.
İletişim: yedek e-posta/SMS sağlayıcısı, geri dönüş kanalları.
4. Uyumluluk by-design
Saklama politikaları (TTL), at-rest/in-transit şifreleme, denetim.
Verilerin coğrafi yönlendirilmesinin ve role göre erişimin kontrolü.
5. Güvenlik
WAF/CDN, hız limitleri, bot azaltma, istek imzası ve HMAC web kitapları.
CI/CD'de SCA/DAST/SAST, SBOM, bağımlılık taahhüdü ve güncellemeler.
6. Süreçler ve Sürümler
Kanarya/mavi-yeşil, koyu lansman, özellik bayrakları, zorunlu kontrol listeleri.
Tehlikeli değişiklikler için RACI ve ikili kontrolü temizleyin.
4) Tespit stratejileri (erken göstergeler ve anomaliler)
KRI/SLI: p95/p99, hata oranı, queue-lag, cache-hit, replication-lag, GEO/bank tarafından PSP yetkilendirmesi.
Anomali tespiti: Patlamalar ve dalmalar için STL/IQR/akım dedektörleri.
Yazma hızı uyarıları: Hata bütçelerinde hızlı (1 saat) ve yavaş (6-24 saat) pencereler.
Olay korelasyonu: Metriklerin bozulması ↔ bültenler/phicheflags/kampanyalar.
Bağımlılık denetleyicisi: aktif sağlık ping PSP/KYC/CDN, SLA sözleşmelerinin izlenmesi.
5) Çevreleme stratejileri
Devre Kesiciler/Bulkheads: istemci havuz izolasyonu, zaman aşımı yayılma durdurma.
Hız sınırı ve Kotalar: Özellikle yazma yolları için istemci/kiracı/uç nokta başına.
Graceful Degradation: önbellekten/statikten okuma, kritik olmayan özellikleri kill-switch düğmeleriyle devre dışı bırakma.
Etki alanına göre Fail-open/Fail-closed: örnek - fail-open analitiği için, fail-closed ödemeleri için.
Kullanıcıya mesajlar: dostça durumlar, bekleme kuyrukları, "bahsinizi kaydettik".
6) Azaltma ve kurtarma stratejileri
Tahmin/gecikmeye göre otomatik ölçeklendirme: Tepe tahmini ile HPA/KEDA.
Trafiğin taşınması: Coğrafi yönlendirme, sıcak bölge tahliyesi, gerçek zamanlı PSP değişimi.
Runbooks & Playbooks: hazır adım adım talimatlar (depozito durdu; 5xx oranlarda yükselir; lag replikasyonu).
Yedekleme veri komut dosyaları: Zamanında geri yükleme, soğuk bekleme/aktif aktif, plan RPO/RTO.
İletişim: dahili savaş odası + harici mesaj şablonları/durum sayfası.
7) Risk transferi ve kabul stratejileri
Sözleşmeler ve SLA'lar: Sağlayıcılar mevcut olmadığında para cezaları/krediler, kritik hizmetler için emanet.
Sigorta: siber riskler, sızıntılar için sorumluluk, iş kesintileri.
Bilgilendirilmiş kabul: belge kalıntı riski, sahibi, KRI ve revizyon tarihi.
8) Katmanlara göre risk azaltma kalıpları
8. 1 Altyapı ve ağ
Çok AZ/bölge, anti-bölgesel bağımlılıklar, çıkış kontrolü.
Alan başına alt ağlar, güvenlik grupları, giden politikası.
Yeni çekirdek/arka uç sürümlerini kontrol eden kanarya.
8. 2 Veri, DB ve önbellekler
Okuma-çoğaltma ve okuma/yazma ayrımı, uzun işlemleri sınırlama.
Sıcak indeksler ve maddeleşmiş agregalar; TTL/arşiv.
Önbellek zirvelere ısınma, izdihama karşı koruma (tek uçuş).
8. 3 Kuyruklar ve eşzamansız
Büyükbaba mektubu ve üstel ve jitter ile yeniden deneme konuları.
Tüketici gecikmesini, anahtarlara göre bölümlemeyi, idempotent tüketicileri kontrol edin.
8. 4 Ödemeler ve Finans
PSP-router: Sağlık × ücreti × dönüşüm puanı.
3-D Güvenli/yeniden denemeler - daha yüksek dönüşüm, daha az retrays.
Antifraud: risk puanlaması, hız kuralları, sonuçların sınırları.
Likidite yönetimi: Nakit bakiyelerinin ve VaR'ın sağlayıcıya göre izlenmesi.
8. 5 Güvenlik ve uyumluluk
Depolama politikaları, şifreleme, normal masa üstü olay matkapları.
Veri soyu ve erişim denetimi; sırlar - sırların yöneticisi.
Sorumlu oyun: kendini dışlama tetikleyicileri, limitleri, SLA işleme.
8. 6 Ürün ve ön
Güvenli bozulmaya sahip özellik bayrakları; A/B koruyucu raylar.
Kenarda önbelleğe alma, patlamalara karşı koruma (kuyruk sayfası, bekleme odası).
Idempotent UI tekrarları, işlem taslaklarını kaydeder.
9) Süreçler, insanlar, eğitim
SRE ritüelleri: haftalık KRI/SLO incelemeleri, eylem öğeleriyle olay sonrası retro.
Değişim yönetimi: zorunlu kanarya + geri alma planı; Tehlikeli faaliyetler için "çift anahtar".
Operatör eğitimi: oyun kitabı eğitimi, zirvelerin/başarısızlıkların simülasyonu (oyun günü).
Çerçeve rezervi: çağrı üzerine rotasyon, bilginin çoğaltılması (runbooks, mimari haritalar).
10) Gösterge panoları ve iletişim
Exec-dashboard: en büyük riskler (ısı haritası), artık risk ve iştah, yanma oranı, finansal etki.
Tech-dasboard: p95/p99, hata oranı, tüketici gecikmesi, önbellek isabeti, replikasyon gecikmesi, PSP dönüşümü, DDoS sinyalleri.
Durum sayfası: çalışma zamanı etki alanları, olaylar, ETA'lar, geçmiş.
İletişim kalıpları: olaylarda ve regresyonlarda iç/dış iletişim.
11) Risk azaltma etkinliğinin KPI'ları
Olayların sıklığı ve ölçeği (ay/çeyrek başına).
MTTA/MTTR, SLO'da % dönemler, yakma oranı hata bütçesi.
Geri kazanılan gelir/zarar, ödeme dönüşümü zirvede.
Egzersizlerin yürütülmesi (kapsama alanı) ve otomatik reaksiyonların payı.
Başarıyla yürütülen yük devretme/kanarya/geri alma komut dosyalarının yüzdesi.
12) Uygulama Yol Haritası (8-12 hafta)
Ned. 1-2: kritik yol haritası (mevduat/oran/çıktı), mevcut KRI/SLO, bağımlılık envanteri.
Ned. 3-4: hızlı sınırlama önlemleri: hız limitleri, devre kesiciler, kill-switch'ler, temel playbook'lar.
Ned. 5-6: çoklu PSP yönlendirme, önbellek ısınma, okuma-çoğaltma, TTL/günlükleri ve izleri arşivi.
Ned. 7-8: anomali algılama, yanma oranı uyarıları, oyun günü egzersizleri + geri alma uygulaması.
Ned. 9-10: geo-feiler, tahmin/gecikmeye göre otomatik ölçeklendirme, yedek iletişim (e-posta/SMS).
Ned. 11-12: uyumluluk denetimi (TTL/şifreleme), son çalışma kitapları, üç aylık risk incelemesinin başlatılması.
13) Eser desenleri
Playbook Degrade: Üç bozulma seviyesi, hangi özelliklerin kapatılacağı, geri dönüş kriterleri.
Yük Devretme Planı: kim ve nasıl bölge/PSP, kontrol metrikleri, geri alma adımlarını değiştirir.
PSP Yönlendirme Politikası: sağlık/komisyon/dönüşüm kuralları, limitler, test yolları.
Kontrol Listesini Değiştir: serbest bırakılmadan önce/sırasında/sonrasında, gözlem kapısı, kanarya kriterleri.
Risk Isı Haritası ve Kayıt güncelleme formatı, sahipler, zaman çizelgeleri, KRI/eşikler.
14) Antipatterns
İzolasyon ve sınırlar yerine "ölçek umudu".
Kritik bir etki alanı için tek bir sağlayıcıya güvenin.
Alıştırmalar ve otomasyon olmadan "kağıt üzerinde" oyun kitapları.
Titremesiz sonsuz inzivalar - fırtınalar ve kaskadlar.
Olayları "kör" yapan günlük/izleme tasarrufları.
Toplam
Etkili risk azaltma, mimari izolasyon, öngörülebilir süreç uygulamaları ve ölçülebilir KRI/SLO ve düzenli tatbikatlarla desteklenen otomatik yanıtların bir kombinasyonudur. Bu döngü, olayların olasılığını ve ölçeğini en aza indirir, iyileşmeyi hızlandırır ve platform gelirini ve itibarını korur.