İş sürekliliği planı
1) Amaç, kapsam ve ilkeler
Amaç: Lisansları ve sözleşmeleri ihlal etmeden arıza ve hızlı kurtarma durumunda kritik hizmetlerin (para yatırma, bahis/oyun, sonuç, KYC/AML, destek) devam etmesini sağlamak.
Alan: çevrimiçi platform, ödeme döngüsü, dolandırıcılıkla mücadele/CUS, DWH/BI, destek, operasyonel ve yasal işlevler, anahtar satıcılar (PSP/KYC/bulut/CDN/stüdyolar/toplayıcılar).
İlkeler: Önce güvenlik, önce oyuncu, düzenleyici doğruluk, RTO/RPO minimizasyonu, basit bozulma modları, kanıtlanabilirlik ve düzenli egzersizler.
2) BIA - İş Etki Analizi
Kritik süreçleri, girişleri/çıkışları, bağımlılıkları, manuel alternatifleri ve hedef RTO/RPO'ları tanımlayın.
BIA fragman örneği (YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Risk - Etki - Yanıt
Bunlar: bulut bölgesi çökmesi, veritabanı arızası, küme kaybı, DDoS saldırıları, CDN arızası.
Satıcılar: PSP/KYC bozulması, oyun toplayıcı ile kopma, anti-dolandırıcılık/yaptırım taramasının erişilememesi.
Siber: Hesap/anahtar uzlaşma, ransomware, PII sızıntısı.
Süreçler/İnsanlar: Grevler/Hastalıklar, Temel Uzman Ayrılışları, Serbest Bırakma Hatası.
Jeo/mücbir sebepler: iletişim/enerji kesintileri, askeri/yaptırım riskleri, alan/trafik tıkanmaları.
Her biri için: tetikleyiciler, yükseltme eşiği, kontrol önlemleri, hizmet bozulması ve iletişim şablonları.
4) Sürdürülebilirlik mimarisi ve stratejileri
Bölgeye göre aktif-aktif/aktif-bekleme; Hızlı çıkış için kod olarak altyapı.
Bozunma modları: salt okunur vitrinler, kritik olmayan oyun sağlayıcılarının bağlantısının kesilmesi, ödeme limitleri, ertelenmiş nakit çıkışları olan "yalnızca mevduatlar" (yasal olarak izin verilirse), daha düşük analitik/ETL sıklığı.
Trafik yönetimi: Anycast CDN, coğrafi dengeleme, sağlık kontrolleri, kanarya yönlendirme.
Veriler: PITR yedeklemeleri, değişiklik günlükleri, bölgeler arası çoğaltma, kriptografik bütünlük (karma/WORM).
Anahtarlar/sırlar: Bölge başına bağımsız KMS, günlüklü "kırılma camı".
PSP/KYC çoklu yönlendirme: otomatik yük devretme, SLA/gecikme yönlendirme.
5) Olay Komuta Sistemi
Olay Komutanı (IC) - tek bir karar noktası.
Ops Lead (SRE/Platform) - teknik stabilizasyon, feilover, metrikler.
İş Sürekliliği Liderliği - süreçlerin/manuel prosedürlerin koordinasyonu.
Comms Lead - harici/dahili bildirimler (oyuncular, ortaklar, düzenleyiciler).
Güvenlik/DPO - siber olaylar/gizlilik, düzenleyici pencereler.
Ödemeler/KYC Leads - PSP/KYC senaryoları.
İrtibat: Yasal, Destek, VIP/CRM, Veri/BI.
Kural: Olay başına bir IC, açık kanallar ve karar kayıtları.
6) İletişim planı
Kanallar: savaş odası (sohbet/köprü), yedek bağlantılar (telefon/radyo/alt-messenger), önceden kontrol edilmiş PSP/KYC/banka bağlantıları.
Harici mesaj şablonları: durum sayfası, sosyal ağlar, e-posta/push; Ton - gerçekler, zamanlama, sonraki adımlar.
Düzenleyiciler ve ortaklar: önceden ayarlanmış adresler, SLA bildirimleri; Kabul edilen ifadeler.
Oyuncular: şeffaf ETA'lar, tazminatlar/bonuslar (varsa), bozulma dönemi için SSS'ler.
7) Operasyonel Planlar (Runbooks)
Fragman örnekleri:7. 1 Feilover başka bir bölgeye
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 PSP bozulması
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC sağlayıcısı kullanılamıyor
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) BT ve Veri Kurtarma (DR)
Sistem kategorileri: Tier-1 (platform/ödemeler/CCM), Tier-2 (oyun/analitik), Tier-3 (dahili).
Kaldırma prosedürü: ayarla, sekrety/KMS, BD, kesh, API, front, CDN, integratsii, analitika.
Bütünlük kontrolleri - sağlama toplamları, günlük/çoğaltma doğrulaması, işlem mutabakatı.
DR testleri: yıllık tam (switch-over), üç aylık kısmi; Gerçek RTO'ları/RPO'ları işleme
9) İnsanlar, ofisler ve lojistik
Uzaktan kullanıma hazır: Yedekli dizüstü bilgisayarlar/modemler, SSO/MFA üzerinden erişim, IC için "kırmızı" erişim.
Alternatif yerler: boş ofisler/ortak çalışma alanları, geçiş listeleri, tahliye planı.
Vardiyaların rotasyonu: yetkinlik matrisi, anahtar rollerin çoğaltılması, değiştirme planı.
Kritik iletişim/enerji sağlayıcıları: kontaklar, SLA, jeneratörler/UPS (varsa).
10) Satıcılar ve Tedarik Zinciri
Sözleşmelerde BCP/DR gereklilikleri: RTO/RPO, zorunlu testler, denetim hakları ve ortak alıştırmalar.
Alt işlemcilerin kaydı: kişiler, kesinti planları, offboarding sırasında veri silme/dışa aktarma onayı.
Tier-1 Üç Aylık İncelemeler: Olaylar, DR Protokolleri, Sertifikasyon Durumu, SLA'lar.
11) Eğitim, tatbikatlar ve testler
Üç ayda bir masa üstü: PSP/KYC/bulut/siber senaryolar.
Teknik egzersizler: DR kısmi/tam; DDoS/CDN anahtarlama; "kill-switch" SDK sağlayıcıları.
İletişim tatbikatları: basın bülteni/durum güncellemeleri/düzenleyici mektuplar.
Retrospektifler: zaman çizelgesi, RCA, CAPA, runbooks güncellemesi ve BIA.
12) Metrikler (KPI/KRI)
RTO/RPO fiili (Tier-1'e göre): %95 ≥ hedeflerini karşılar.
MTTD/MTTR: düşüş eğilimi; Kritik olayların MTTR'si hedef ≤.
Feilover başarısı: veri/sipariş/oran kaybı olmadan, ≤ X dakikalık bozulma.
Kapsama egzersizleri: ≥ 2 tam DR testleri/yıl + 4 masa üstü.
İletişim: İlk güncellemenin süresi ≤ 15 dakika, politikaya göre güncellemelerin sıklığı.
Satıcı esnekliği: 12 ay içinde onaylanmış DR testleri ile Tier-1'in payı %100'dür.
13) RACI (büyütülmüş)
14) Kontrol listeleri
14. 1 Yük Devretmeye Hazır
- Mevcut IC/Satıcı/Düzenleyici kontakları
- Çoğaltma sağlığı, düzenli PITR yedekleme
- SDK/Webhook kill-switch doğrulandı
- Doğrulanmış sağlık kontrolleri ile Trafik Yöneticisi (GSLB/CDN)
- Durum/mektup şablonları ve yayın hakları
- Runbooks ve erişimler (SSO/MFA) aylık olarak gözden geçirildi
14. 2 Olay sırasında
- IC atanmış, savaş odası açık, karar günlükleri başlar
- Sınıflandırma (P1/P2), senaryo seçimi ve bozulması
- Teknik eylemler (feilover/limits/disconnections)
- İlk genel güncelleme ≤ 15 dakika
- SLA Düzenleyici/İş Ortağı Bildirimleri
- Post-mortem için eserler yakalama
14. 3 Olaydan sonra
- RCA ve CAPA ile ölüm sonrası
- Güncellenmiş BIA/eşikler/rutinler
- Eğitim/yeniden test düzeltmeleri, yönetim kurulu raporu
- Mali/uzlaşma
15) Şablonlar (parçalar)
15. 1 Script kartı
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Durum sayfasına mesaj
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Belge ve sürüm yönetimi
Bilgi Havuzundaki BCP/Runbooks, change-log, belge sahibi sürümleri.
Revizyon dönemi (Tier-1 için üç ayda bir), çevrimdışı kopyaların kullanılabilirliğinin kontrolü.
Matkap/olay artifaktlarını ve performans metriklerini saklama.
17) Uygulama Yol Haritası (6-8 hafta)
1-2. Haftalar: BIA ve kritik süreçler, RTO/RPO hedefleri, senaryoların ve sahiplerin listesi.
3-4. Haftalar: Kararlılık ve bozulma modlarının mimarisi, çalışma kitapları, iletişim şablonları, kişiler.
5-6. Haftalar: satıcı entegrasyonu (PSP/KYC/bulut), pilot alıştırmalar (masa üstü + kısmi DR), ayarlamalar.
7-8. Haftalar: tam DR testi (mümkünse), üç aylık egzersiz döngüsünün başlatılması, yönetim kurulu raporu ve düzenleyici paket (gerekirse).
18) İlgili wiki bölümleri
Risk Kaydı, Olaylar ve Sızıntılar, DR/BCP testleri, TPRM ve SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/En Az Ayrıcalık, Log Politikası/WORM - tek bir sağlamlık ve kanıtlanabilirlik döngüsü için.
TL; DR
Etkili BCP = BIA - RTO/RPO - stsenarii ve degradatsii - çok satıcılı/çok bölgeli + açık Olay Komutu, iletişim ve alıştırmalar. Belgeyi canlı tutun, düzenli olarak test edin - ve büyük bir çökme bile işi durdurmaz veya lisanslara çarpmaz.