Operasyonlar ve Yönetim İş Sürekliliği
İş Sürekliliği (BCP)
1) BCP nedir ve neden gereklidir?
BCP (İş Sürekliliği Planlaması), herhangi bir arızada iş süreçlerinin istikrarını sağlamak için sistematik bir yaklaşımdır: Bir veri merkezi arızasından bir sağlayıcı krizine, veri sızıntısına veya ani yük büyümesine kadar.
Yüksek yüklü ürünlerde (iGaming, fintech, pazar yerleri), bu sadece altyapıyla ilgili değildir - güveni korumak, düzenleyici yükümlülüklere uymak ve geliri korumakla ilgilidir.
- Kritik hizmetlerin ve verilerin kullanılabilirliğini koruyun.
- Kurtarma süresini (RTO) ve veri kaybını (RPO) en aza indirin.
- Ekiplerin, iletişimin ve krizdeki dış ortakların çalışabilirliğini sağlamak.
- Personel yanıtını ve eğitimini standartlaştırmak.
2) BCP'nin ana bileşenleri
1. BIA (İş Etki Analizi) - başarısızlıkların süreçler ve iş üzerindeki etkisini değerlendirir.
2. Riskler ve senaryolar bir tehdit matrisidir (altyapı, dış, insan).
3. Hedef RTO/RPO - Kurtarma ve kayıp hedefleri.
4. Kurtarma Planı (DRP) - Sistemleri ve süreçleri yeniden başlatmak için ayrıntılı adımlar.
5. İletişim - iç ve dış kanallar, bildirim şablonları.
6. Test ve revizyon - düzenli kontroller, egzersizler, analiz sonrası.
7. Dokümantasyon ve sürüm kontrolü - merkezi erişim ve alaka düzeyi.
3) Etki analizi (BIA)
BIA, hangi süreçlerin kritik olduğunu ve ne kadar hızlı geri yüklenmeleri gerektiğini belirler.
Yöntem:1. Tüm iş süreçlerinin listesi (Ödemeler, Bahisler, Oyunlar, KYC, Destek).
2. Bağımlılıkları tanımlayın (hizmetler, veriler, sağlayıcılar, çalışanlar).
3. Başarısızlık etkisi değerlendirmesi: finansal, yasal, itibar, operasyonel.
4. Her işlem için RTO/RPO'yu ayarlayın.
5. Önceliklendirme: "Sahip Olmalı", "Sahip Olmalı", "Sahip Olmak Güzel".
Örnek:4) Risk matrisi
5) RTO, RPO ve kritiklik seviyeleri
Kurtarma Süresi Hedefi (RTO) - kurtarmadan önce ne kadar zamana izin verilir.
Kurtarma Noktası Hedefi (RPO) - ne kadar veri kaybedilebilir?
6) DRP (Felaket Kurtarma Planı)
Amaç, hızlı ve tutarlı bir sistem kurtarma sağlamaktır.
Adımlar:1. Senaryoları belirleyin (veri merkezi felaketi, PSP arızası, anahtar uzlaşma, ağ kaybı).
2. Her senaryo için - hazır bir adım adım oyun kitabı.
3. Destek DR altyapısı: yedekleme kümeleri, veritabanı kopyaları, CDN/edge.
4. RTO/RPO ve yük devretme prosedürlerini düzenli olarak test edin.
5. Tüm talimatları tek bir sürüm kontrollü depoda saklayın.
DR şablonu örneği:
Scenario: EU region falls
RTO: 30 min RPO: 5 min
Actions:
1. Activate plan DR # EU
2. Switch DNS → AP Region
3. Verify database consistency (replication lag ≤ 60s)
4. Update Status on StatusPage
5. Perform API benchmarking
7) Takımların ve rollerin organizasyonu
BCP koordinatörü: program sahibi, denetimler ve testler düzenler.
DR lead: DR planlarının teknik olarak uygulanmasından sorumludur.
Alan Sahipleri: süreçlerinin sürekliliğini sağlar (Ödemeler, Oyunlar, KYC).
İletişim ekibi: Dahili/harici bildirimler ve durum platformlarından sorumludur.
İK/Yönetici: Personel için BCP (uzaktan, iletişim, erişim).
Yasal/Uyumluluk: Düzenleyici Bildirimler ve Yasal İşlemler.
8) Krizde iletişim
Kurallar:- Temiz kanallar ve gereksiz bağlantılar.
- İlk güncelleme olaydan sonra 15 dakika içinde.
- Birleşik iletişim tonu, gerçekler ve ETA.
- Olay kapanana kadar her N dakikada bir güncellenir.
- İyileşmeden sonra - rapor ve ölüm sonrası.
[HH: MM] PSP-X failed. Impact: Deposits in EU region.
Measures: feilover on PSP-Y. ETA stabilization: 30 min.
The next update is at 15:00.
9) Test ve matkaplar
Teknik: yük devretme testleri, veritabanı kurtarma, DDoS simülasyonları.
Ameliyathaneler: Devir/rol değiştirme ekipleri.
Tam BCP egzersizleri: "karartma" senaryosu veya sağlayıcının bulunmaması.
- DR testleri - üç ayda bir;
- BCP-tam ölçekli egzersiz - yılda 1-2 kez.
- Dokümantasyon: sonuçlar, RTO/RPO'dan sapmalar, iyileştirme eylemleri.
10) Metrikler ve KPI'lar
RTO uyumluluğu: Hedef ≤ geri yüklenen süreçlerin yüzdesi.
RPO uyumluluğu: Veri kaybı olmayan süreçlerin yüzdesi> hedef.
DR testi başarı oranı: kurtarma prosedürlerinin başarılı testleri.
BCP kapsamı: Güncel planları olan süreçlerin yüzdesi (> %90).
Comms SLA: Ilk özet ≤ 15 dakika, ETA güncellemeleri.
Postmortem SLA: 72 saat ≤ analizi ile %100 kritik olaylar
11) Dokümantasyon ve bilgi yönetimi
Tek BCP depolama (sürümler, sahipler, revizyon tarihleri).
Sürüm kontrolü: En az 6 ayda bir revizyon.
Kullanılabilirlik: çevrimdışı kopyalar ve yedek iletişim kanalları (telekom/anlık haberciler dahil).
Entegrasyonlar: SOP'larda BCP'ye referans, olay süreçleri ve operasyonel gösterge tabloları.
Risk Kaydı ve Güvenlik Politikaları ile Senkronizasyon.
12) 30/60/90 - uygulama planı
30 gün:- BCP sahibi ve kritik süreçleri tanımlayın.
- Temel BIA ve sınıflandırma (RTO/RPO) gerçekleştirin.
- Bir risk matrisi ve olay senaryoları kataloğu oluşturun.
- Öncelikli hizmetler için DRP şablonu ve ilk sürümü geliştirin.
- Pilot DR testi yapın (yük devretme, veritabanı kurtarma).
- İletişim şablonlarını ve rol dağılımını hazırlayın.
- BCP belgeleri ve SOP entegrasyonu için tek bir depo oluşturun.
- Eğitim ekipleri ve nöbetçi personel başlatın.
- Takımlar arası BCP egzersizi yapın.
- RTO/RPO ve KPI metriklerinin denetim uyumluluğu.
- BCP süreçlerini revize etme ve otomatikleştirme planını sonuçlandırın.
- BCP'yi üç aylık OKR'lere ve iç güvenlik incelemelerine dahil edin.
13) Anti-desenler
"Sadece gösteri için BCP": gerçek testler ve sahipler yok.
Güncel mimarilerle eşleşmeyen eski DR talimatları.
Doğrulanmamış iletişim kanalları ve kişileri.
Hesaplanmamış bağımlılıklar (PSP, CDN, KYC sağlayıcıları).
Başarısızlıklardan sonra post-mortem eksikliği.
Ağ çöktüğünde BCP'ye çevrimdışı erişim yoktur.
14) BCP belge yapısı örneği
1. Objectives and Scope
2. Critical Processes (BIA)
3. Risk Matrix
4. Target RTO/RPO
5. DRP (by scenario)
6. Contacts and Roles
7. Communication templates
8. Schedule of tests and exercises
9. Reporting and auditing
10. Version and update history
15) Diğer bölümlerle entegrasyon
Operasyonel analitik: olay metriklerine boşluk ve bozulma.
Bildirim ve uyarı sistemi: BCP prosedürlerini tetikleyen erken sinyaller.
Yönetim etiği: şeffaf raporlar ve dürüst testler.
AI asistanları: BCP özetleri ve DR kontrol listelerinin otomatik olarak hazırlanması.
Sorumluluk kültürü: eğitimler, "oyun günleri", retrospektifler.
16) SSS
S: BCP'nin DRP'den farkı nedir?
A: BCP - daha geniş: insanları, süreçleri, iletişimi, ortakları ve altyapıyı kapsar. DRP - BT sistemi kurtarma için teknik plan.
S: BCP'yi ne sıklıkta güncelliyorum?
C: Her büyük mimari değişiklikten sonra, her 6 ayda bir olay veya en az 1.
S: Ortakları dahil etmem gerekiyor mu?
A: Evet. Süreklilik zincirinin bir parçası olan PSP, KYC ve stüdyolar, OLA ve BCP anlaşmalarına sahip olmalıdır.