خطة استمرارية تصريف الأعمال
1) الغرض والنطاق والمبادئ
الغرض: ضمان استمرار الخدمات الحيوية (الودائع، الرهانات/الألعاب، الاستنتاجات، KYC/AML، الدعم) في حالة الإخفاقات والاسترداد السريع دون انتهاك التراخيص والعقود.
المنطقة: منصة عبر الإنترنت، حلقة دفع، مكافحة الاحتيال/CUS، DWH/BI، الدعم، الوظائف التشغيلية والقانونية، البائعين الرئيسيين (PSP/KYC/Cloud/CDN/studios/regramators).
المبادئ: السلامة أولاً، اللاعب أولاً، الصواب التنظيمي، تقليل RTO/RPO، أوضاع التحلل البسيطة، قابلية الإثبات والتمارين المنتظمة.
2) BIA - تحليل تأثير الأعمال
تحديد العمليات الحاسمة، والمدخلات/النواتج، وأوجه التبعية، والبدائل اليدوية، واستهداف الموظفين الفنيين المقيمين/الموظفين الفنيين المقيمين.
مثال على شظية BIA (YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) المخاطر → التأثير → الاستجابة
تلك: انهيار المنطقة السحابية، فشل قاعدة البيانات، فقدان المجموعة، هجمات DDoS، فشل CDN.
البائعون: تدهور PSP/KYC، كسر مع مجمع الألعاب، عدم إمكانية الوصول إلى فحص مكافحة الاحتيال/العقوبات.
Cyber: حساب/حل وسط رئيسي، برنامج فدية، تسريب PII.
العمليات/الأشخاص: الإضرابات/الأمراض، المغادرة المتخصصة الرئيسية، خطأ الإصدار.
الأرض/القوة القاهرة: الاتصالات/انقطاع الطاقة، المخاطر العسكرية/الجزاءات، إعاقة المجال/حركة المرور.
لكل منها: المحفزات، وعتبة التصعيد، وتدابير التحكم، وتدهور الخدمة ونماذج الاتصال.
4) بنية واستراتيجيات الاستدامة
منطقة نشطة/نشطة احتياطية ؛ البنية التحتية كرمز للصعود السريع.
أوضاع التحلل: عروض القراءة فقط، وفصل مزودي الألعاب غير الحرجة، وحدود الدفع، و «الودائع فقط» مع النقود المؤجلة (إذا كان مسموحًا به قانونًا)، وتحليلات أقل/تردد ETL.
إدارة حركة المرور: Anycast CDN، التوازن الجغرافي، الفحوصات الصحية، توجيه الكناري.
البيانات: نسخ احتياطية من PITR، سجلات التغيير، التكرار بين المناطق، سلامة التشفير (التجزئة/WORM).
المفاتيح/الأسرار: KMS مستقلة لكل منطقة، «كسر الزجاج» مع قطع الأشجار.
PSP/KYC متعددة التوجيه: فشل تلقائي، توجيه SLA/زمن الانتقال.
5) نظام قيادة الحوادث
قائد الحادث (IC) - نقطة قرار واحدة.
Ops Lead (SRE/Platform) - الاستقرار التقني، feilover، المقاييس.
قيادة استمرارية تصريف الأعمال - تنسيق العمليات/الإجراءات اليدوية.
Comms Lead - الإشعارات الخارجية/الداخلية (اللاعبون والشركاء والمنظمون).
الأمن/DPO - الحوادث الإلكترونية/الخصوصية، النوافذ التنظيمية.
المدفوعات/KYC Leads - سيناريوهات PSP/KYC.
Liaisons: Legal, Support, VIP/CRM, Data/BI.
القاعدة: واحد IC لكل حادث، وقنوات واضحة وسجلات قرار.
6) خطة الاتصالات
القنوات: غرفة حرب (دردشة/جسر)، اتصالات احتياطية (هاتف/راديو/بديل ماسنجر)، جهات اتصال PSP/KYC/مصرفية تم فحصها مسبقًا.
نماذج الرسائل الخارجية: صفحة الحالة، الشبكات الاجتماعية، البريد الإلكتروني/الدفع ؛ النبرة - الحقائق والتوقيت والخطوات التالية.
الجهات التنظيمية والشركاء: العناوين المحددة مسبقاً، وإخطارات جيش تحرير السودان ؛ صياغة متفق عليها.
اللاعبون: اتفاقيات إيتا الشفافة، والتعويضات/المكافآت (عند الاقتضاء)، والأسئلة الشائعة عن فترة التدهور.
7) الخطط التشغيلية (كتيبات التشغيل)
أمثلة على الشظايا:7. 1 Feilover إلى منطقة أخرى
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 تحلل PSP
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 مزود KYC غير متاح
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) تكنولوجيا المعلومات واسترداد البيانات (DR)
فئات النظام: المستوى 1 (النظام الأساسي/المدفوعات/CCM)، Tier-2 (الألعاب/التحليلات)، Tier-3 (الداخلية).
إجراءات الرفع: set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika.
فحص النزاهة - الفحوصات، التحقق من التسجيل/النسخ المتماثل، تسوية المعاملات.
اختبارات DR: كاملة سنويًا (التبديل)، جزئية ربع سنوية ؛ الالتزام بالمنظمات/المنظمات الإقليمية المعنية بالموارد الفنية
9) الأشخاص والمكاتب واللوجستيات
جاهز عن بعد: أجهزة كمبيوتر محمولة/أجهزة مودم زائدة عن الحاجة، والوصول عبر SSO/MFA، والوصول «الأحمر» لـ IC.
المواقع البديلة: المكاتب الاحتياطية/أماكن العمل المشترك، وقوائم التصاريح، وخطة الإخلاء.
تناوب التحولات: مصفوفة الكفاءة، ازدواجية الأدوار الرئيسية، خطة الاستبدال.
مقدمو خدمات الاتصالات/الطاقة الحاسمون: جهات الاتصال، وجيش تحرير السودان، والمولدات الكهربائية/وحدة الإحصاء الموحدة (عند الاقتضاء).
10) البائعون وسلسلة التوريد
شروط BCP/DR في العقود: RTO/RPO، الاختبارات الإلزامية، حقوق التدقيق والممارسات المشتركة.
سجل المعالجات الفرعية: جهات الاتصال، خطط الانقطاع، تأكيد حذف/تصدير البيانات عند الإقلاع عن العمل.
المراجعات الفصلية من المستوى 1: الحوادث، بروتوكولات DR، حالة التصديق، SLAs.
11) التدريب والتدريبات والاختبار
سطح الطاولة مرة واحدة في الربع: سيناريوهات PSP/KYC/cloud/cyber.
التمارين التقنية: DR جزئي/كامل ؛ تبديل DDoS/CDN ؛ مزودي «kill-switch» SDK.
تدريبات الاتصال: بيان صحفي/تحديثات الحالة/رسائل تنظيمية.
Retrospectives: timeline, RCA, CAPA, runbook update and BIA.
12) المقاييس (KPI/KRI)
RTO/RPO الفعلي (وفقًا للمستوى 1): تحقيق الأهداف ≥ 95٪.
MTTD/MTTR: اتجاه نزولي ؛ تم استهداف MTTR ≤ الحوادث الخطيرة.
نجاح Feilover: بدون فقدان البيانات/الطلبات/الأسعار، ≤ X دقائق من التدهور.
تمارين التغطية: ≥ 2 اختبارات DR كاملة/سنة + 4 طاولة.
الاتصالات: ≤ وقت التحديث الأول 15 دقيقة، وتواتر التحديثات وفقًا للسياسة.
مرونة البائع: تبلغ حصة المستوى 1 مع اختبارات DR المؤكدة في 12 شهرًا 100٪.
13) RACI (موسع)
14) القوائم المرجعية
14. 1 جاهز للفشل
- اتصالات IC/البائع/المنظم الحالية
- صحة التكرار، نسخة احتياطية منتظمة من PITR
- تم التحقق من SDK/Webhook kill-switch
- مدير حركة المرور (GSLB/CDN) مع التحقق من صحة الفحوصات الصحية
- نماذج الحالة/الرسائل وحقوق النشر
- مراجعة الكتب التشغيلية والوصول (SSO/MFA) شهريًا
14. 2 خلال الحادث
- تعيين IC، غرفة الحرب مفتوحة، بدء سجلات القرار
- التصنيف (ف-1/ف-2)، اختيار السيناريوهات وتدهورها
- الإجراءات التقنية (feilover/limits/displacements)
- أول تحديث عام ≤ 15 دقيقة
- إخطارات تنظيم/شريك SLA
- التقاط القطع الأثرية لتشريح الجثة
14. 3 بعد الحادث
- تشريح الجثة باستخدام RCA و CAPA
- تحديث BIA/العتبات/الروتين
- إصلاحات التدريب/إعادة الاختبار، تقرير مجلس الإدارة
- المالية/التسوية
15) قوالب (شظايا)
15. 1 بطاقة سكربت
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 رسالة إلى صفحة الحالة
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) إدارة الوثائق والنسخ
إصدار BCP/Runbooks في المستودع، سجل التغيير، مالك المستند.
فترة التنقيح (ربع سنوية بالنسبة للمستوى 1)، مراقبة توافر النسخ غير المتصلة بالإنترنت.
تخزين التحف/الحوادث ومقاييس الأداء.
17) خارطة طريق التنفيذ (6-8 أسابيع)
الأسابيع 1-2: BIA والعمليات الحاسمة، وأهداف RTO/RPO، وقائمة السيناريوهات والمالكين.
الأسابيع من 3 إلى 4: بنية أوضاع الاستقرار والتدهور، وكتب التشغيل، وقوالب الاتصال، والاتصالات.
الأسابيع 5-6: تكامل البائع (PSP/KYC/cloud)، التمارين التجريبية (طاولة + جزئية DR)، التعديلات.
الأسابيع 7-8: اختبار DR كامل (إن أمكن)، إطلاق دورة التمرين الفصلية، تقرير مجلس الإدارة والحزمة التنظيمية (إذا لزم الأمر).
18) أقسام ويكي ذات الصلة
سجل المخاطر، الحوادث والتسريبات، اختبارات DR/BCP، TPRM و SLA، ISO 27001/27701، SOC 2، PCI DSS، IGA/RBAC/أقل امتياز، Log Policy/WORM M - لحلقة واحدة من المتانة والقدرة على الإثبات.
TL; د
BCP الفعال = BIA→RTO/RPO→stsenarii و degradatsii→multi - البائع/متعدد المناطق + القيادة الواضحة للحوادث والاتصالات والتمارين. احتفظ بالوثيقة على قيد الحياة، واختبرها بانتظام - وحتى الانهيار الكبير لن يوقف العمل أو يصيب التراخيص.