خطة استعادة القدرة على العمل بعد الكوارث
1) الغرض والنطاق والمبادئ
الهدف: ضمان استعادة منصة تكنولوجيا المعلومات في الوقت المناسب بعد الكوارث (تلك، الإنترنت، البائع، الجيوسياسي) دون انتهاك المتطلبات التنظيمية والعقود وتوقعات اللاعبين.
المنطقة: البيئات الإنتاجية (دائرة الألعاب، المدفوعات، KYC/AML، مكافحة الاحتيال، واجهات متاجر DWH/BI)، عمليات التكامل (PSP، KYC، CDN، الاستوديوهات/المجمعات)، البنية التحتية (cloud/K8s، الشبكات، الأسرار/المفاتيح)، البيانات (قواعد البيانات، الملفات، السجلات).
المبادئ: السلامة أولاً، تقليل RTO/RPO، الأتمتة وقابلية التكاثر (IaC)، «قابلية الإثبات افتراضيًا»، تمارين منتظمة.
2) أهداف تصنيف النظام واسترداده
2. 1 مستويات الحرجة
المستوى 1 (حيوي): المدفوعات/النقود، الألعاب الأساسية، تسجيل الدخول/المصادقة، ICC/العقوبات.
Tier-2: التحليلات في الوقت الفعلي، التسويق/CRM، تقارير DWH.
Tier-3: البوابات الداخلية والخدمات المساعدة.
2. 2 أهداف
RTO - هدف وقت الاسترداد
هدف نقطة الاسترداد (RPO) - فقدان الوقت المسموح به للبيانات.
RTA (الوقت الفعلي للاسترداد )/RPA (نقطة الاسترداد الفعلية) - يتم تسجيل القيم الفعلية في التقارير.
MTO/MBCO: الحد الأقصى المسموح به لوقت التوقف/الحد الأدنى من مستوى الخدمة المقبول (الوضع المتدهور).
- المستوى 1 - RTO ≤ 30-60 دقيقة، RPO ≤ 15 دقيقة ؛ Tier-2 - RTO ≤ 4 ч، RPO ≤ 1 ч ؛ Tier-3 - RTO ≤ 24 ч، RPO ≤ 24 ч.
3) استراتيجيات DR والهندسة المعمارية
3. 1 طوبولوجيا
نشط (متعدد المناطق): يتطلب الحد الأدنى من المساعدة التقنية الإقليمية/المكتب الإقليمي للفئات الفنية الاتساق وحل النزاعات.
Active-Standby (ساخن/دافئ/بارد): توازن التكلفة/السرعة.
الفصل الجغرافي للبيانات والمفاتيح: KMS/HSM لكل منطقة، BYOK، مسارات تكرار مستقلة.
3. 2 بيانات ونسخ احتياطية
PITR (استرداد نقطة في الوقت المناسب): سجلات المعاملات، فترات الأرشفة ≤ 5-15 دقيقة للمستوى 1.
لقطات/نسخ احتياطية كاملة: تخزين يومي/كل ساعة وفقًا لمخطط 3-2-1 (3 نسخ، 2 وسائط، 1 خارج الإنترنت/خارج الموقع).
الثبات: أقفال WORM/object، سلاسل التوقيع/التجزئة من القطع الأثرية.
كتالوج الاسترداد: مخزون احتياطي، سلامة، تاريخ انتهاء الصلاحية، فك تشفير الاختبار.
3. 3 تطبيقات وعمليات دمج
خدمات Statles - الانتشار السريع عبر IaC/CI
مكونات Statefull: لقطات متسقة، وتنسيق تسلسل الإطلاق.
عمليات التكامل (PSP/KYC/regramators): أرصدة مزدوجة، ونقاط نهاية احتياطية، ووصلات شبكية موقعة، ومراقبة إعادة التسليم (الخصوصية).
4) ترتيب الاسترداد (دليل عام)
1. الإعلان عن نص DR → تعيين قائد حادث DR (DR-IC)، وإطلاق غرفة حرب.
2. تقييم الأضرار: المناطق/النظم الفرعية المتأثرة، والهيئة الإقليمية للتجارة/الجيش الوطني الرواندي الحالية، وقرار تنشيط التكاثر.
3. العزل/الاحتواء: حجب الأسباب الأصلية (شبكة ACLs، أسرار، فصل المزود).
- الشبكة/الأسرار/KMS →
- DB/Vault/Cache →
- API/services → front/CDN → التكامل الخارجي.
- 5. فحص النزاهة: العداد. كميات، طلبات «جافة»، عينات صحية.
- 6. تسوية الشؤون المالية/الألعاب: تسوية المدفوعات، والرهانات، والأرصدة، والتكرار غير اللائق للمعاملات.
- 7. الاتصالات: صفحة الحالة، الجهات الفاعلة/الشركاء/المنظمون ؛ الجدول الزمني للتحديث.
- 8. المراقبة والاستقرار: تعطيل التدهور مع استمرار التطبيع.
- 9. بعد الوفاة: RCA، CAPA، تحديث DRP.
5) كتيبات التشغيل المتخصصة (مقتطفات)
5. 1 احتياطي → نشط
yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"
5. 2 الفساد DB/التعافي من PITR
yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]
5. 3 تحلل PSP في وضع DR
yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation
6) سلامة البيانات والتوفيق بينها
التمويل: تسويات الودائع/المدفوعات/العمولات، وإعادة إرسال الإخطارات والخطابات الشبكية مع التفريغ (مفاتيح الخصوصية).
محتوى اللعبة: استعادة الدول المستديرة، وتكرار التسويات إذا لزم الأمر، والحماية من التهم المزدوجة/التهم.
السجلات/عمليات التدقيق: قبل/بعد رسم خرائط سجل WORM، والتوقيعات/التجزئة، وتقارير الاتساق.
تقرير الإدارة المعنية بالسياسات/الامتثال: في حالة تأثير المبادرة، ومقياس الالتقاط، والجدول الزمني والإخطارات.
7) DR للتقنيات الرئيسية (أمثلة)
DBMS (علائقي): النسخ المتزامن/غير المتزامن، فتحات WAL، مواقف سريعة الترويج، ساخنة.
NoSQL/caches: multicluster، TTL-disability، ملء البرد، رفض الكتابة عبر المناطق دون حل النزاعات.
قوائم الانتظار/التيارات: مواضع/مجموعات مرآة، تحكم في التعويض، تفريغ المستهلك.
تخزين الكائنات: الإصدار، تكرار القبو، جرد الكائنات، وسياسات الاحتفاظ.
CI/CD/articles: نسخ طبق الأصل من السجلات، توقيع القطع الأثرية، نسخ غير متصلة بالإنترنت من الحاويات الحرجة.
الأسرار/المفاتيح: KMS لكل منطقة، مفاتيح جذر مستقلة، زجاج كسر مع قطع الأشجار و TTL.
8) الأمن والخصوصية في DR
مبدأ الحقوق الأقل: الوصول إلى DR حسب الأدوار/الملامح الفردية (JIT/PAM).
النسخ الاحتياطية غير القابلة للتغيير: خارج الإنترنت/خارج الموقع، اختبار الاسترداد وفك التشفير.
النوافذ التنظيمية: قرار التقاط الأحداث والإخطار (المنظم/البنك/PSP/المستخدمون) جنبًا إلى جنب مع Legal/DPO.
إمكانية التتبع: سجل نشاط الأمر الكامل DR، توقيع الجدول الزمني.
9) التمارين وأنواع الاختبارات
Walkthrough/Review: Document/Role/Contact Review (Quarterly).
الطاولة: تشغيل السيناريوهات على «الجافة» مع حل النزاعات.
جزئي تقني: استرداد خدمة/قاعدة بيانات واحدة.
الفشل الكامل/التبديل - نقل حركة المرور والبيانات إلى منطقة النسخ الاحتياطي.
أيام الفوضى (خاضعة للرقابة): حقن الإخفاقات/الإخفاقات في التحقق من التلقائية.
→ كل اختبار تقريرًا يحتوي على RTA/RPA وقائمة الانحراف و CAPA وتحديث DRP.
10) المقاييس (KPI/KRI)
RTA/RPA vs RTO/RPO (المستوى 1): 95٪ ≥ المباراة.
تغطية اختبار DR: ≥ 2 اختبارات DR كاملة/سنة + جزئية منتظمة.
من الوقت إلى الحالة الأولى: ≤ 15 دقيقة بعد إعلان DR.
تسوية Zero-Diff: جميع التسويات النقدية وتسويات اللعبة دون تناقضات.
النزاهة الاحتياطية: 100٪ من عمليات استعادة البقع ناجحة في الربع.
Config Drift: 0 الانجراف بين الابتدائي/الثانوي (مقارنة IaC).
الأمان في DR: 100٪ أنشطة DR مع تسجيل وتأكيد.
11) RACI (موسع)
12) القوائم المرجعية
12. 1 استعداد DR
- تم تحديث اتصالات فريق DR/البائع/المنظم
- النسخ الأخضر، تمكين PITR، اختبار فك تشفير النسخ الاحتياطية
- الوصول إلى JIT/PAM، تم التحقق من كسر الزجاج
- كتب اللعب المزيفة والمتغيرات البيئية صالحة
- PSP/KYC Credits/Webhooks، طرق بديلة
- نماذج الحالة/الرسالة جاهزة
12. 2 خلال DR
- تعيين DR-IC، غرفة حرب مفتوحة، جدول زمني للحدث
- تسبب العزلة والكتابة النصية وتشغيل كتب التشغيل
- فحوصات النزاهة والاختبارات الصحية واختبارات الدخان
- أول تحديث عام ≤ 15 دقيقة ؛ توجيه إخطارات إلى الشركاء/المنظمين بشأن اتفاقات جنوب السودان
- التقاط القطع الأثرية للتحقيق
12. 3 بعد DR
- التوفيق الكامل بين الأموال/الألعاب والمجلات
- تشريح الجثة، RCA، CAPA مع التواريخ والمالكين
- DRP/BIA/Contact/IaC Update
- إصلاح خطة إعادة الاختبار
13) قوالب (شظايا)
13. 1 بطاقة خدمة (جواز سفر DR)
yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]
13. 2 تقرير اختبار DR (التعرض)
yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"
13. 3 نموذج رسالة الحالة
[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.
14) خارطة طريق التنفيذ (6-8 أسابيع)
الأسابيع 1-2: جرد الخدمات والتبعيات، تصنيف المستوى، أهداف RTO/RPO، اختيار الطوبولوجيا، جوازات سفر DR.
الأسابيع من 3 إلى 4: تنفيذ النسخ الاحتياطية/PITR/عدم قابلية التغير، والتكرار السري/KMS، وإعداد الكتب الجريدية والحالة.
الأسابيع 5-6: اختبارات تقنية جزئية (قاعدة بيانات/مخبأ/قوائم انتظار)، سطح الطاولة وفقًا لسيناريوهات PSP/KYC/المنطقة.
الأسابيع 7-8: التبديل الكامل (إن أمكن)، التقرير مع RTA/RPA و CAPA وتحديث DRP وخطة الاختبار العادية.
15) التكامل مع أقسام ويكي الأخرى
رابط إلى: BCP، سجل المخاطر، إدارة الحوادث، سياسة السجل (WORM)، TPRM و SLA، ISO 27001/27701، SOC 2، PCI DSS، RBAC/Lest Privilege، سياسة كلمة المرور و MF، إدارة التغيير/الإصدار.
TL; د
DRP العامل = مسح RTO/RPO by Tier → Active-Active/Standby architecture + نسخ احتياطية غير قابلة للتغيير/PITR → دفاتر تشغيل قابلة للعب ومخالفات → تسوية الأموال/الألعاب → التمارين العادية و CAPAs. ثم يتحول أي فشل كبير إلى إجراء يمكن التحكم فيه مع أوقات تعافي يمكن التنبؤ بها وعدم وجود مفاجآت للمنظمين واللاعبين.