GH GambleHub

خطة استعادة القدرة على العمل بعد الكوارث

1) الغرض والنطاق والمبادئ

الهدف: ضمان استعادة منصة تكنولوجيا المعلومات في الوقت المناسب بعد الكوارث (تلك، الإنترنت، البائع، الجيوسياسي) دون انتهاك المتطلبات التنظيمية والعقود وتوقعات اللاعبين.
المنطقة: البيئات الإنتاجية (دائرة الألعاب، المدفوعات، KYC/AML، مكافحة الاحتيال، واجهات متاجر DWH/BI)، عمليات التكامل (PSP، KYC، CDN، الاستوديوهات/المجمعات)، البنية التحتية (cloud/K8s، الشبكات، الأسرار/المفاتيح)، البيانات (قواعد البيانات، الملفات، السجلات).
المبادئ: السلامة أولاً، تقليل RTO/RPO، الأتمتة وقابلية التكاثر (IaC)، «قابلية الإثبات افتراضيًا»، تمارين منتظمة.


2) أهداف تصنيف النظام واسترداده

2. 1 مستويات الحرجة

المستوى 1 (حيوي): المدفوعات/النقود، الألعاب الأساسية، تسجيل الدخول/المصادقة، ICC/العقوبات.
Tier-2: التحليلات في الوقت الفعلي، التسويق/CRM، تقارير DWH.
Tier-3: البوابات الداخلية والخدمات المساعدة.

2. 2 أهداف

RTO - هدف وقت الاسترداد

هدف نقطة الاسترداد (RPO) - فقدان الوقت المسموح به للبيانات.
RTA (الوقت الفعلي للاسترداد )/RPA (نقطة الاسترداد الفعلية) - يتم تسجيل القيم الفعلية في التقارير.
MTO/MBCO: الحد الأقصى المسموح به لوقت التوقف/الحد الأدنى من مستوى الخدمة المقبول (الوضع المتدهور).

مثال الأهداف (للإشارة):
  • المستوى 1 - RTO ≤ 30-60 دقيقة، RPO ≤ 15 دقيقة ؛ Tier-2 - RTO ≤ 4 ч، RPO ≤ 1 ч ؛ Tier-3 - RTO ≤ 24 ч، RPO ≤ 24 ч.

3) استراتيجيات DR والهندسة المعمارية

3. 1 طوبولوجيا

نشط (متعدد المناطق): يتطلب الحد الأدنى من المساعدة التقنية الإقليمية/المكتب الإقليمي للفئات الفنية الاتساق وحل النزاعات.
Active-Standby (ساخن/دافئ/بارد): توازن التكلفة/السرعة.
الفصل الجغرافي للبيانات والمفاتيح: KMS/HSM لكل منطقة، BYOK، مسارات تكرار مستقلة.

3. 2 بيانات ونسخ احتياطية

PITR (استرداد نقطة في الوقت المناسب): سجلات المعاملات، فترات الأرشفة ≤ 5-15 دقيقة للمستوى 1.
لقطات/نسخ احتياطية كاملة: تخزين يومي/كل ساعة وفقًا لمخطط 3-2-1 (3 نسخ، 2 وسائط، 1 خارج الإنترنت/خارج الموقع).
الثبات: أقفال WORM/object، سلاسل التوقيع/التجزئة من القطع الأثرية.
كتالوج الاسترداد: مخزون احتياطي، سلامة، تاريخ انتهاء الصلاحية، فك تشفير الاختبار.

3. 3 تطبيقات وعمليات دمج

خدمات Statles - الانتشار السريع عبر IaC/CI

مكونات Statefull: لقطات متسقة، وتنسيق تسلسل الإطلاق.
عمليات التكامل (PSP/KYC/regramators): أرصدة مزدوجة، ونقاط نهاية احتياطية، ووصلات شبكية موقعة، ومراقبة إعادة التسليم (الخصوصية).


4) ترتيب الاسترداد (دليل عام)

1. الإعلان عن نص DR → تعيين قائد حادث DR (DR-IC)، وإطلاق غرفة حرب.
2. تقييم الأضرار: المناطق/النظم الفرعية المتأثرة، والهيئة الإقليمية للتجارة/الجيش الوطني الرواندي الحالية، وقرار تنشيط التكاثر.
3. العزل/الاحتواء: حجب الأسباب الأصلية (شبكة ACLs، أسرار، فصل المزود).

4. بدء DR:
  • الشبكة/الأسرار/KMS →
  • DB/Vault/Cache →
  • API/services → front/CDN → التكامل الخارجي.
  • 5. فحص النزاهة: العداد. كميات، طلبات «جافة»، عينات صحية.
  • 6. تسوية الشؤون المالية/الألعاب: تسوية المدفوعات، والرهانات، والأرصدة، والتكرار غير اللائق للمعاملات.
  • 7. الاتصالات: صفحة الحالة، الجهات الفاعلة/الشركاء/المنظمون ؛ الجدول الزمني للتحديث.
  • 8. المراقبة والاستقرار: تعطيل التدهور مع استمرار التطبيع.
  • 9. بعد الوفاة: RCA، CAPA، تحديث DRP.

5) كتيبات التشغيل المتخصصة (مقتطفات)

5. 1 احتياطي → نشط

yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"

5. 2 الفساد DB/التعافي من PITR

yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]

5. 3 تحلل PSP في وضع DR

yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation

6) سلامة البيانات والتوفيق بينها

التمويل: تسويات الودائع/المدفوعات/العمولات، وإعادة إرسال الإخطارات والخطابات الشبكية مع التفريغ (مفاتيح الخصوصية).
محتوى اللعبة: استعادة الدول المستديرة، وتكرار التسويات إذا لزم الأمر، والحماية من التهم المزدوجة/التهم.
السجلات/عمليات التدقيق: قبل/بعد رسم خرائط سجل WORM، والتوقيعات/التجزئة، وتقارير الاتساق.
تقرير الإدارة المعنية بالسياسات/الامتثال: في حالة تأثير المبادرة، ومقياس الالتقاط، والجدول الزمني والإخطارات.


7) DR للتقنيات الرئيسية (أمثلة)

DBMS (علائقي): النسخ المتزامن/غير المتزامن، فتحات WAL، مواقف سريعة الترويج، ساخنة.
NoSQL/caches: multicluster، TTL-disability، ملء البرد، رفض الكتابة عبر المناطق دون حل النزاعات.
قوائم الانتظار/التيارات: مواضع/مجموعات مرآة، تحكم في التعويض، تفريغ المستهلك.
تخزين الكائنات: الإصدار، تكرار القبو، جرد الكائنات، وسياسات الاحتفاظ.
CI/CD/articles: نسخ طبق الأصل من السجلات، توقيع القطع الأثرية، نسخ غير متصلة بالإنترنت من الحاويات الحرجة.
الأسرار/المفاتيح: KMS لكل منطقة، مفاتيح جذر مستقلة، زجاج كسر مع قطع الأشجار و TTL.


8) الأمن والخصوصية في DR

مبدأ الحقوق الأقل: الوصول إلى DR حسب الأدوار/الملامح الفردية (JIT/PAM).
النسخ الاحتياطية غير القابلة للتغيير: خارج الإنترنت/خارج الموقع، اختبار الاسترداد وفك التشفير.
النوافذ التنظيمية: قرار التقاط الأحداث والإخطار (المنظم/البنك/PSP/المستخدمون) جنبًا إلى جنب مع Legal/DPO.
إمكانية التتبع: سجل نشاط الأمر الكامل DR، توقيع الجدول الزمني.


9) التمارين وأنواع الاختبارات

Walkthrough/Review: Document/Role/Contact Review (Quarterly).
الطاولة: تشغيل السيناريوهات على «الجافة» مع حل النزاعات.
جزئي تقني: استرداد خدمة/قاعدة بيانات واحدة.
الفشل الكامل/التبديل - نقل حركة المرور والبيانات إلى منطقة النسخ الاحتياطي.
أيام الفوضى (خاضعة للرقابة): حقن الإخفاقات/الإخفاقات في التحقق من التلقائية.

→ كل اختبار تقريرًا يحتوي على RTA/RPA وقائمة الانحراف و CAPA وتحديث DRP.


10) المقاييس (KPI/KRI)

RTA/RPA vs RTO/RPO (المستوى 1): 95٪ ≥ المباراة.
تغطية اختبار DR: ≥ 2 اختبارات DR كاملة/سنة + جزئية منتظمة.
من الوقت إلى الحالة الأولى: ≤ 15 دقيقة بعد إعلان DR.
تسوية Zero-Diff: جميع التسويات النقدية وتسويات اللعبة دون تناقضات.
النزاهة الاحتياطية: 100٪ من عمليات استعادة البقع ناجحة في الربع.
Config Drift: 0 الانجراف بين الابتدائي/الثانوي (مقارنة IaC).
الأمان في DR: 100٪ أنشطة DR مع تسجيل وتأكيد.


11) RACI (موسع)

النشاطDR-ICالمنصة/SREالبيانات/إدارة الشؤون الإداريةالأمن/إدارة شؤون الإعلامالمدفوعاتالمخاطر/KYCالمنتج/المهندسالاتصالات/العلاقات العامةالقانون/الامتثال
إعلان DRA/Rجيمجيمجيمجيمجيمجيمجيمجيم
Feilover/ارفعجيمA/RRجيمجيمجيمRأناأنا
التحقق/الصحةجيمRA/RجيمجيمجيمRأناأنا
المصالحةأناRA/RأناRRRأناأنا
١ - الاتصالاتأناأناأناجيمجيمجيمأناA/Rجيم
المنظمون/PSPأناأناأناA/RRRأناجيمR
تشريح الجثة/CAPAA/RRRRRRRجيمجيم

12) القوائم المرجعية

12. 1 استعداد DR

  • تم تحديث اتصالات فريق DR/البائع/المنظم
  • النسخ الأخضر، تمكين PITR، اختبار فك تشفير النسخ الاحتياطية
  • الوصول إلى JIT/PAM، تم التحقق من كسر الزجاج
  • كتب اللعب المزيفة والمتغيرات البيئية صالحة
  • PSP/KYC Credits/Webhooks، طرق بديلة
  • نماذج الحالة/الرسالة جاهزة

12. 2 خلال DR

  • تعيين DR-IC، غرفة حرب مفتوحة، جدول زمني للحدث
  • تسبب العزلة والكتابة النصية وتشغيل كتب التشغيل
  • فحوصات النزاهة والاختبارات الصحية واختبارات الدخان
  • أول تحديث عام ≤ 15 دقيقة ؛ توجيه إخطارات إلى الشركاء/المنظمين بشأن اتفاقات جنوب السودان
  • التقاط القطع الأثرية للتحقيق

12. 3 بعد DR

  • التوفيق الكامل بين الأموال/الألعاب والمجلات
  • تشريح الجثة، RCA، CAPA مع التواريخ والمالكين
  • DRP/BIA/Contact/IaC Update
  • إصلاح خطة إعادة الاختبار

13) قوالب (شظايا)

13. 1 بطاقة خدمة (جواز سفر DR)

yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]

13. 2 تقرير اختبار DR (التعرض)

yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"

13. 3 نموذج رسالة الحالة


[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.

14) خارطة طريق التنفيذ (6-8 أسابيع)

الأسابيع 1-2: جرد الخدمات والتبعيات، تصنيف المستوى، أهداف RTO/RPO، اختيار الطوبولوجيا، جوازات سفر DR.
الأسابيع من 3 إلى 4: تنفيذ النسخ الاحتياطية/PITR/عدم قابلية التغير، والتكرار السري/KMS، وإعداد الكتب الجريدية والحالة.
الأسابيع 5-6: اختبارات تقنية جزئية (قاعدة بيانات/مخبأ/قوائم انتظار)، سطح الطاولة وفقًا لسيناريوهات PSP/KYC/المنطقة.
الأسابيع 7-8: التبديل الكامل (إن أمكن)، التقرير مع RTA/RPA و CAPA وتحديث DRP وخطة الاختبار العادية.


15) التكامل مع أقسام ويكي الأخرى

رابط إلى: BCP، سجل المخاطر، إدارة الحوادث، سياسة السجل (WORM)، TPRM و SLA، ISO 27001/27701، SOC 2، PCI DSS، RBAC/Lest Privilege، سياسة كلمة المرور و MF، إدارة التغيير/الإصدار.


TL; د

DRP العامل = مسح RTO/RPO by Tier → Active-Active/Standby architecture + نسخ احتياطية غير قابلة للتغيير/PITR → دفاتر تشغيل قابلة للعب ومخالفات → تسوية الأموال/الألعاب → التمارين العادية و CAPAs. ثم يتحول أي فشل كبير إلى إجراء يمكن التحكم فيه مع أوقات تعافي يمكن التنبؤ بها وعدم وجود مفاجآت للمنظمين واللاعبين.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.