سيناريوهات استعادة القدرة على العمل بعد الكوارث
1) سبب الحاجة إلى DR وما هو الغرض
التعافي من الكوارث (DR) هي مجموعة من الهياكل والعمليات والتدريب لاستعادة الخدمات بعد الكوارث (فشل مركز البيانات/المنطقة، وفقدان البيانات، وأخطاء تكوين الكتلة). هدف DR هو تحقيق أهداف RTOs/RPOs بتكلفة ومخاطر خاضعة للرقابة مع الحفاظ على ثقة العملاء والامتثال التنظيمي.
هدف وقت الاسترداد (RTO) - تم التخلي عن وقت التوقف.
هدف نقطة الاسترداد (RPO) - فقدان البيانات المسموح به (الوقت منذ آخر نقطة ثابتة).
RLO (هدف مستوى الاسترداد): مستوى الوظائف التي يجب أن تعود أولاً (الحد الأدنى من الخدمة الصالحة).
2) تصنيف النظم حسب الأهمية
المستوى 0 (حيوي): المدفوعات، تسجيل الدخول، KYC، المعاملات الأساسية - RTO ≤ 15 دقيقة، RPO ≤ 1-5 دقائق.
المستوى 1 (المرتفع): أفرقة التشغيل، التقارير مد-1 - RTO ≤ 1 h، RPO ≤ 15-60 دقيقة.
المستوى 2 (متوسط): مكتب خلفي، تحليلات في الوقت الفعلي تقريبًا - RTO ≤ 4-8 ساعات، RPO ≤ 4-8 ساعات.
المستوى 3 (منخفض): مساعد غير حرج - RTO ≤ 24-72 h، RPO ≤ 24 h.
تخصيص المستوى + المستهدف للمتعهدين الإقليميين/الموظفين الفنيين الإقليميين لكل خدمة في فهرس الخدمات ؛ وينبغي التحقق من القرارات والميزانيات ضدها.
3) نموذج التهديد والسيناريوهات
من صنع الإنسان: فشل منطقة/منطقة/مزود، تدهور الشبكة/DNS، فشل قاعدة البيانات/التخزين، خطأ الإطلاق الشامل.
العامل البشري: التكوينات الخاطئة/IaC، حذف البيانات، حل وسط رئيسي.
طبيعي/خارجي: حريق/فيضان، انقطاع التيار الكهربائي، انسداد قانوني.
لكل - قم بتقييم الاحتمال/التأثير، وارتبط بسيناريو DR وكتاب اللعب.
4) أنماط بنية DR
1. نشط (متعدد المناطق): تخدم كلتا المنطقتين حركة المرور.
الإيجابيات: الحد الأدنى من RTO/RPO، استقرار عالي.
العيوب: تعقيد/اتساق البيانات، ارتفاع السعر.
المكان: أحمال ثقيلة للقراءة، مخبأة، خدمات عديمة الجنسية، DB متعدد الماجستير (قواعد صارمة للتضارب).
2. Active-Passive (Hot Standby): يحمل السلبي الساخن نسخة ساخنة بالكامل.
RTO: دقائق ؛ RPO: دقائق. يتطلب الفشل الآلي والتكرار.
3. الاستعداد الدافئ: يتم تسخين جزء من الموارد، والتوسع في حالة وقوع حادث.
RTO: عشرات الدقائق ؛ RPO: 15-60 دقيقة. أكثر اقتصادا، ولكن أطول.
4. Pilot Light: الحد الأدنى من «الشرارة» (البيانات الوصفية/الصور/النصوص) + الانتشار السريع.
RTO: ساعات ؛ RPO: ساعات. رخيص ومناسب للمستوى 2-3.
5. النسخ الاحتياطي والاستعادة: نسخ احتياطية غير متصلة بالإنترنت + إحماء يدوي.
RTO/RPO: ساعات/يوم. فقط للحرجية المنخفضة والمحفوظات.
5) البيانات والاتساق
استنساخ قاعدة البيانات:- متزامن - تقريبًا صفر RPO، لكن ↑latentnost/stoimost.
- غير متزامن - أداء أفضل، RPO> 0 (ذيل جذوع الأشجار).
- الاتساق: اختيار نموذج (قوي/نهائي/سببي). بالنسبة للمدفوعات - بدقة، للتحليلات - في نهاية المطاف.
- اللقطات: قم بإنشاء نقاط متسقة بانتظام + سجلات المتجر (WAL/redo).
- المعاملات عبر المناطق: تجنب 2PC ؛ استخدام العمليات الخفية، deli-and-repeat (إعادة المحاولة مع التفريغ)، ومصادر الأحداث.
- قوائم الانتظار/الحافلات: تكرار/انعكاس، DLQ، طلب المستهلكين وخفوتهم.
6) الشبكة وحركة المرور و DNS
GSLB/Anycast/DNS: سياسات الفشل/الفشل، انخفاض TTL (ولكن ليس كثيرًا)، الفحوصات الصحية من عدة مناطق.
L7 التوجيه: الخرائط الإقليمية، أعلام التحلل (تقييد الوظيفة).
روابط خاصة/شبكة البرامج الافتراضية: قنوات احتياطية لمقدمي الخدمات (PSP/KYC/CDN).
الحد من المعدل: الحماية من العواصف أثناء التعافي.
7) الدولة مقابل عديمي الجنسية
وينقل عديمو الجنسية بالكتابة/المقياس الذاتي ؛ تتطلب الدولة استراتيجية بيانات متسقة (تكرار، لقطات، ترويج نسخة طبق الأصل، النصاب).
مخبأ/جلسات: خارجي (Redis/Memcached) مع تكرار عبر المنطقة أو إعادة البذور بواسطة جذوع الأشجار ؛ عقد جلسات في الرموز (JWT) أو التخزين المشترك.
8) محفزات DR والأتمتة
SLO gardrails وتحقيقات النصاب → دفتر تشغيل أوتوماتيكي للمنطقة الفاشلة.
تجميد التغيير في حالة وقوع حادث: إطلاقات/هجرات غير ذات صلة.
البنية التحتية كرمز: نشر قوائم احتياطية، فحص الانجراف.
ترويج الأدوار: الترويج التلقائي لنسخة طبق الأصل من ملابس الكتاب/الأسرار DB +.
9) البلاغات والامتثال
غرفة الحرب: IC/TL/Comms/Scribe ؛ فترات تحديث SEV.
صفحة الحالة: جغرافية التأثير، إيتا، الحلول البديلة.
التنظيم: المواعيد النهائية للإخطار، وأمن البيانات، وتخزين الأدلة غير القابل للتغيير.
الشركاء/مقدمو الخدمات: اتصالات مؤكدة، قناة مخصصة.
10) اختبارات وتمارين DR
سطح الطاولة: مناقشة السيناريو والحلول.
Game Day (stage/prod-light): محاكاة فشل AZ/المناطق، إغلاق المزود، إعادة ضبط DNS.
استعادة الاختبارات: استعادة النسخ الاحتياطية بشكل دوري بمعزل والتحقق من سلامتها.
الفوضى/حقن الفشل: فشل الشبكة/العقدة/الاعتماد.
تمرين KPI: تم تحقيق RTO/RPO، عيوب قواعد اللعبة، CAPA.
11) اختيار المالية والاستراتيجية (FinOps)
احسب دولارًا مقابل RPO/RTO المخفض: كلما انخفضت الأهداف، زادت تكلفة القنوات والتراخيص والاحتياطيات.
هجين: المستوى 0 - نشط/ساخن ؛ المستوى 1 - دافئ ؛ المستوى 2-3 - الطيار/النسخ الاحتياطي.
بيانات باهظة الثمن: استخدم طبقات باردة (أرشيف/S3/GLACIER)، لقطات تدريجية، تفريغ.
استعراض دوري لتكاليف وشهادات/تراخيص DR-infra.
12) مقاييس نضج DR
RTO (الفعلي) و RPO (الفعلي) لكل طبقة.
تغطية DR:٪ من الخدمات مع نص/كتاب لعب/اختبار مصمم.
النجاح الاحتياطي واستعادة النجاح: النجاح اليومي للنسخ الاحتياطية والترميمات المثبتة.
وقت إعلان الكارثة: سرعة قرار الفشل.
وقت الفشل يعود إلى الطوبولوجيا الطبيعية.
تمارين معدل العيوب: وجدت فجوات/تعاليم.
دلائل الامتثال.
13) القوائم المرجعية
قبل تنفيذ DR
- يحتوي دليل الخدمة على المستوى، RTO/RPO، التبعيات والمالكين.
- نمط مختار (AA/AP/WS/PL/BR) حسب المستوى والميزانية.
- توثق اتفاقات الاتساق والتكرار.
- تم تشكيل واختبار GSLB/DNS/التوجيه والفحوصات الصحية.
- نسخ احتياطية، لقطات، تغيير جذوع الأشجار - تم تمكينها وفحصها لاستعادتها.
- تم تحديث كتب لعب DR وجهات الاتصال مع مقدمي الخدمة.
أثناء الحادث (لفترة وجيزة)
- إعلان SEV وتجميع غرفة حرب ؛ إطلاقات التجميد.
- التحقق من نصاب المجسات ؛ سجل الأثر/الجغرافيا.
- تنفيذ Failover Runbook: Traffic، Promotion DB، Queues، Cache.
- يمكن التحلل-UX/الحدود ؛ نشر تحديثات عن جيش تحرير السودان.
- جمع الأدلة (الجدول الزمني والرسوم البيانية والسجلات والأوامر).
بعد الحادث
- مراقبة فواصل زمنية SLO من N ؛ تنفيذ الفشل كما هو مخطط له.
- إجراء AAR/RCA ؛ إصدار CAPA.
- تحديث كتب اللعب، محفزات التنبيه، حالات اختبار DR.
- تقديم تقارير إلى أصحاب المصلحة/الجهات التنظيمية (إذا لزم الأمر).
14) النماذج
14. 1 بطاقة نصية DR (مثال)
ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support
14. 2 Runbook «Promote replica database» (جزء)
1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m
14. 3 خطة تمرين DR (موجز)
Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output
15) الأنماط المضادة
«هناك نسخ احتياطية» بدون اختبارات الترميم المنتظمة.
لا يتم تبديل الأسرار/نقاط النهاية تلقائيًا.
لا يوجد تباين → المعاملات المزدوجة/المفقودة عند إعادة التسليم.
تتميز التكوينات المتطابقة للمناطق التي لا يوجد بها تحلل بالأعلام.
وقت طويل للإعلان خوفًا من «الإنذار الكاذب».
مقدمو الخدمات من منطقة واحدة (PSP/KYC) بدون بديل.
لا توجد خطة فاشلة - نحن نعيش في طوبولوجيا الطوارئ «إلى الأبد».
16) خارطة طريق التنفيذ (6-10 أسابيع)
1. نيد. 1-2: تصنيف الخدمات حسب المستوى، وتحديد الهدف RTO/RPO، واختيار أنماط DR.
2. نيد. 3-4: إعداد نسخ/نسخ احتياطية، GSLB/DNS، إجراءات الترويج ؛ وكتب اللعب وكتب التشغيل.
3. نيد. 5-6: تمارين DR الأولى (tabletop→stage)، وإصلاح المقاييس و CAPA.
4. نيد. 7-8: تمرين Prod-Light مقيد بحركة المرور ؛ فشل التشغيل الآلي.
5. نيد. 9-10: تحسين التكلفة (FinOps)، ونقل المستوى 0 إلى المستوى الساخن/AA، والتمارين الفصلية ولوائح الإبلاغ.
17) خلاصة القول
DR الفعال لا يتعلق فقط بالنسخ الاحتياطية. هذه هي البنية المتسقة، وأتمتة الفشل/الفشل، وانضباط البيانات (الخصوصية/التكرار)، والتدريب، والاتصالات الشفافة. عندما تكون RTO/RPOs حقيقية، يتم إعداد كتب اللعب، والتمارين منتظمة، تتحول الكارثة إلى حدث خاضع للرقابة، وبعد ذلك تعود الخدمات بسرعة وبشكل متوقع إلى طبيعتها.