التعافي من الكوارث и النسخ الاحتياطية الباردة
موجز موجز
DR هو القدرة على استعادة وظائف العمل بعد كارثة كبيرة. النسخ الاحتياطية الباردة - «خط الدفاع الأخير»: نسخ غير قابلة للتغيير/معزولة مناسبة للاسترداد في حالة إزالة الطاقة الكاملة للموقع أو حل وسط. تم بناء الاستراتيجية حول RTO/RPO، وتحديد أولويات النظام، وتمارين DR السنوية والانضباط التشغيلي الصارم (الكتالوجات والمفاتيح والفحوصات).
المصطلحات والأهداف
RPO (هدف نقطة الاسترداد) - الحد الأقصى لفقدان البيانات المسموح به (على سبيل المثال ≤ 15 دقيقة).
RTO (هدف وقت الاسترداد) - الحد الأقصى لوقت الاسترداد المسموح به (على سبيل المثال ≤ 2 ساعات).
Black-start - bare metal recovery: hardware/cluster/secrets/data/DNS.
فجوة الهواء - العزل المادي/المنطقي للنسخ (شريط/حساب معطل/وسائط غير متصلة بالإنترنت).
الثبات (WORM) - التخزين الثابت (شريط/كائن مع قفل/الاحتفاظ).
مستويات توافر DR
الموقع البارد - الهياكل الأساسية مفقودة/مجمدة ؛ RTO: ساعات عمل ؛ أرخص CAPEX/OPEX.
الموقع الدافئ - قوالب/صور/خدمات منتهية جزئيا ؛ RTO: عشرات الدقائق - ساعات.
الموقع الساخن - نسخ طبق الأصل نشطة ؛ RTO: دقائق ؛ أكثر تكلفة وأكثر تعقيدًا.
الهجين: نواة → ساخنة/دافئة، كل شيء آخر → باردًا (مع الأولوية عند بدء التشغيل).
حيث لا غنى عن النسخ الاحتياطية الباردة
غزو هائل للتشفير/حل وسط للمجال.
فساد البيانات الذي ذهب إلى جميع النسخ المقلدة.
فقدان المنطقة/مركز البيانات، القوة القاهرة (حريق، فيضان).
الإزالة/التخريب المتعمد من الحسابات المميزة.
طوبولوجيا النسخ الاحتياطية الباردة
1. دروس الوسائط/التخزين
الأشرطة (LTO-8/9): تكلفة منخفضة، فجوة جوية افتراضية، سعة عالية، وصول متسلسل.
الأقراص غير المتصلة بالإنترنت/NAS: «الحالات الآمنة»، تتصل فقط بالنافذة الاحتياطية/الاستعادة.
فئات الكائنات المحفوظة (تشبه النهر الجليدي): سعر تخزين منخفض، وقت استخراج أعلى.
2. التنسيب
الموقع/المنطقة الأخرى ؛ ومقدم/حساب آخر ؛ المفاتيح/المديرين الفرديين.
3. الثبات
أشرطة WORM/Object Lock (الامتثال/الحوكمة) مع الاحتفاظ بها والتعليق القانوني.
السياسة 3-2-1-1-0 (مع التركيز على البرد)
3 نسخ من البيانات (prod + النسخ الاحتياطية المحلية + خارج الموقع).
2 وسائط مختلفة (قرص/شريط/كائن).
1 خارج الموقع (موقع/سحابة أخرى).
1 ثابتة (WORM/air-gap).
0 أخطاء الفحص (الفحوصات/عمليات الاسترداد الدورية).
الأدلة والبيانات الوصفية ومراقبة النزاهة
الكتالوج الاحتياطي: ما، أين، متى، النسخة، المفاتيح، فحص المبالغ، فترة الاحتفاظ.
فهرس الأصول - التبعيات → الخدمات → الأحجام/الدلاء → الأولوية.
الشيكات وملفات البيانات: اكتب وأعد المصالحة.
ملفات الكناري: استعادة منتظمة للكشف المبكر عن مشاكل الوسائط.
التشفير والمفاتيح
التشفير عند الراحة (شريط/جسم) وأثناء الطيران (النسخ).
KMS/Vault مع خزائن ثنائية التحكم وخزائن غير متصلة بالإنترنت للمفاتيح الرئيسية والتناوب.
مفاتيح منفصلة للمبيعات/النسخ الاحتياطية/المحفوظات (تقليل نصف قطر الانفجار).
عملية وصول رئيسية موثقة أثناء DR (المتطلبات والأدوار والسجل).
خطة DR تحديد الأولويات والاتساق
خريطة الأولوية (مثال):1. تحديد الهوية والوصول: IdP (المنطقة الدنيا)، Vault/KMS، نواة الشبكة.
2. البيانات وطائرات التحكم: K8s، والتكوينات، والأسرار، وسجلات الصور، ونشر القطع الأثرية.
3. قواعد بيانات/محفظة المعاملات: سجلات + أحدث كاملة/تدريجية.
4. بوابات الدفع/التكامل: المفاتيح والشهادات و IP/DNS.
5. Web/api fronts: canary launch, static content from the object.
6. التحليلات/الإبلاغ: عند الانتهاء الأساسي.
استعادة التسلسل (بداية سوداء):1. البنية التحتية: الشبكة، DNS/Anycast، kernel IAM، الصور الأساسية/المجموعة.
2. الأسرار/الشهادات: استعادة Vault/KMS من النسخ الاحتياطي البارد، وتوزيع أسرار bootstrap.
3. مستوى التحكم: etcd/Control Plane/registers/resources.
4. البيانات: نشر قاعدة بيانات من النسخ الاحتياطي البارد + PITR من السجلات (بواسطة RPO).
5. التطبيقات: إطلاق التبعيات على الأشجار، وتسخين المخابئ/CDN.
6. الاختبارات والتحقق: الاختبارات الصحية، الاتساق، الفحوصات.
7. تبديل حركة المرور: DNS/التوجيه/التوازن (مرحلي/كناري).
8. الشيكات اللاحقة: لا تسريبات/ديون، قانون قطع الأشجار و DR.
إجراءات الاستعادة الباردة (نموذجية)
الأشرطة: الجرد، التنزيل، التدفقات الموازية، خريطة الملفات → الأدلة → مهام الاسترداد ؛ حساب أوقات البحث والترجيع.
دروس الأرشيف: طلب الاستخراج (minutes→hours)، الانطلاق إلى التخزين الساخن، الاستعادة بالبيان.
الأقراص غير المتصلة بالإنترنت: اتصال القراءة فقط، شيكات الشيكات → النسخ.
الممارسة: صندوق رمل معزول للترميم، ثم نقله إلى بيئة الإنتاج.
الاتصالات و org. هيكل DR
Роли: قائد الحادث، Tech Lead (Infra)، DB Lead، App Lead، Comms، Security.
القنوات: النسخ الاحتياطي (خارج نطاق الشركة)، الصوت/الدردشة، SecureDocs.
نماذج الرسائل: إلى العملاء/الشركاء/المنظمين ؛ وتواتر التحديث ؛ «مصدر واحد للحقيقة».
سجل الأحداث الموحد: الجدول الزمني والحلول والمالكين.
DNS والشبكات وحركة المرور
حماية الدماغ المقسم: أعلام «وضع دكتور» في التكوين ؛ لأداء وظائف محدودة.
استراتيجية DNS: منخفض TTL مقدمًا، مزود مستقل DNS ؛ تغيير الخطوة A/AAAA/CNAME، إحماء CDN.
التوجيه: Anycast/Geo، إعلان BGP من موقع DR ؛ يتم إعادة تجميع ACLs/firewalls من IaC.
SLO لـ DR
حقق RPO ≥ 99٪ من الوقت (تأخر تسجيل/زيادة داخل الهدف).
هدف RTO black-start (السيناريو الكامل) ≤ (على سبيل المثال، 4 ساعات) في الاختبارات مرة واحدة في الربع.
نجاح تمارين DR - يتم الانتهاء من 100٪ من المهام الحاسمة في النافذة.
الثبات - حصة النسخ الاحتياطية مع الاحتفاظ/القفل = 100٪.
التحقق من النزاهة - 100٪ وفقًا للجدول الزمني ؛ فشل وسائل الإعلام → تذكرة الهجرة.
الاختبارات والتمارين
الجدول العلوي: نصوص، أدوار، قوائم مرجعية، قائمة جهات الاتصال.
تقنية: استرداد انتقائي لقواعد البيانات/الملفات/الأسرار إلى الصندوق الرملي مع التحقق من عمليات التحقق والاتساق.
بدء التدريبات السوداء: مرة/ربع (أو مرة/ستة أشهر) - إطلاق نواة كاملة في موقع DR.
تشريح الجثة: حقائق، اختناقات، خطة تحسين (SLO/العمليات/الأتمتة).
الأتمتة والتحف
IaC: التجمعات والشبكات والأكوام - في الكود ؛ فروع/معلمات DR.
دفاتر التشغيل: مكون حسب المكون (Vault/KMS، etcd، DB، بوابات، واجهات).
حزمة DR: نسخة غير متصلة بالإنترنت من الأرصفة الرئيسية (جهات الاتصال، المخططات، كلمات المرور للعبارات الآمنة)، تعليمات الوصول المادي.
استعادة الكناري: استعادة صغيرة يوميًا وتسوية الشيكات.
العلامات/العلامات: «DR-critical»، «Warm-only»، «Cold-only» للخدمات/الأحجام.
قائمة التنفيذ المرجعية
- فصول البيانات ومنظماتها الإقليمية المعنية بالموارد الفنية/منظمات التجارة الإقليمية متسقة مع الأعمال التجارية ؛ أولويات الإنعاش.
- النسخ الاحتياطية الباردة المنفذة: الوسائط، الثبات (WORM/Object Lock)، خارج الموقع/فجوة الهواء.
- الكتالوجات: الأصول والنسخ الاحتياطية والمفاتيح ؛ تحقق من المبالغ والتحكم في الإصدار.
- إجراءات البداية السوداء: الشبكات/DNS، IdP/Vault/KMS، مستوى التحكم، البيانات، صانع التفاح.
- التمارين: أعلى الجدول كل ثلاثة أشهر ؛ وترميم الكناري يوميا ؛ بداية سوداء مرة واحدة/ربع ستة أشهر.
- الاتصالات والنماذج التنظيمية ؛ قنوات اتصال منفصلة.
- SLO/المقاييس/التنبيهات لـ DR ؛ إلى الإدارة.
- اتفاقات مع مقدمي الخدمات (الأشرطة/فئات المحفوظات/DNS/CDN)، أكد جيش تحرير السودان.
- التمويل: ميزانية وسائط الإعلام/المحفوظات، واللوجستيات، واستبدال وسائط الإعلام بالوقت.
أخطاء شائعة
«هناك نسخة طبق الأصل - لا حاجة إلى نسخة احتياطية» → خطأ منطقي/ستغادر برامج الفدية في كل مكان.
لا يوجد ثبات/فجوة هواء → متجه واحد لتهديد جميع النسخ.
عدم وجود كتالوجات/كميات الفحص → استعادة «شيء ما»، ولكن ليس ذلك.
DNS TTL كبير جدًا → الهجرة المرورية لعدة أيام.
المفاتيح/KMS في نفس المجال/الحساب → منع الوصول في الحادث.
لم يتم تأكيد التمارين «على الورق» فقط → RTO/RPO.
iGaming/fintech specific
المحفظة/الدفع الأساسي: RPO صارم (≤ 1-5 دقائق) و RTO (≤ 15-60 دقيقة) ؛ جذوع الأشجار لجسم به WORM ؛ وظيفة DR «توازن القراءة فقط» للتواصل الشفاف.
PSP/مزودي المحتوى: DR-IP/نطاق متفق عليه مسبقًا، قوائم بيضاء، شهادات، مفاتيح HMAC/mTLS - نسخ في حزمة DR.
الإبلاغ/المنظمون: نماذج الإخطار، المحفوظات التي لم تتغير، السلامة التي يمكن إثباتها، سجل النشاط.
القمم والأحداث: يتم التحقق من استعداد DR قبل البطولات/العروض الترويجية الكبرى ؛ استعادة الكناري واحترار CDN.
قوالب Mini Runbook
1) Vault/KMS black-start (مفهوم):1. بدء مجموعة DR، وتحميل مفاتيح unseal (ثنائية التحكم).
2. استعادة التخزين الاحتياطي (نسخة باردة).
3. التحقق من السياسات، وإصدار أسرار CI/CD/K8s.
2) PostgreSQL DR (PITR из النسخ الاحتياطي البارد):1. قم بتوسيع حالة فارغة، واستعادة البرد بالكامل.
2. قم بتحميل سجلات WAL (الزيادات) إلى اللحظة المستهدفة.
3. فحص الاتساق، تمكين النسخ، فتح القراءة فقط، ثم القراءة والكتابة.
3) DNS/حركة المرور:1. خفض TTL في 24-72 ساعة إلى المخاطر المخطط لها (أو الحفاظ على انخفاضها باستمرار).
2. تبديل A/AAAA/CNAME عن طريق القائمة المرجعية ومراقبة الخطأ/زمن الانتقال.
3. نمو حركة المرور التدريجي (كناري 5٪ → 25٪ → 100٪).
النتيجة
إن DR الموثوق به القائم على النسخ الاحتياطية الباردة هو: نسخ معزولة غير قابلة للتغيير، وإجراءات البداية السوداء الرسمية، وإجراءات RPO/RTOs الواضحة، والتمارين المنتظمة، واستراتيجية DNS/الشبكة المدروسة جيدًا، والانضباط الرئيسي. قم بإلزام كل شيء بـ IaC والكتب الجاهزة، وأتمتة فحوصات النزاهة واستعادة الكناري - وسيكون لديك دائمًا مسار متحكم فيه للتعافي حتى بعد أسوأ السيناريوهات.