استراتيجيات الدعم والتكرار
موجز موجز
تقوم استراتيجية البيانات الموثوقة على ثلاث ركائز: النسخ الاحتياطي والتكرار والاسترداد. تقلل النسخة المتماثلة من RTO (وقت الاسترداد)، وتضمن النسخة الاحتياطية RPO (فقدان البيانات) وتحمي من الأخطاء المنطقية/برامج الفدية. المبادئ الأساسية: 3-2-1-1-0 (نسخ 3، أنواع 2 من الوسائط، 1 - خارج الموقع، 1 - أخطاء غير قابلة للتغيير، أخطاء 0 في الشيكات)، اختبارات DR المنتظمة وعدم قابلية المجموعات الحرجة للتغيير.
المصطلحات والأهداف
RPO - مقدار البيانات التي يمكن فقدانها (على سبيل المثال، ≤ 5 دقائق).
RTO - مقدار الوقت المسموح باستعادته (على سبيل المثال، ≤ 15 دقيقة).
PITR (استرداد نقطة في الوقت المناسب) - استرداد «moment X» مع إعادة تشغيل السجل.
Data SLO هو عقد على مستوى الخدمة لـ RPO/RTO ونجاح مهام النسخ الاحتياطي.
نماذج تحمل الأخطاء وتكرارها
خيارات الطوبولوجيا
Active-Passive (ساخن/دافئ/بارد): فتحات أبسط ويمكن التنبؤ بها.
نشط: توافر كبير، لكن حل النزاعات والاتساق أكثر صعوبة.
Multi-Zone/Region/Cloud: ميزان تكلفة التأخير والخروج.
متزامن مقابل غير متزامن
متزامن: RPO≈0، فوق زمن الكمون، حد المسافة.
Asynchron: بالقرب من الصفر RTO عند RPO منخفض (دقائق)، يتحمل المناطق/السحب.
هجين: متزامن داخل منطقة، غير متزامن مع منطقة نائية.
نسخة طبق الأصل ≠ نسخة احتياطية
تحمل النسخة المقلدة أخطاء/حذف بعد المصدر. نسخة احتياطية - نسخة بعيدة عن المسار مع إصدار وفحوصات وعزل.
السياسة 3-2-1-1-0 والثبات
3 نسخ (prod + النسخ الاحتياطية المحلية + خارج الموقع).
2 أنواع الوسائط (block/NAS/object/tape).
1 خارج الموقع (موقع/سحابة/شريط آخر).
1 نسخة ثابتة (WORM: Object Lock، لقطات/شريط ثابت).
0 خطأ (أخطاء): فحص النزاهة المنتظم (اختبارات الفحص/التحقق/الاستعادة).
- مكّن الإصدار وقفل الكائن (الامتثال/الحوكمة) للأشياء ذات النسخ الاحتياطية الحرجة.
- بالنسبة لـ NAS/blocks - لقطات ثابتة مع الاحتفاظ بالحذف وحظره حتى الموعد النهائي.
أنواع النسخ الاحتياطية والجداول الزمنية
نسخة كاملة.
تدريجي - تغييرات فقط من النسخة الاحتياطية السابقة.
التفاضل - التغييرات منذ آخر اكتمال.
تدريجي إلى الأبد مع خطة GFS (الجد والأب والابن): زيادات يومية، أسبوعية وشهرية «ممتلئة اصطناعية».
- Prod DB: ممتلئ يوميًا (أو ممتلئ اصطناعي)، زيادات/سجلات كل 5-15 دقيقة (PITR).
- خوادم الملفات: محفوظات أسبوعية كاملة، يومية، شهرية.
- الكائن: دورة الحياة + الإصدارات ؛ بارد - لأرشفة فئة/شريط تخزين.
التطبيقات وقواعد البيانات: ممارسات PITR
PostgreSQL
تمكين المحفوظات والدعم الأساسي لـ WAL ؛ PITR عبر "restore _ command'.
الأدوات: "pgBackRest' و" wal-g "(كائن) و" pg _ basebackup "للإكمال.
المجلدات المجزأة: البيانات و WAL ؛ اكتب WAL على NVMe السريع مع PLP.
MySQL/MariaDB
سجل ثنائي لـ PITR، مكتمل عبر «Percona XtraBackup» (نسخة احتياطية ساخنة).
تكرار GTID ؛ لـ DR - غير متزامن مع المنطقة/السحابة.
MongoDB
Oplog for PITR; لقطات على مستوى storaj + «mongodump» للنسخ المنطقية.
اختبر اتساق النسخة المتماثلة قبل النسخ الاحتياطي.
Redis/Caches
لا يعتبر احتياطيًا: إبقاء RDB/AOF + خارج الموقع ؛ استعادة مثل مخبأ دافئ أو من مصدر الحقيقة.
كوبرنيت والحاويات
etcd - هدف حاسم منفصل (لقطات متكررة، خارج الموقع).
Velero: بيانات/موارد احتياطية + لقطات CSI/PV ؛ التخزين في دلو S3-compatible (مع قفل الكائن).
التنزيلات الحكومية: لقطات متسقة مع التطبيق (خطافات ما قبل/بعد)، بخلاف ذلك - متسقة مع التصادم.
تحرير القطع الأثرية (النماذج/الوسائط) - على مستوى الدلاء.
افتراضية وخوادم ملفات
لقطات VM: استخدم CBT (Changed Block Tracking)، متجر خارج الموقع، قم بشكل دوري بعمل quiesce (VSS for Windows).
خوادم الملفات (NAS): لقطات + نسخة طبق الأصل واختبارات استعادة الكتالوج العادية (أخذ عينات الملفات).
أمن احتياطي
التشفير عند الراحة (LUKS/ZFS/cloud KMS/Vault) وأثناء الإرسال (TLS/mTLS).
الإدارة الرئيسية: الأدوار الفردية، والتحكم المزدوج، والتناوب، والتخزين غير المتصل بالإنترنت للمفاتيح الرئيسية.
العزل: حسابات برامجيات احتياطية بدون حقوق في حذف نسخ غير قابلة للتغيير ؛ فرادى الشبكات/الشبكات المحلية الفراغية.
مقاومة برامج الفدية: ثابتة، فجوة الهواء (الأشرطة/الحساب المعزول/المختبر).
مراجعة الحسابات: سجل عمليات النظام الاحتياطي، والإخطارات المتعلقة بحذف/تخفيض الاحتفاظ.
تخطيط النوافذ وعرض النطاق الترددي
نافذة احتياطية مقابل الحمل: خنق I/O/الشبكات، التفريغ، الضغط.
الشبكة: زيادات كل N دقيقة، قنوات فردية/VPN، نسخة طبق الأصل في الليل أو بشكل دائم مع QoS.
تغيير Block Tracking/CDC لتقليل حركة المرور.
قواعد كبيرة: تيارات/تدفقات متوازية، متعددة القنوات متعددة الأجزاء للكائن.
الرصد والمقاييس و SLO
المقاييس التقنية:- نجاح مهام النسخ الاحتياطي/التكرار (%)، المدة، السرعة، تأخر السجل (WAL/binlog/oplog).
- مساحة تخزين احتياطية، معامل التخلص، نفقات أخرى.
- وقت ونجاح استعادة الاختبار.
- نجاح النسخ الاحتياطية ≥ 99. 9 ٪/30 يومًا.
- حقق RPO ≥ 99٪ من الوقت (log lag ≤ target).
- RTO (استعادة الاختبار) ≤ 15 دقيقة للمحفظة، ≤ 1 ساعة للإبلاغ.
- تدريبات DR-drill الشهرية: اكتمال 100٪ من السيناريوهات الروتينية.
- النسخ الاحتياطي الضائع/غير الناجح، PITR> تأخر العتبة، انخفاض التفريغ، نقص المساحة، التغيير في سياسة الاحتفاظ، عدم استعادة الاختبار الجديد.
تدريبات DR وفحوصات الاسترداد
الجدول العلوي: تنسيق الأدوار، الاتصالات، الاتصالات.
تقنية: استرداد الصناديق الرملية، قياس RTO، مقارنة الفحص/البيانات.
البداية السوداء: استعادة كاملة للحديد العاري/العنقود النظيف.
كتالوجات البيانات: خطوات الاسترداد الموصوفة مسبقا (كتيبات التشغيل) لكل فئة من فئات النظام.
التشغيل الآلي: «كناري» دورية لاستعادة الشيكات والتحقق منها.
قوالب عملية
1) PostgreSQL (أرشيف pgBackRest + WAL للكشف)
ini
[global]
repo1-type=s3 repo1-path=/pgbackups repo1-s3-endpoint=minio. local:9000 repo1-s3-bucket=pg-wal repo1-s3-key=ACCESSKEY repo1-s3-key-secret=SECRET repo1-retention-full=8 start-fast=y compress-type=zst
2) وول جي (مثال ENV)
bash export WALG_S3_PREFIX=s3://pg-wal/prod export AWS_ACCESS_KEY_ID=...
export AWS_SECRET_ACCESS_KEY=...
export WALG_COMPRESSION_METHOD=zstd
3) فيليرو (K8s - كائن + ثبات الدلو)
yaml apiVersion: velero. io/v1 kind: BackupStorageLocation metadata: { name: default, namespace: velero }
spec:
provider: aws objectStorage:
bucket: k8s-backups config:
s3Url: https://minio. example s3ForcePathStyle: "true"
publicUrl: https://minio. example
4) سياسة قفل الكائن (مثال "mc')
bash mc version enable my/backups mc retention set --default COMPLIANCE 365d my/backups
5) مثال على جدول GFS (مفهوم)
يوميًا: زيادات كل 15 دقيقة (مجلات)، يوميًا ممتلئًا.
أسبوعيًا: متجر واحد «ممتلئ» (اصطناعي) لمدة 8 أسابيع
شهريا: كامل، تخزين 12-24 شهرا (أرشيف/شريط لاصق).
قائمة التنفيذ المرجعية
- فئات بيانات محددة، مالكوها، RPO/RTO/SLO.
- النسخ المتماثل (مزامنة/أسينك) والطوبولوجيا (AZ/Region/Cloud) نماذج مختارة.
- تم تكوين النسخ الاحتياطية: كامل/تدريجي/PITR، جداول، أدلة.
- يشمل الثبات (WORM/Object Lock/لقطات ثابتة) وخارج الموقع/فجوة الهواء.
- التشفير و KMS/Vault، أدوار منفصلة ودورات رئيسية.
- الرصد: نجاح المهمة، تأخر السجل، المكان، استعادة الاختبار ؛ تنبيهات.
- استعادة دفاتر التشغيل والتلف ؛ الاتصالات، التصعيد، نماذج الاتصال.
- تدريبات DR الشهرية + تقرير، تعديل الخطط.
- الميزانية و FinOps: تكلفة التخزين/الخروج، مشروع الأرشفة/التمزيق.
أخطاء شائعة
«هناك نسخة طبق الأصل - لا حاجة إلى نسخة احتياطية»: الحذف المنطقي وبرامج الفدية ستترك للنسخة المقلدة.
لا توجد اختبارات استعادة - النسخ الاحتياطي موجود «نظريًا».
إن الافتقار إلى الثبات والخروج من الموقع هو نقطة خطر واحدة.
نفس الحساب/مفاتيح المبيعات والنسخ الاحتياطية - حل وسط = فقدان كل شيء.
النوافذ الاحتياطية الطويلة → تتعارض مع القمم ؛ لا خنق و QoS.
PITR بدون تحكم في تأخر السجل.
تجاهل اللقطات المتسقة مع التطبيق - أحجام قابلة للاسترداد قذرة.
iGaming/fintech specific
المحفظة/الدفع الأساسي: RPO ≤ 1-5 دقيقة، RTO ≤ 15 دقيقة ؛ جذوع الأشجار (WAL/binlog) إلى جسم به WORM ؛ متزامنة في المنطقة + المنطقة غير المتزامنة.
الإبلاغ/التنظيم: مستودعات غير قابلة للتغيير، الاحتفاظ بها لفترة طويلة (سنوات)، النزاهة التي يمكن التحقق منها، الإجراءات الواضحة لإصدار البيانات إلى المنظمين.
السجلات/الأحداث الخام/مكافحة الاحتيال: التخزين الرخيص طويل العمر (كائن) + دورة الحياة ؛ المؤشرات وواجهات المحلات - بشكل منفصل.
القمم (المباريات/البطولات): النوافذ الاحتياطية خارج القمم، والاختناق ؛ خطط DR لفترة الحدث ؛ يستعيد الكناري قبل المخزون.
المجموع
حماية البيانات هي تخصص معماري: 3-2-1-1-0، الإصدار وعدم التغير، RPO/RTO مثل SLO، تمارين DR المنتظمة، واختبار الاسترداد «على الفور». اجمع بين النسخ المتماثل لوقت التشغيل والفشل السريع مع النسخ الاحتياطية للأخطاء المنطقية والتنازلات. قم بالأتمتة والقياس والتوثيق - وسيكون لديك دائمًا مسار عمل للعودة، حتى في أسوأ يوم.