بازیابی فاجعه и پشتیبان گیری سرد
خلاصه ای کوتاه
DR توانایی بازگرداندن عملکرد کسب و کار پس از یک فاجعه بزرگ است. پشتیبان گیری سرد - «آخرین خط دفاع»: نسخه های غیر قابل تغییر/جدا شده مناسب برای بازیابی در صورت تخلیه کامل انرژی سایت یا مصالحه. این استراتژی در اطراف RTO/RPO، اولویت بندی سیستم، تمرینات سالانه DR و نظم و انضباط عملیاتی دقیق (کاتالوگ، کلید، چک) ساخته شده است.
شرایط و اهداف
RPO (Recovery Point Objective) - حداکثر از دست دادن اطلاعات مجاز (به عنوان مثال ≤ 15 دقیقه).
RTO (Recovery Time Objective) - حداکثر زمان بازیابی مجاز (به عنوان مثال ≤ 2 ساعت).
سیاه و سفید شروع - بازیابی فلز لخت: سخت افزار/خوشه/اسرار/داده ها/DNS.
Air-gap - جداسازی فیزیکی/منطقی نسخه ها (نوار/حساب غیرفعال/رسانه آفلاین).
غیر قابل تغییر (WORM) - ذخیره سازی غیر قابل تغییر (نوار/شی با قفل/نگهداری).
سطح دسترسی DR
سایت سرد - زیرساخت از دست رفته/یخ زده است ؛ RTO: ساعت روز ؛ ارزان ترین CAPEX/OPEX.
سایت گرم - قالب ها/تصاویر/خدمات جزئی به پایان رسید ؛ RTO: ده ها دقیقه ساعت.
سایت داغ - کپی فعال ؛ RTO: دقیقه; گران تر و پیچیده تر
ترکیبی: هسته → گرم/گرم، هر چیز دیگری → سرد (با اولویت در راه اندازی).
جایی که پشتیبان گیری سرد ضروری است
آلودگی عظیم رمزنگاری/سازش دامنه.
فساد داده ها که به تمام کپی ها رفت.
از دست دادن منطقه/مرکز داده، فورس ماژور (آتش سوزی، سیل).
حذف عمدی/خرابکاری از حساب های مجاز.
توپولوژی سرد پشتیبان گیری
1. کلاس های رسانه ای/ذخیره سازی
نوار (LTO-8/9): کم هزینه، به طور پیش فرض هوا شکاف، ظرفیت بالا، دسترسی متوالی.
دیسک های آفلاین/NAS: «موارد امن»، فقط به پنجره پشتیبان/بازیابی متصل می شوند.
کلاس های شیء بایگانی شده (یخچال): قیمت ذخیره سازی پایین، زمان استخراج بالاتر.
2. قرار دادن
سایت/منطقه دیگر ؛ ارائه دهنده/حساب دیگر ؛ کلید های فردی/مدیران.
3. تغییر ناپذیری
نوارهای WORM/Object Lock (Compliance/Governance) با نگهداری و نگهداری قانونی.
3-2-1-1-0 سیاست (با تمرکز بر سرد)
3 کپی از داده ها (prod + پشتیبان گیری محلی + خارج از سایت).
2 رسانه های مختلف (دیسک/نوار/شی).
1 خارج از سایت (دیگر سایت/ابر).
1 تغییر ناپذیر (WORM/شکاف هوا).
0 خطاهای چک (چک سام/بازیابی آزمون دوره ای).
دایرکتوری ها، ابرداده و کنترل یکپارچگی
کاتالوگ پشتیبان: چه، کجا، چه زمانی، نسخه، کلید، مقدار چک، دوره نگهداری.
کاتالوگ دارایی - خدمات → وابستگی → حجم/سطل → اولویت.
Checksums و فایل های آشکار: نوشتن و بازگرداندن آشتی.
فایل های قناری: بازیابی منظم برای تشخیص زود هنگام مشکلات رسانه ای.
رمزگذاری و کلید
رمزگذاری در حالت استراحت (نوار/شی) و در پرواز (کپی کردن).
KMS/Vault با کنترل دوگانه، گاوصندوق آفلاین برای کلیدهای اصلی، چرخش.
کلید های جداگانه برای فروش/پشتیبان گیری/آرشیو (به حداقل رساندن شعاع انفجار).
مستند فرآیند دسترسی کلیدی در طول DR (مورد نیاز، نقش، ورود به سیستم).
اولویت بندی و سازگاری برنامه DR
نقشه اولویت (مثال):1. شناسایی و دسترسی: IdP (حداقل منطقه)، Vault/KMS، هسته شبکه.
2. داده ها و هواپیماهای کنترل: K8s etcd، پیکربندی، اسرار، ثبت تصویر، مصنوعات را گسترش دهید.
3. پایگاه داده های معامله/کیف پول: سیاهههای مربوط + آخرین کامل/افزایشی.
4. دروازه های پرداخت/ادغام: کلید، گواهی، IP/DNS.
5. جبهه های وب/api: راه اندازی canary، محتوای استاتیک از شی.
6. تجزیه و تحلیل ترافیک/گزارش: در هسته تکمیل.
بازگرداندن توالی) آغاز سیاه (:1. زیرساخت: شبکه، DNS/Anycast، هسته IAM، تصاویر پایه/خوشه.
2. اسرار/گواهینامه ها: بازگرداندن Vault/KMS از پشتیبان گیری سرد، توزیع اسرار بوت استرپ.
3. هواپیما کنترل: etcd/کنترل هواپیما/ثبت/مخازن.
4. داده ها: استقرار پایگاه داده از سرد پشتیبان گیری + PITR از سیاهههای مربوط (توسط RPO).
5. برنامه های کاربردی: راه اندازی وابستگی های درخت، گرم کردن مخازن/CDN.
6. تست ها و اعتبار سنجی: تست های بهداشتی، سازگاری، چک سام ها.
7. سوئیچینگ ترافیک: DNS/مسیریابی/متعادل کننده ها (فاز/قناری).
8. پس از چک: بدون نشت/بدهی، ورود به سیستم و عمل DR.
روشهای بازیابی سرد (معمولی)
Tapes: موجودی, دانلود, جریان موازی, نقشه فایل → دایرکتوری → وظایف بازیابی; حسابداری برای زمان جستجو و عقب.
کلاس های بایگانی: درخواست استخراج (دقیقه → ساعت)، مرحله بندی به ذخیره سازی داغ، بازیابی توسط آشکار.
دیسک های آفلاین: اتصال فقط خواندنی، چک چک → کپی کردن.
تمرین: یک جعبه ماسه ای جدا شده برای ترمیم، سپس به محیط تولید منتقل می شود.
ارتباطات و سازمان. ساختار در DR
Роли: فرمانده حادثه، سرب فناوری (Infra)، سرب DB، سرب برنامه، Comms، امنیت.
کانال ها: پشتیبان گیری (خارج از دامنه شرکت)، صدا/چت، SecureDocs.
قالب های پیام: به مشتریان/شرکا/تنظیم کننده ها ؛ فرکانس به روز رسانی ؛ یک «منبع حقیقت»
ثبت رویداد یکپارچه: جدول زمانی، راه حل ها، صاحبان.
DNS، شبکه ها و ترافیک
محافظت از تقسیم مغز: پرچم های «DR-mode» در پیکربندی ؛ پرچم های ویژگی برای عملکرد محدود.
استراتژی DNS: TTL کم در پیش، ارائه دهنده مستقل DNS ؛ گام تغییر A/AAAA/CNAME، گرم کردن CDN.
مسیریابی: اعلام Anycast/Geo، BGP از سایت DR ؛ ACLs/فایروال ها از IaC دوباره مونتاژ می شوند.
SLO برای DR
RPO ≥ 99٪ از زمان (تاخیر ورود/افزایش در هدف) ملاقات کرد.
RTO سیاه و سفید شروع (سناریو کامل) ≤ هدف (به عنوان مثال، 4 ساعت) در آزمون یک بار در سه ماهه.
موفقیت تمرینات DR - 100٪ از وظایف مهم در پنجره تکمیل شده است.
غیر قابل تغییر - سهم پشتیبان گیری با حفظ/قفل = 100٪.
چک های یکپارچگی - 100٪ به عنوان برنامه ؛ شکست رسانه ها → بلیط مهاجرت.
تست ها و تمرینات
جدول بالا: اسکریپت ها، نقش ها، چک لیست ها، لیست تماس.
فنی: بازیابی انتخابی پایگاه داده ها/فایل ها/اسرار به sandbox با تایید checksums و سازگاری.
سیاه و سفید شروع تمرین: یک بار/سه ماهه (یا یک بار/شش ماه) - راه اندازی کامل هسته در سایت DR.
پس از مرگ: حقایق، تنگناها، برنامه بهبود (SLO/فرآیندها/اتوماسیون).
اتوماسیون و مصنوعات
IaC: خوشه ها، شبکه ها، پشته ها - در کد ؛ شاخه های DR/پارامترها.
Runbooks: جزء به جزء (Vault/KMS، ETCD، DB، دروازه ها، جبهه ها).
بسته DR: کپی آفلاین از اسکله های کلیدی (مخاطبین، طرح ها، رمزهای عبور عبارات ایمن)، دستورالعمل های دسترسی فیزیکی.
Canary-restore: بازگردانی کوچک و روزانه.
برچسب ها/برچسب ها: «DR-بحرانی», «فقط گرم», «فقط سرد» برای خدمات/حجم.
چک لیست پیاده سازی
- کلاس های داده و RPO ها/RTO های آنها با کسب و کار هماهنگ شده اند ؛ اولویت های بهبود تعریف شده است.
- اجرا سرد پشتیبان گیری: رسانه ها، غیر قابل تغییر (WORM/شی قفل)، خارج از سایت/هوا شکاف.
- کاتالوگ: دارایی ها، پشتیبان گیری، کلید ؛ مقادیر و کنترل نسخه را بررسی کنید.
- روش های شروع سیاه: شبکه ها/DNS، IdP/Vault/KMS، هواپیمای کنترل، داده ها، برنامه های کاربردی.
- تمرینات: جدول بالا سه ماهه ؛ قناری روزانه بازیابی می کند سیاه و سفید شروع یک بار/سه ماهه شش ماه.
- ارتباطات و قالب های نظارتی ؛ کانالهای ارتباطی جداگانه
- SLO/متریک/هشدار برای DR ؛ گزارش به مدیریت
- توافق با ارائه دهندگان (نوار/آرشیو کلاس/DNS/CDN)، SLA تایید شده است.
- امور مالی: رسانه ها/بودجه آرشیو، تدارکات، جایگزینی رسانه ها با زمان.
خطاهای رایج
«یک کپی وجود دارد - هیچ نسخه پشتیبان لازم نیست» یک خطای منطقی/باج افزار همه جا را ترک خواهد کرد.
هیچ تغییرناپذیری/شکاف هوایی → یک بردار واحد برای به خطر انداختن تمام نسخهها وجود ندارد.
فقدان کاتالوگ/چک مبلغ → ترمیم «چیزی», اما نه که.
DNS TTL بیش از حد بزرگ است → مهاجرت ترافیک چند روزه.
کلیدها/KMS در همان دامنه/حساب → مسدود کردن دسترسی در یک حادثه.
تمرینات فقط «بر روی کاغذ» → RTO/RPO تایید نشده است.
iGaming/fintech خاص
کیف پول/هسته پرداخت: RPO سخت (≤ 1-5 دقیقه) و RTO (≤ 15-60 دقیقه) ؛ ورود به یک شی با WORM ؛ تابع DR «تعادل فقط خواندنی» برای ارتباطات شفاف.
PSP/ارائه دهندگان محتوا: از پیش توافق شده DR-IP/دامنه، لیست سفید، گواهی، کلید HMAC/mTLS - نسخه در بسته DR.
گزارش/تنظیم کننده ها: قالب های اطلاع رسانی، بایگانی های غیرقابل تغییر، یکپارچگی قابل اثبات، گزارش فعالیت.
قله ها و رویدادها: آمادگی DR قبل از مسابقات/تبلیغات مهم بررسی می شود. ترمیم قناری و گرم شدن CDN.
قالب های مینی Runbook
1) شروع سیاه و سفید Vault/KMS (مفهوم):1. مقداردهی اولیه خوشه DR، بارگذاری unseal (دو کنترل) کلید.
2. بازیابی پشتیبان ذخیره سازی (کپی سرد).
3. بررسی سیاست ها، صدور اسرار بوت استرپ برای CI/CD/K8s.
2) PostgreSQL DR (PITR из پشتیبان گیری سرد):1. گسترش یک نمونه خالی، بازگرداندن کامل از سرد است.
2. آپلود WAL سیاهههای مربوط (افزایش) به لحظه هدف.
3. بررسی سازگاری، فعال کردن تکرار، باز کردن فقط خواندنی، سپس خواندن و نوشتن.
3) DNS/ترافیک:1. TTL را در 24-72 ساعت به خطرات برنامه ریزی شده کاهش دهید (یا به طور مداوم کم نگه دارید).
2. سوئیچینگ A/AAAA/CNAME توسط چک لیست، خطا/نظارت بر تاخیر.
3. رشد تدریجی ترافیک (قناری 5٪ → 25٪ → 100٪).
نتیجه گیری
یک DR قابل اعتماد مبتنی بر پشتیبان گیری سرد است: نسخه های جدا شده غیر قابل تغییر، روش های رسمی سیاه و سفید، RPO/RTO های روشن، تمرینات منظم، استراتژی DNS/شبکه به خوبی فکر شده و رشته کلیدی. همه چیز را به IaC و runbooks بسپارید، چک های یکپارچگی و بازیابی قناری را به صورت خودکار انجام دهید - و حتی پس از بدترین سناریو، همیشه یک مسیر کنترل شده برای بازیابی خواهید داشت.