התאוששות אסון גיבויים קרים
תקציר
ד "ר הוא היכולת לשקם תפקודים עסקיים לאחר אסון גדול. גיבויים קרים - ”קו הגנה אחרון”: עותקים בלתי ניתנים לשינוי/מבודדים המתאימים להתאוששות במקרה של דה-אנרגיה מוחלטת של האתר או פשרה. האסטרטגיה בנויה סביב RTO/RPO, עדיפות מערכת, תרגילי DR שנתיים ומשמעת מבצעית קפדנית (קטלוגים, מפתחות, צ 'קים).
מונחים ויעדים
RPO (Recovery Point Objective) - איבוד מידע ניתן להקצה מקסימלי (למשל, 15 דקות).
RTO (Recovery Time Objective) - זמן התאוששות מרבי (למשל 2 שעות).
שחזור מתכתי חשוף: חומרה/אשכול/סודות/נתונים/DNS.
פער אוויר - בידוד פיזי/לוגי של עותקים (סרט/חשבון נכה/מדיה לא מקוונת).
Immutability (תולעת) - אחסון בלתי ניתן לשינוי (טייפ/אובייקט עם Lock/Retution).
רמות זמינות DR
אתר קר - תשתית חסרה/קפואה; רטו: שעות-ימים; CAPEX/OPEX הזול ביותר.
אתר חם - תבניות/תמונות/שירותים מוגמרים חלקית; עשרות שעות של דקות.
אתר חם - העתקים פעילים; RTO: דקות; יותר יקר ויותר מסובך.
היברידי: גרעין = חם/חם, כל השאר = קר (עם עדיפות בהפעלה).
שבו קר-גיבויים הם הכרחיים
פשרת קריפטו/תחום מסיבית.
שחיתות נתונים שהלכה לכל ההעתקים.
אובדן אזור/מרכז נתונים, כוח עליון (אש, שיטפון).
הסרה/חבלה מכוונת מחשבונות חסויים.
טופולוגיית גיבוי קר
1. שיעורי מדיה/אחסון
קלטות (LTO-8/9): עלות נמוכה, פער אוויר-ברירת מחדל, קיבולת גבוהה, גישה רציפה.
כבוי דיסקים/NAS: ”מקרים בטוחים”, להתחבר רק לחלון הגיבוי/לשחזר.
כיתות אובייקט ארכיוני (כמו קרחון): מחיר אחסון נמוך, זמן מיצוי גבוה יותר.
2. מיקום
אתר/אזור אחר; ספק/חשבון אחר; מפתחות/מנהלנים בודדים.
3. חוסר תזוזה
הקלטות של WORM/Object Lock (ציות/ממשל) עם החזקה משפטית.
מדיניות 3-2-1-1-0 (עם התמקדות בקור)
3 עותקים של נתונים (Prod + מקומי גיבוי + offsite).
2 מדיה שונה (דיסק/סרט/אובייקט).
1 offsite (אתר/ענן אחר).
1 ללא שינוי (תולעת/פער אוויר).
0 בדיקת שגיאות (checksum/perodic test recoveries).
ספריות, Metadata, ובקרת שלמות
קטלוג גיבוי: מה, איפה, מתי, גרסה, מפתחות, בדוק כמויות, תקופת שימור.
Catalog - Sustance Catalog - Service Lessondencies # profession.
בקשות ומניפסט קבצים: לכתוב ולשחזר פיוס.
קבצים קנריים: שחזור רגיל לגילוי מוקדם של בעיות מדיה.
הצפנה ומפתחות
הצפנה במנוחה (קלטת/אובייקט) ובמעוף (העתקה).
KMS/Vault עם שליטה כפולה, כספות לא מקוונות עבור מפתחות מאסטר, סיבוב.
מפתחות נפרדים למכירות/גיבויים/ארכיונים (מזעור רדיוס פיצוץ).
תהליך גישת מפתח מתועד במהלך DR (דרישות, תפקידים, רישום).
ד "ר תוכנית סדר עדיפויות ועקביות
מפת עדיפות (דוגמה):1. זיהוי וגישה: IDP (אזור מינימלי), כספת/KMS, ליבת רשת.
2. נתונים ומטוסי בקרה: K8s etcd, תצורות, סודות, רישומי תמונות, פריסת חפצים.
3. העברה של מסדי נתונים/ארנק: יומנים + עדכני מלא/אינקרמנטלי.
4. שערי תשלום/אינטגרציה: מפתחות, תעודות, IP/DNS.
5. חזיתות אינטרנט/אפי: שיגור כנרית, תוכן סטטי מהאובייקט.
6. אנליטיקה/דיווח: בעת השלמת הליבה.
שחזור רצף (התחלה שחורה):1. תשתית: רשת, DNS/Anycast, IAM, תמונות בסיס/אשכול.
2. סודות/תעודות: שחזור כספת/KMS מגיבוי קר, הפץ סודות אתחול.
3. מטוס בקרה: etcd/control Plane/registers/repositories.
4. נתונים: פריסת מסד נתונים מגיבוי קר + PITR מיומנים (על ידי RPO).
5. יישומים: השקת תלויות בעצים, חימום מטמונים/CDN.
6. בדיקות ואימות: בדיקות בריאות, עקביות, בדיקות.
7. מיתוג תנועה: DNS/ניתוב/מאזנים (שלבים/קנריים).
8. אין דליפות/חובות, כריתת עצים וד "ר אקט.
נהלי שחזור קר (אופייני)
קלטות: ספירת מלאי, הורדה, זרמים מקבילים, מפת קבצים. חשבונאות לחיפוש ואחזור זמנים.
כיתות ארכיון: בקשה לחילוץ (דקות מספר שעות), היערכות לאחסון חם, שחזור על ידי מניפסט.
דיסקים לא מקוונים: חיבור קריאה בלבד, בדיקת checksum = העתקה.
תרגול: ארגז חול מבודד לשיקום, ואז לעבור לסביבת הייצור.
תקשורת ואורג. מבנה בDR
מפקד תקרית, עופרת טק (אינפרה), עופרת DB, עופרת אפליקציות, תקשורת, אבטחה.
ערוצים: גיבוי (מחוץ לתחום הארגוני), קול/צ 'אט, Axike Docs.
תבניות הודעה: ללקוחות/שותפים/רגולטורים; תדר עדכון; ”מקור אמת” יחיד.
יומן אירועים מאוחד: ציר זמן, פתרונות, בעלים.
DNS, רשתות ותעבורה
פיצול-מוח: ”DR-mode” דגלים בתצורה; דגלים עבור פונקציונליות מוגבלת.
אסטרטגיית DNS: TTL נמוך מראש, ספק DNS עצמאי; שלב A/AAAA/CNAME, לחמם את CDN.
ניתוב: Anycast/Geo, הודעת BGP מאתר DR; חומות אש/איי-סי-אל-איי-סי מורכבות מחדש.
SLO עבור DR
RPO נפגש עם 99% מהזמן (log/curment lag בתוך המטרה).
RTO black-start (תרחיש מלא) target (לדוגמה, 4 שעות) במבחנים פעם ברבע.
הצלחה של תרגילי DR - 100% של משימות קריטיות הושלמו בחלון.
Immutability - החלק של גיבויים עם Recentation/Lock = 100%.
בדיקות שלמות - 100% לפי לוח הזמנים; כרטיס הגירה כישלון תקשורתי.
בדיקות ותרגילים
טבלה: תסריטים, תפקידים, רשימות, רשימת אנשי קשר.
טכני: התאוששות סלקטיבית של מסדי נתונים/קבצים/סודות לארגז החול עם אימות של בדיקות ועקביות.
תרגיל שחור-התחלה: פעם/רבע (או פעם/שישה חודשים) - השקת גרעין מלא באתר DR.
לאחר המוות: עובדות, צווארי בקבוק, תוכנית שיפור (SLO/תהליכים/אוטומציה).
אוטומציה וחפצים
IC: אשכולות, רשתות, ערימות - בקוד; ד "ר סניפים/פרמטרים.
ספרי ריצה: רכיב אחר רכיב (Vault/KMS, etcd, DB, שערים, חזיתות).
חבילת ד "ר: עותק לא מקוון של רציפי מפתח (אנשי קשר, מזימות, סיסמאות של ביטויים בטוחים), הוראות גישה פיזיות.
שחזור כנרי: שחזור יומי קטן ופיוס צ 'מסום.
תגיות/תגיות: "ד" ר קריטי "," חם בלבד "," קר בלבד "עבור שירותים/כרכים.
רשימת יישומים
[ שיעורי ] דאטה ו-RPOS/RTOs שלהם מיושרים עם העסק; סדר העדיפויות לשיקום מוגדר.
[ ] מימוש גיבויים קרים: מדיה, אי-תזוזה (WORM/Object Lock), offsite/air-growt.
[ ] קטלוגים: נכסים, גיבויים, מפתחות; בדוק כמויות ושליטה בגרסה.
[ ] הליכי התחלה שחורה: רשתות/DNS, IDP/Vault/KMS, מטוס בקרה, נתונים, מחיאות כפיים.
[ תרגילי ]: הרבעון העליון של השולחן; הקנריים משחזרים מדי יום; שחור-התחלה אחת/רבע-שישה חודשים.
[ ] תקשורת ותבניות רגולטוריות; ערוצי תקשורת נפרדים.
[ ] SLO/Metrics/ADR; דוחות להנהלה.
הסכמים עם ספקים (קלטות/כיתות ארכיון/DNS/CDN), SLA אישרה.
[ ] פיננסים: תקציב מדיה/ארכיון, לוגיסטיקה, החלפת מדיה בזמן.
שגיאות נפוצות
”יש העתק - אין צורך בגיבוי” * שגיאה לוגית/תוכנת הכופר תעזוב בכל מקום.
אין פער מידתיות/אוויר = וקטור בודד להתפשרות כל העותקים.
המחסור בקטלוגים/צ 'ק כמויות = ”משהו” משוחזר, אבל לא זה.
DNS TTL הוא גדול מדי = נדידת תנועה רב-יומית.
מפתחות/KMS באותו תחום/חשבון # חסימת גישה בתקרית.
תרגילים רק ”על הנייר” = RTO/RPO אינם מאושרים.
iGaming/fintech ספציפי
ליבת ארנק/תשלום: RPO קפדנית (1-5 דקות) ו-RTO (15-60 דקות); מתחבר לעצם עם תולעת; ד "ר פונקציה" איזון קריאה בלבד "לתקשורת שקופה.
ספקי תוכן/PSP: DR-IP/Domain, מלבנים, תעודות, מפתחות HMAC/mTLS - עותקים בחבילת DR.
דיווח/רגולטורים: תבניות הודעה, ארכיונים בלתי משתנים, שלמות מספקת, יומן פעילות.
פסגות ואירועים: ד "ר מוכנות נבדקת לפני טורנירים/קידום גדולים; שחזור כנרית והתחממות CDN.
Templates Mini Runbook
1) כספת/KMS שחור-סטארט (מושג):1. מאתחל את ה-DR אשכול, מעמיס מפתחות ללא שליטה כפולה.
2. שחזר גיבוי אחסון (עותק קר).
3. בדיקת מדיניות, הנפקת סודות אתחול עבור CI/CD/K8s.
2) PostgreSQL DR (PITR - גיבוי קר):1. להרחיב מקרה ריק, לשחזר מלא מן הקור.
2. העלה את רישומי WAL לרגע המטרה.
3. בדיקת עקביות, אפשר שכפול, פתוח לקריאה בלבד, ואז לקרוא-לכתוב.
3) DNS/תנועה:1. הפחתת TTL תוך 24-72 שעות לסיכונים מתוכננים (או לשמור על פרופיל נמוך כל הזמן).
2. החלפת A/AAAA/CNAME על ידי רשימת בדיקות, ניטור שגיאה/איחור.
3. צמיחת תנועה הדרגתית (canary 5% = 25% = 100%).
תוצאות
DR אמין המבוסס על גיבויים קרים הוא: העתקים מבודדים בלתי ניתנים לשינוי, נהלי התחלה שחורה פורמליים, RPO/RTOs ברורים, תרגילים רגילים, אסטרטגיית DNS/רשת מחשבת היטב, ודיסציפלינת מפתח. להתחייב הכל אל איי-סי וספרי הפעלה, בדיקת שלמות אוטומטית ושיקום הכנרת ותמיד תהיה לך דרך מבוקרת להתאוששות גם אחרי התרחיש הגרוע ביותר.