תוכנית שיקום אסונות
1) מטרה, היקף ועקרונות
המטרה: להבטיח התאוששות בזמן של פלטפורמת IT לאחר אסונות (אלה, סייבר, ספק, גאופוליטי) מבלי להפר דרישות רגולטוריות, חוזים וציפיות שחקן.
אזורים: סביבות פרודוקטיביות (מעגל משחקים, תשלומים, KYC/AML, אנטי הונאה, DWH/BI storefronts), אינטגרציות (PSP, KYC, CDN, אולפנים/אגרגטורים), תשתיות (cloud/K8s, רשתות, סודות/מפתחות), נתונים (קבצים).
עקרונות: בטיחות תחילה, מיזעור RTO/RPO, אוטומציה ורבייה (IC), יכולת ברירת מחדל, תרגילים רגילים.
2) סיווג מערכת ומטרות שיקום
2. 1 רמות ביקורת
Tier-1 (חיוני): תשלומים/קאשאוטים, משחקי ליבה, התחברות/אימות, ICC/סנקציות.
Tier-2: אנליטיקה בזמן אמת, שיווק/CRM, דיווח DWH.
Tier-3: שערים פנימיים, שירותי עזר.
2. 2 מטרות
RTO - מטרת זמן החלמה
נקודת שיקום אובייקטיבית (RPO) - איבוד זמן אפשרי של נתונים.
RTA (Recovery Time Active )/RPA (Recovery Point Actival) - ערכים ממשיים מתועדים בדו "חות.
MTO/MBCO: מקסימום נסבל זמן השבתה/מינימום רמת שירות מקובלת (מצב פגום).
- TIER-1 - RTO/30-60 דקות, RPO/15 דקות; Tier-2 - RTO 4 federate, RPO 1 federate; Tier-3 -RTO 24 פד, RPO 24 פד.
3) ד "ר אסטרטגיות וארכיטקטורה
3. טופולוגיות 1
Active-Active (מולטי-אזור): RTO/RPO מינימלי, דורש עקביות ויישוב סכסוכים.
Active-Standby (חם/חם/קר): שיווי משקל עלות/מהירות.
הפרדת נתונים ומפתחות: KMS/HSM לכל אזור, BYOK, נתיבי שכפול עצמאיים.
3. 2 נתונים וגיבויים
(PITR (point-in-time recovery: רישומי עסקאות, מרווחי ארכיון 5-15 דקות עבור Tier-1.
Snapshots/מלא גיבויים: יום/שעה, אחסון על פי סכימת 3-2-1 (3 עותקים, 2 מדיה, 1 offsite/offsite).
חוסר תזוזה: מנעולי תולעת/אובייקט, שרשראות חתימה/חשיש של חפצים.
קטלוג התאוששות: מלאי גיבוי, שלמות, תאריך תפוגה, פענוח בדיקה.
3. 3 יישומים ואינטגרציות
שירותי מדינה - פריסה מהירה באמצעות IAC/CI
רכיבים מדינתיים: תמונות עקביות, תזמור רצף השיגור.
אינטגרציות (PSP/KYC/aggregators): קרדיטים כפולים, נקודות קצה נשלגות, חוברות אינטרנט חתומות, בקרת העברה מחדש (idempotency).
4) סדר התאוששות (ספר ריצות כללי)
1. הכרזה על תסריט של ד ”ר פי הקצאת מפקד התקרית (ד” ר אייק), שיגור חדר מלחמה.
2. הערכת נזקים: אזורים/תת-מערכות מושפעות, RTA/RPA הנוכחי, החלטה להפעיל את הפילובר.
3. בידוד/בלימה: חסימת הגורמים המקוריים (רשתות ACL, סודות, ניתוק הספק).
4. מאתחל את ד. ר
רשת/סודות/KMS #
DB/כספת/מטמון #
API/services = front/CDN = = אינטגרציות חיצוניות.
5. בדיקת יושרה: מונה. כמויות, בקשות ”יבשות”, דגימות בריאות.
6. פיוס כספים/משחקים: פיוס תשלומים, הימורים, איזון, חזרה אידמפוטנטית על עסקאות.
7. תקשורת: עמוד מצב, שחקנים/שותפים/רגולטורים; עדכון ציר זמן.
8. תצפית וייצוב: ביטול התפרקות כתוצאה מנורמליזציה.
9. RCA, CAPA, עדכון DRP.
5) ספרי ריצה מומחים (קטעים)
5. 1 המתנה פעילה # המתנה
yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"
5. 2 שחיתות DB/התאוששות מ ־ PITR
yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]
5. 3 פירוק PSP במצב DR
yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation
6) שלמות נתונים ופיוס
פיננסים: פיוס של הפקדות/תשלומים/עמלות, שליחה מחדש של הודעות וחוברות אינטרנט עם שכפול (idempotency-keys).
טענת המשחק: שחזור של מדינות עגולות, חזרה על ההתנחלויות במידת הצורך, הגנה מפני האשמות/האשמות כפולות.
רישומים/ביקורת: לפני/אחרי מיפוי יומן תולעת, חתימות/חשיש, דיווחים עקביים.
דו ”ח DPO/Complication: במקרה של פגיעת מח” ש, קנה מידה לכידה, ציר זמן והודעות.
7) DR לטכנולוגיות מפתח (דוגמאות)
DBMS (relational): שכפול סינכרוני/אסינכרוני, חריצים של WAL, קידומים מהירים, סטנדבי חם.
NOSQL/caches: multicloster, TTL-Nכות, מילוי קר, דחיית כתיבה חוצה-אזור ללא פתרון-קונפליקט.
תורים/זרמים: טיפוסי מראה/אשכולות, בקרת קיזוז, כפילות צרכנית.
אחסון אובייקטים: איחסון עצמים, שכפול בונקרים, ספירת מלאי אובייקטים ומדיניות שימור.
CI/CD/חפצים: העתקים של רישומים, חתימה של חפצים, עותקים לא מקוונים של מכולות קריטיות.
סודות/מפתחות: KMS לכל אזור, מפתחות שורש עצמאיים, פריצה עם כריתת עצים ו-TTL.
8) ביטחון ופרטיות בד "ר
עיקרון הזכויות המינימליות: DR-גישה לתפקידים/פרופילים בודדים (JIT/PAM).
גיבויים בלתי ניתנים לשינוי: לא מקוונים/מחוץ לאתר, התאוששות ובדיקת פענוח.
חלונות רגולטוריים: החלטת לכידת אירוע והודעת אירוע (רגולטור/בנק/PSP/משתמשים) יחד עם Legal/DPO.
איתור: יומן פעילות מלא של ד "ר פקודה, חתימת ציר זמן.
9) תרגילים וסוגי מבחנים
Walkthrough/Review: Document/Loke/Contact Review (רבעון).
שולחן: להפעיל תרחישים על ”יבש” עם יישוב סכסוכים.
חלק טכני: שחזור של שירות/מסד נתונים אחד.
כשל מלא/החלפה - העברת תנועה ונתונים לאזור הגיבוי.
כאוס-ימים (מבוקר): הזרקת כשלים/כשלים לבדוק אוטומטיים.
כל מבחן = דו "ח עם RTA/RPA, רשימת סטייה, CAPA, ועדכון DRP.
10) מטריצות (KPI/KRI)
RTA/RPA נגד RTO/RPO (Tier-1): 95% התאמה.
סיקור מבחן ד "ר: 2 בדיקות DR שלמות/שנה + חלקיות רגילות.
זמן למצב ראשון: 15 דקות אחרי הודעת ד "ר.
פיוס אפס-דיף: כל הכסף ופיוס המשחק ללא סתירות.
גיבוי שלמות: 100% של החזרה נקודתית מוצלחים ברבע.
דריפט הגדרות: 0 סחיפה בין השוואה ראשונית/משנית (IC).
אבטחה בד ”ר: 100% פעילויות ד” ר עם יומן ואישור.
11) RACI (מוגדל)
12) רשימות בדיקה
12. 1 מוכנות DR
[ ] ד "ר צוות/ונדור/רגולטור עדכן
[ ירוק שכפול ], PITR מופעל, בדיקה פענוח של גיבויים
[ ] גישות JIT/PAM, זכוכית שבורה מאומתת
[ ] ספרי משחקים מזויפים ומשתנים סביבתיים תקפים
[ ] PSP/KYC Cridits/Webhooks, נתיבים חלופיים
[ ] סטטוס עמוד/תבניות הודעה מוכנות
12. 2 במהלך ד. ר
[ ] ד "ר IC מוקצה, חדר מלחמה פתוח, ציר זמן אירוע
[ ] לגרום לבידוד, תסריטים, הפעלת ספרי ריצה
[ בדיקות שלמות ], בדיקות בריאות, בדיקות עשן
[ עדכון פומבי ראשון ] 15 דקות; הודעות לשותפים/רגולטורים על SLAs
[ ] לכידת חפצים לחקירה
12. 3 אחרי ד. ר
[ ] פיוס מוחלט של כסף/משחקים ומגזינים
[ ] לאחר המוות, RCA, CAPA עם תאריכים ובעלים
[ ] DRP/BIA/עדכון מגע/IAC
[ ] תיקון תוכנית בחינה חוזרת
13) תבניות (שברים)
13. כרטיס שירות 1 (דרכון ד "ר)
yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]
13. דו ”ח מבחן 2 ד” ר (חשיפה)
yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"
13. 3 תבנית הודעת מצב
[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.
14) מימוש מפת דרכים (שבועות 6-8)
שבועות 1-2: מלאי של שירותים ותלות, סיווג Tier, מטרות RTO/RPO, בחירת טופולוגיה, דרכונים DR.
שבועות 3-4: יישום גיבויים/PITR/immutability, שכפול סודי/KMS, הכנת ספרי ריצה וסטטוס.
שבועות 5-6: בדיקות טכניות חלקיות (מסד נתונים/מטמון/תורים), לוח לפי תרחישי PSP/KYC/אזור.
שבועות 7-8: החלפה מלאה (במידת האפשר), דיווח עם RTA/RPA, CAPA, עדכון DRP ותוכנית בדיקה רגילה.
15) אינטגרציה עם קטעי ויקי אחרים
Link to: BCP, Risk Register, Incident Management, Log Policy (WORM), TPRM ו-SLA, ISO 27001/27701, SOC 2, PCI DSS, RBAC I I I LED E ED E ED E UsE E UsUsUSS EsUSS ES S S S S ESS S S S SSElSSElEsEsEsEcEcECS Eניהול.
TL; DR
DRP = RTO/RPO ברור על ידי Tier # Active-Active/Standby architecture + immutable Active Gupps/PITR. ואז כל כישלון גדול הופך להליך שניתן לניהול עם זמני החלמה צפויים ואפס הפתעות לרגולטורים ולשחקנים.