GH GambleHub

תוכנית שיקום אסונות

1) מטרה, היקף ועקרונות

המטרה: להבטיח התאוששות בזמן של פלטפורמת IT לאחר אסונות (אלה, סייבר, ספק, גאופוליטי) מבלי להפר דרישות רגולטוריות, חוזים וציפיות שחקן.
אזורים: סביבות פרודוקטיביות (מעגל משחקים, תשלומים, KYC/AML, אנטי הונאה, DWH/BI storefronts), אינטגרציות (PSP, KYC, CDN, אולפנים/אגרגטורים), תשתיות (cloud/K8s, רשתות, סודות/מפתחות), נתונים (קבצים).
עקרונות: בטיחות תחילה, מיזעור RTO/RPO, אוטומציה ורבייה (IC), יכולת ברירת מחדל, תרגילים רגילים.


2) סיווג מערכת ומטרות שיקום

2. 1 רמות ביקורת

Tier-1 (חיוני): תשלומים/קאשאוטים, משחקי ליבה, התחברות/אימות, ICC/סנקציות.
Tier-2: אנליטיקה בזמן אמת, שיווק/CRM, דיווח DWH.
Tier-3: שערים פנימיים, שירותי עזר.

2. 2 מטרות

RTO - מטרת זמן החלמה

נקודת שיקום אובייקטיבית (RPO) - איבוד זמן אפשרי של נתונים.
RTA (Recovery Time Active )/RPA (Recovery Point Actival) - ערכים ממשיים מתועדים בדו "חות.
MTO/MBCO: מקסימום נסבל זמן השבתה/מינימום רמת שירות מקובלת (מצב פגום).

מטרות לדוגמה (לשם התייחסות):
  • TIER-1 - RTO/30-60 דקות, RPO/15 דקות; Tier-2 - RTO 4 federate, RPO 1 federate; Tier-3 -RTO 24 פד, RPO 24 פד.

3) ד "ר אסטרטגיות וארכיטקטורה

3. טופולוגיות 1

Active-Active (מולטי-אזור): RTO/RPO מינימלי, דורש עקביות ויישוב סכסוכים.
Active-Standby (חם/חם/קר): שיווי משקל עלות/מהירות.
הפרדת נתונים ומפתחות: KMS/HSM לכל אזור, BYOK, נתיבי שכפול עצמאיים.

3. 2 נתונים וגיבויים

(PITR (point-in-time recovery: רישומי עסקאות, מרווחי ארכיון 5-15 דקות עבור Tier-1.
Snapshots/מלא גיבויים: יום/שעה, אחסון על פי סכימת 3-2-1 (3 עותקים, 2 מדיה, 1 offsite/offsite).
חוסר תזוזה: מנעולי תולעת/אובייקט, שרשראות חתימה/חשיש של חפצים.
קטלוג התאוששות: מלאי גיבוי, שלמות, תאריך תפוגה, פענוח בדיקה.

3. 3 יישומים ואינטגרציות

שירותי מדינה - פריסה מהירה באמצעות IAC/CI

רכיבים מדינתיים: תמונות עקביות, תזמור רצף השיגור.
אינטגרציות (PSP/KYC/aggregators): קרדיטים כפולים, נקודות קצה נשלגות, חוברות אינטרנט חתומות, בקרת העברה מחדש (idempotency).


4) סדר התאוששות (ספר ריצות כללי)

1. הכרזה על תסריט של ד ”ר פי הקצאת מפקד התקרית (ד” ר אייק), שיגור חדר מלחמה.
2. הערכת נזקים: אזורים/תת-מערכות מושפעות, RTA/RPA הנוכחי, החלטה להפעיל את הפילובר.
3. בידוד/בלימה: חסימת הגורמים המקוריים (רשתות ACL, סודות, ניתוק הספק).

4. מאתחל את ד. ר

רשת/סודות/KMS #

DB/כספת/מטמון #

API/services = front/CDN = = אינטגרציות חיצוניות.
5. בדיקת יושרה: מונה. כמויות, בקשות ”יבשות”, דגימות בריאות.
6. פיוס כספים/משחקים: פיוס תשלומים, הימורים, איזון, חזרה אידמפוטנטית על עסקאות.
7. תקשורת: עמוד מצב, שחקנים/שותפים/רגולטורים; עדכון ציר זמן.
8. תצפית וייצוב: ביטול התפרקות כתוצאה מנורמליזציה.
9. RCA, CAPA, עדכון DRP.


5) ספרי ריצה מומחים (קטעים)

5. 1 המתנה פעילה # המתנה

yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"

5. 2 שחיתות DB/התאוששות מ ־ PITR

yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]

5. 3 פירוק PSP במצב DR

yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation

6) שלמות נתונים ופיוס

פיננסים: פיוס של הפקדות/תשלומים/עמלות, שליחה מחדש של הודעות וחוברות אינטרנט עם שכפול (idempotency-keys).
טענת המשחק: שחזור של מדינות עגולות, חזרה על ההתנחלויות במידת הצורך, הגנה מפני האשמות/האשמות כפולות.
רישומים/ביקורת: לפני/אחרי מיפוי יומן תולעת, חתימות/חשיש, דיווחים עקביים.
דו ”ח DPO/Complication: במקרה של פגיעת מח” ש, קנה מידה לכידה, ציר זמן והודעות.


7) DR לטכנולוגיות מפתח (דוגמאות)

DBMS (relational): שכפול סינכרוני/אסינכרוני, חריצים של WAL, קידומים מהירים, סטנדבי חם.
NOSQL/caches: multicloster, TTL-Nכות, מילוי קר, דחיית כתיבה חוצה-אזור ללא פתרון-קונפליקט.
תורים/זרמים: טיפוסי מראה/אשכולות, בקרת קיזוז, כפילות צרכנית.
אחסון אובייקטים: איחסון עצמים, שכפול בונקרים, ספירת מלאי אובייקטים ומדיניות שימור.
CI/CD/חפצים: העתקים של רישומים, חתימה של חפצים, עותקים לא מקוונים של מכולות קריטיות.
סודות/מפתחות: KMS לכל אזור, מפתחות שורש עצמאיים, פריצה עם כריתת עצים ו-TTL.


8) ביטחון ופרטיות בד "ר

עיקרון הזכויות המינימליות: DR-גישה לתפקידים/פרופילים בודדים (JIT/PAM).
גיבויים בלתי ניתנים לשינוי: לא מקוונים/מחוץ לאתר, התאוששות ובדיקת פענוח.
חלונות רגולטוריים: החלטת לכידת אירוע והודעת אירוע (רגולטור/בנק/PSP/משתמשים) יחד עם Legal/DPO.
איתור: יומן פעילות מלא של ד "ר פקודה, חתימת ציר זמן.


9) תרגילים וסוגי מבחנים

Walkthrough/Review: Document/Loke/Contact Review (רבעון).
שולחן: להפעיל תרחישים על ”יבש” עם יישוב סכסוכים.
חלק טכני: שחזור של שירות/מסד נתונים אחד.
כשל מלא/החלפה - העברת תנועה ונתונים לאזור הגיבוי.
כאוס-ימים (מבוקר): הזרקת כשלים/כשלים לבדוק אוטומטיים.

כל מבחן = דו "ח עם RTA/RPA, רשימת סטייה, CAPA, ועדכון DRP.


10) מטריצות (KPI/KRI)

RTA/RPA נגד RTO/RPO (Tier-1): 95% התאמה.
סיקור מבחן ד "ר: 2 בדיקות DR שלמות/שנה + חלקיות רגילות.
זמן למצב ראשון: 15 דקות אחרי הודעת ד "ר.
פיוס אפס-דיף: כל הכסף ופיוס המשחק ללא סתירות.
גיבוי שלמות: 100% של החזרה נקודתית מוצלחים ברבע.
דריפט הגדרות: 0 סחיפה בין השוואה ראשונית/משנית (IC).
אבטחה בד ”ר: 100% פעילויות ד” ר עם יומן ואישור.


11) RACI (מוגדל)

פעילותד "ר-ICפלטפורמה/SREנתונים/DBAאבטחה/DPOתשלומיםסיכון/KYCמוצר/Engתקשורת/יחסי ציבורחוקי/ציות
הודעת DRA/RCCCCCCCC
Feilover/liftCA/RRCCCRאניאני
אימות/בריאותCRA/RCCCRאניאני
פיוסאניRA/RאניRRRאניאני
תקשורתאניאניאניCCCאניA/RC
רגולטורים/PSPאניאניאניA/RRRאניCR
לאחר המוות/CAPAA/RRRRRRRCC

12) רשימות בדיקה

12. 1 מוכנות DR

[ ] ד "ר צוות/ונדור/רגולטור עדכן
[ ירוק שכפול ], PITR מופעל, בדיקה פענוח של גיבויים
[ ] גישות JIT/PAM, זכוכית שבורה מאומתת
[ ] ספרי משחקים מזויפים ומשתנים סביבתיים תקפים
[ ] PSP/KYC Cridits/Webhooks, נתיבים חלופיים
[ ] סטטוס עמוד/תבניות הודעה מוכנות

12. 2 במהלך ד. ר

[ ] ד "ר IC מוקצה, חדר מלחמה פתוח, ציר זמן אירוע
[ ] לגרום לבידוד, תסריטים, הפעלת ספרי ריצה
[ בדיקות שלמות ], בדיקות בריאות, בדיקות עשן
[ עדכון פומבי ראשון ] 15 דקות; הודעות לשותפים/רגולטורים על SLAs
[ ] לכידת חפצים לחקירה

12. 3 אחרי ד. ר

[ ] פיוס מוחלט של כסף/משחקים ומגזינים
[ ] לאחר המוות, RCA, CAPA עם תאריכים ובעלים
[ ] DRP/BIA/עדכון מגע/IAC
[ ] תיקון תוכנית בחינה חוזרת

13) תבניות (שברים)

13. כרטיס שירות 1 (דרכון ד "ר)

yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]

13. דו ”ח מבחן 2 ד” ר (חשיפה)

yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"

13. 3 תבנית הודעת מצב


[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.

14) מימוש מפת דרכים (שבועות 6-8)

שבועות 1-2: מלאי של שירותים ותלות, סיווג Tier, מטרות RTO/RPO, בחירת טופולוגיה, דרכונים DR.
שבועות 3-4: יישום גיבויים/PITR/immutability, שכפול סודי/KMS, הכנת ספרי ריצה וסטטוס.
שבועות 5-6: בדיקות טכניות חלקיות (מסד נתונים/מטמון/תורים), לוח לפי תרחישי PSP/KYC/אזור.
שבועות 7-8: החלפה מלאה (במידת האפשר), דיווח עם RTA/RPA, CAPA, עדכון DRP ותוכנית בדיקה רגילה.


15) אינטגרציה עם קטעי ויקי אחרים

Link to: BCP, Risk Register, Incident Management, Log Policy (WORM), TPRM ו-SLA, ISO 27001/27701, SOC 2, PCI DSS, RBAC I I I LED E ED E ED E UsE E UsUsUSS EsUSS ES S S S S ESS S S S SSElSSElEsEsEsEcEcECS Eניהול.


TL; DR

DRP = RTO/RPO ברור על ידי Tier # Active-Active/Standby architecture + immutable Active Gupps/PITR. ואז כל כישלון גדול הופך להליך שניתן לניהול עם זמני החלמה צפויים ואפס הפתעות לרגולטורים ולשחקנים.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.