GH GambleHub

אגם דאטה ואחסון מרכזי

(סעיף: טכנולוגיה ותשתיות)

תקציר

דאטה לייק (באנגלית: Data Lake) היא שכבה בסיסית של אחסון מרכזי של חומרי גלם ונתונים מאוחדים. עבור iGaming, היא מקבלת אירועי הימורים/תשלום/רישום משחקים, העלאות משתייכות, CDC מ-OLTP ונותנת אותם לאנליטיקה, אנטי הונאה, CRM ו-BI. פרקטיקה מודרנית - Lakehouse: פורמטי עמודה פתוחה + ACID table layer + directory + transactions/data grases. המפתח להצלחה הוא הדיסציפלינה של מזימות ומחלקות, ניהול עלויות, אבטחת מח "ש ותרבות תפעול קפדנית (DQ, שושלת, DR).

תפקידו של דאטה לייק בפלטפורמת iGaming

נקודת אמת אחת לאנליטיקה: אחסון נתונים גולמיים ומטוהרים ללא קשר למקור ולפורמט.
גמישות: תמיכה באצווה וזרימה (CDC/מחברים, זרמי אירועים).
אבולוציה: מברונזה גולמית לתיקים עסקיים של כסף וזהב.
חלוקת אחריות: שירותי ייצור כותבים לצמיג/היערכות, אנליטיקה/ML צורכת משכבות אגם.

מודלים ארכיטקטוניים: Lake vs. Lakehouse

אגם נתונים (S3/ADLS/GCS + Parquet/ORC): סכימה על קריאה, אחסון זול, פורמטים גמישים.
Lakehouse (דלתא/קרחון/האדי מעל פרקט): עסקאות חומצה, התמזגות, מסע בזמן, קבצים קומפקטיים, ואקום, אינדקס/קיבוצים.
פרקטיקה: Lakehouse מועיל עבור iGaming בתור השכבה העיקרית, ו-OLAPs חיצוניים (ClickHouse/BigQuery/Snowflake/Pinot) בתור פתחי תצוגה ומנועים מיוחדים.

מודל שכבות מדליון

ברונזה (Raw/Staging): קבצים גולמיים ממקורות (CDC, מצנחי יומן, CSV). אימות מינימלי, ”כמו שהוא”.
כסף (Conformed): ניקוי/dedup, נורמליזציה של מטבעות/אזורי זמן, הקלדה, מדידות SCD, מפתחות עקביים.
Gold (Marts/Servition): אגרגטים עבור GGR/NGR/LTV/Reservation, חנויות מותאמות עבור BI/CRM/אנטי-הונאה.
TTL: אגרסיבי על ברונזה, מתון על כסף, ארוך טווח על יחידות זהב.

פורמטים ושכבות שולחן

טור: Parquet (תקן דה פקטו), ORC.

פורמטי שולחן פתוחים (חומצה):
  • אגם דלתא - עסקאות, 'מיזוג', מסע בזמן, אופטימיזציה/ואקום, Z-סדר.
  • קרחון אפאצ 'י - שולחנות עם מניפסטים/תצלומים, מחיצות נסתרות, ”מיזוג/מחק/עדכון”, מסע בזמן.
  • אפאצ 'י האדי - העתק-על-כתיבה/מיזוג-על-קריאה, אופטימיזציה-אפאצ' י, תמציות אינקרמנטליות.
  • בחר בהתבסס על המערכת האקולוגית ועל הדרישות להזרמת/זרימה/גמישות של התפתחות התוכניות.

קטלוג ומטאסטור

ספרייה בודדת (Hive Metastore/Unity/Dlue/Platform Directories) מאחסנת סכמות, מסיבות, גרסאות, זכויות.
דרישות: עקביות עסקית עם שכבת שולחן, תמיכה במנועים מרובים (Spark, Trino/Presto, Flink, dbt), ביקורת/שושלת.

סכמות ואבולוציה

חוזה סכימה: תיקון שדות חובה, סוגים, סמנטיקה; מקורות וסיונינג (”schema _ version”).
אבולוציה: הוספת שדות אופציונליים, איסור על שבירת שינויים ללא נדידה; תוכניות בדיקה אוטומטית בצינורות.
מקטע PII: שדות רגישים - לטורים/שולחנות נפרדים עם הצפנה וזכויות נפרדות.

נתונים מחיצה ופריצה החוצה

תאריך/שעה - מפתח בסיס לאירועים; שדות אופציונליים: "קאנטרי", "מוצר", "דייר _ id'.
סגנון כוורת: 's3 ://אגם/ברונזה/תשלומים/מקור = pspa/dt = 2025-11-05/שעה = 13/חלק-0001. פרקט '.
התקבצות/מיון: Z-order/Mind keys על ידי שדות מסוננים תכופות (player_id, country).

גודל הקובץ: כוון ל ־ 128 ־ 1024 MB; הימנע מ ”קבצים קטנים” (ראה להלן). ‏

עמודות וירטואליות (קרחון/דלתא) למחיצה נסתרת.

קבצים קטנים ובעיית דחיסה

מקורות מזרימים נתחים קטנים.
פתרון: אופטימיזציה מחזורית/כפייה (collesce), לוח זמנים של משימות כפייתיות, צרור מיקרו-צרור בבליעה, 'AutoOptimize' (אם הוא זמין).
מדיניות מיזוג-על-קריאה נגד העתק-על-כתיבה היא איזון בין כתיבה לאטה ומהירות קריאה.

אצווה, זרם, מרכז לבקרת מחלות

CDC מ-OLTP (דבזיום/מחברים) # ברונזה (רעננות דקה).
זרם (Kafka/Flink/Spark Structured Streaming) # כסף/זהב באופן הדרגתי (upsert/merge).
Batch (דו "חות שותף/CSV/JSON) - באמצעות" קולטים "עם מניפסטים, שליטה בשכפולים באמצעות Chectsum.
מפתחות (באנגלית: Idempotency: keys, idempotency_key), dedup by (key, ts), ”סימני מים” עבור רשומות שהגיעו מאוחר יותר.

איכות נתונים (DQ) ושושלת

בדיקות DQ: שלמות, ייחודיות של מפתחות, טווחים, שלמות ייחוס (רשימות מדינה/מטבע), חוקים עסקיים (GGR 0).
לינאז ': גרף של תלות מהדו "ח למקור, גרסה של קוד המודל וצילום של הטבלה.
סכימה בקרה: אוטומטי אחורה/קדימה-compat בדיקות שחוסמות ”שבירה” שינויים.
הורדות ביקורת: מי/מתי/כמה, חבורות דחויות, מגשים מחדש.

שירות וגישה

מנועי SQL: Spark/Trino/Presto עבור ad-hoc וטרנספורמציות; DBT לדוגמניות ELT.
זמן-אמת/כמעט-בזמן-אמת: Pinot/Druid/ClickHouse כחנויות; האגם הוא מקור דרך כיור אינקרמנטלי.
שיתוף נתונים: שיתוף טבלאות/תמונות לפקודות חיצוניות ללא עותקים (אם הן נתמכות על ידי הפורמט).

אבטחה, PII ורב-דירות

הצפנה: at-rest (KMS) ו-in-transit (TLS).
IAM/RBAC/ABAC: תפקידים בספרייה/טבלה/עמודה/רמת שורה (מיסוך, מדיניות דינמית).
מקטע אחר אזור (EU/Turkey/Latam localization): בידוד של דליים ובריכות חישוב.
Multi-tensancy: name-space/directories and path prefixes, filters by 'terant _ id', optional-row-level policy.
ביקורת גישה: רישומי קריאה/שינוי של metadata, שימור ויומנים שאינם ניתנים לשינוי.

ניהול עלויות

שיעורי אחסון: חם (לרוב קריא) בכיתה סטנדרטית, ארכיון - בשיעורי קור/קרחון עם מדיניות TTL.
מחיצות/אשכולות להפחית סריקות = = = פחות $ $.
חנויות ממומשות לדיווחים יקרים; מטמון תוצאות דו-פעמיות.
דחיסה ו ”גודל קובץ נכון” - פחות metadata ו ־ I/O.
מכסות ותקציבים: מגבלות על מחשוב אשכולות/עבודות, דוחות עלות על נתונים/צוות.
הסרת אשפה: ”ואקום/שכתוב מחדש” בפורמטים של שולחן, TTL ברונזה.

DR והתרבות

טבלת מסע בזמן ויסות וקטלוג תמונות.
שכפול חוצה-אזור של דליים ומטא-נתונים.
PITR: אחסון של יומני עסקאות שולחן (דלתא/קרחון/האדי) ויומני צינור.
יום המשחק: תרגילי התאוששות רגילים והחלפת אזורים.

תצפית ו SLO

רעננות: ברונזה, 5 דקות, כסף, 15-30 דקות, זהב, 60 דקות (דוגמה).
מטריצות: נפח/מספר הקבצים, גודל הפרקט הממוצע, זמן סריקה, נתח של חבורות שלא נענו, תדר דחיסה, עלות/תאריך, שגיאות DQ, נתונים מאוחרים.
התראות: נחשול קבצים קטנים, גידול עלויות, פיגור p95/p99, הפרת DQ/scheme, lag stream-blue.

שמות מוסכמות ומסלולים (תבנית)


s3://<lake>/<layer>/<domain>/<dataset>/
source=<sys>/      # для Bronze dt=YYYY-MM-DD/
hour=HH/
country=XX/

שמות dataset: ”הימורים _ raw”, ”תשלומים _ cdc”, ”players _ silver”, ”mart _ gr _ daily”.
עמודות metadata: "inbleget _ ts'," source "," schema _ version "," trace _ id', "terant _ id'.

דוגמאות (כלליות)

1) קרחון: שולחן כסף עם צד מוסתר בתאריך

sql
CREATE TABLE silver. bets (
bet_id    BIGINT,
player_id   BIGINT,
country    STRING,
stake     DECIMAL(18,2),
win      DECIMAL(18,2),
event_ts   TIMESTAMP,
ingest_ts   TIMESTAMP,
schema_version INT
)
PARTITIONED BY (days(event_ts))
TBLPROPERTIES ('format-version'='2');

2) דלתא: עצב אינקרמנטלי מהמרכז לבקרת מחלות

sql
MERGE INTO silver. players t
USING bronze. players_cdc s
ON t. player_id = s. player_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

3) מדיניות TTL לברונזה (רעיון)


bronze/: keep 30 days silver/: keep 365 days (non-PII), 90 days (PII masked)
gold/marts/: keep 2–3 years (aggregated)

רשימת יישומים

1. בחר את תבנית הטבלה (דלתא/קרחון/האדי) והספרייה; ליישר עם מנועים (Spark/Trino/Flink/dbt).
2. הגדר שכבות מדליון, חוקי טי-טי-אל ואחריות קבוצתית.
3. סכימה לכידה חוזים, אבולוציה שליטה, קטעי PII, והצפנה.
4. עיצוב Lay-out: חלקים, מיון מפתחות, גודל קובץ יעד; אפשר דחיפה.
5. הגדרות בלע (CDC/זרם/אצווה) עם אידמפוטנטיות ושכפול.
6. אפשר DQ/lineage, קטלוג metadata, וביקורת.
7. הגדר רעננות/עלות SLOs, לוחות מחוונים של מדטים והתראות.
8. ארגן ד "ר: תמונות/שכפול/התאוששות + תרגילים רגילים.
9. התקן שמות ומסלולים, עמודות meta ("inbleget _ ts'," source "," schema _ version ").
10. תביא תצוגות זהב ומגיש בזמן אמת למנועי OLAP/RT הנכונים.

אנטי דפוסים

”תיק” אחד נפוץ ללא שכבות ותוהו ובוהו TTL.
חלוקת זמן בלבד שלא כולל מדינה/מוצר * סריקות כבדות.
אשכולות שיוצרים אלפי קבצים/שעה קטנים ללא דחיסה.
חוסר שליטה בתכניות ו DQ = ”שבירת” שינויים וחוסר אמון בדיווחים.
ערבוב מח "ש עם תצוגות זהב ללא הסוואה/הפרדת זכויות.
הארדקוד של זכויות גישה ברמה של דליים במקום ספרייה ומדיניות טבעית.

תקציר

אגם דאטה מודרני (באנגלית: Modern Data Lake for iGaming) הוא בית לייקהאוס עם תבנית שולחן פתוחה, קטלוג יחיד ודגם מדליון. הדיסציפלינה של תוכניות/צדדים, דחיפה נגד קבצים קטנים, DQ/lineage, אבטחת PII והיגיינת עלויות הופכות את שכבת האגם ליסוד בר-קיימא: זול לאחסון, מהיר לקריאה, צפוי ב-SLO ומוכן ל-DR יסודות כאלה לטורניר פסגות ותומך הן באצוות אנליזה והן וכמעט בזמן אמת.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.