מחסני נתונים
1 מטרה ותפקיד DWH ב ־ iGaming
DWH הוא מרכז גיבוש נתונים ומשרת שכבה לדיווח, אנליטיקה, ציות ו-ML. זה מספק:- הגדרות מטריות נפוצות (GGR/NGR, ARPU, Retition, Churn).
- דו "חות רבייה לרגולטורים ובעלי עניין פנימי.
- חנויות מהירות ללוחות BI/הפעלה ומקורות למודלים.
- בקרת איכות ברמת פלטפורמה, שושלת, ובטיחות.
2) אפשרויות ארכיטקטוניות
2. 1 DWH קלאסי
ETL # DWH = BI.
מודלים ניתנים לניהול, עקביות חזקה.
חסרונות: הורדות יקרות, הילוך אחורי מורכב, גמישות מוגבלת.
2. 2 Lakehouse DWH
ברונזה/כסף/זהב בטבלאות ACID (דלתא/קרחון/האדי) + מנוע SQL/MPP.
מקצוענים: אחסון מאוחד, מסע בזמן, עיבוד חוזר פשוט.
חסרונות: דורש משמעת של שכבות ודי-קיו, תזמור בוגר.
2. 3 היברידי
Lakehouse כמקור האמת (ברונזה/כסף), DWH-March (ClickHouse/Pinot/Druid/Cloud DWH) לקריאה במהירות גבוהה.
יתרונות: איזון עלות וביצועים, חנויות גמישות.
חסרונות: תמיכה כפולה למעגלים והחלקה, יש צורך בסנכרון.
המלצה: עבור iGaming - Lakehouse + DWH-March (היברידי). ברונזה/כסף - סטנדרטי, זהב/זמן אמת מרט - מגישים המון קריאה.
3) דוגמנות נתונים
3. כוכב 1 ופתית שלג
טבלאות עובדות: צר, מונע אירוע: ”עובדה _ הימורים”, ”עובדה _ תשלום”, ”עובדה _ תשלומים”.
ממדים: "dim _ users" (SCD), "dim _ games", "dim _ spectures", "dim _ markets'.
פתית שלג מתאים בכסף (נורמליזציה), כוכב - בזהב (קריאה).
3. 2 כספת נתונים 2. 0 (ליבת אינטגרציה)
Hubs (מפתחות עסקיים), קישורים (יחסים), לוויינים (הקשר/היסטוריה).
החל בכסף עבור אינטגרציית ספקים/PSP ארוכת חיים.
3. 3 SCD I/II/III
SCD II עבור RG/KYC/ערוצים ותכונות משחק (RTP/תנודתיות).
מרווחים קפדניים 'תקפים _ מ/תקפים _ to', מצטרפים נכון בזמן.
4) טעינה: ETL/ELT, CDC וריבוי
גישת ELT: טעינה ב Silver # transformation ב DWH.
CDC: Dabezium/log שכפול מ OLTP; מרזי הם אידיאמפוטנטים.
עליות: לפי זמן המים ('עדכון _ at> max_loaded_ts') ו/או החשיש דלתא.
הילוך אחורי/עיבוד מחדש: מסע בזמן, רכסים, מכסות, השוואות לרוץ על יבש.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) שכבה סמנטית ומדדים
Metrics Store/Semantic Layer: נוסחאות אחידות GGR/NGR/Conversion/LTV.
ורסינינג מדדים וחישוב ”as של” עבור רבייה.
מוסכמות הן שמות מטריים, יחידות, מטבע (בסיס EUR) ו-fx _ source.
6) חנויות ושירות
תצוגות זהב: מוכחש, SLA מוכן (לדוגמה, עד 06:00 לנעול). .
מארט תפעולי: ClickHouse/Pinot/Druid עבור 1-5 דקות פנלים.
ייצוא: CSV/JSON/PDF + חשיש; חבילות בלתי ניתנות לשינוי עבור רגולטורים.
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) איכות נתונים (DQ) וחוזים
Schema-first: JSON/Avro registry + compatibility tests (מונע על ידי צרכן).
DQ-culture-actions: שלמות/תוקף/ייחודיות/FK/range/temporal.
מדיניות תגובה: critical lail + DLQ; מייג 'ור/מינור תג ודיווח.
תצפית DQ: רעננות/שלמות/לוחות מחוונים תקפים, משפך רשומות אבוד.
8) ביטחון, פרטיות ותושבות
מזעור PII: משתמשים באמצעות פסאודו-זיהוי; מפיות בנפרד.
RLS/CLS: LINE-by-line/post-table גישה לפי תפקיד ותחום שיפוט.
הצפנה: TLS במעבר; מנוחה - KMS/CMK עם סיבוב.
מיון נתונים: ספריות נפרדות ומפתחות עבור EEA/UK/BR; לאסור מצטרפים צולבים-אזוריים ללא סיבה.
DSAR/RTBF: תחזיות חישוביות ועריכה סלקטיבית; מעצר משפטי על דיווח חפצים.
9) ביצועים ועלות (הנדסת עלות)
מחיצה: לפי תאריך/שוק/דייר; Custering/Z-order by 'market', 'spect _ id',' game _ id', 'user _ pseudo _ id'.
פורמטים: פרקט + סטטיסטיקה ודחיסה; לייעל את ואקום בזמן.
התממשות: אגרגטים יציבים וטבלאות סיכום; הימנע ”שומן” מצטרף בזבוב.
מכסות/צ 'רג' בק: תקציבים לבקשות כבדות/הילוך חוזר; דוחות עלות/שאילתה, עלות/GB.
אחסון משובץ: חם/חם/קר; סלח להחלמה ברורה.
10) יכולת תצפית וניהול
מדדי צינור: משך, כרכים, מגשים מחדש, מפגר, סובלנות אשמה.
זמן תגובה/תחרותיות/מטמון פוגע/ערך.
שושלת: גרף ממקורות לדיווחים; ניתוח השפעה על שינויים.
SLO: Treeness Silver p95 there 15. זהב יומי - מוכן עד 06:00; תוקף ב-99. 9%; שלמות ב-99. 5%; זמינות 99. 9%.
11) ריבוי שכונות ובידוד תחום
חלוקה לפי סכימה/מסד נתונים/קטלוג לתוך דייר/שוק.
מכסות וקבוצות משאבים; מגביל ”שכנים רועשים”.
מדיניות ייצוא/יבוא בין דיירים, חוזים סטנדרטיים.
12) רישום נתונים ותיעוד
קטלוג נתונים: בעלים, SLA, סכימה, דוגמאות, כללי DQ, שושלות.
מדדים/לוחות מחוונים: כרטיסים עם נוסחאות ואחריות.
שינוי יומן: גרסאות של היגיון, נדידה, השפעה.
13) תהליכים ו ־ RACI
R (אחראי): הנדסת נתונים (מודלים כסף/זהב, DAG), פלטפורמת נתונים (אינפרה, רישום, DQ).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/משפטי/DPO, פיננסים (FX/GGR), סיכון (RG/AML), SRE (SLO/GGR).
בי-איי, מוצר, שיווק, מבצעים.
14) מימוש מפת דרכים
MVP (4-6 שבועות):1. Lakehouse Bronze/Silver (שולחנות חומצה), CDC/gurments for Professions/Gameplay.
2. תצוגות זהב ראשונות (GGR Daily, המרה), SLAs עד 06:00.
3. DQ-like-code (כללים 10-15) + רעננות/לוחות מחוונים שלמים.
4. קטלוג נתונים ושכבה סמנטית בסיסית של מדדים.
שלב 2 (שבועות 6-12):- SCD II (ראשי תיבות של SCD II); הרחבת תחום.
- מרץ מקוון (ClickHouse/Pinot) עבור לוחות בזמן אמת/כמעט בזמן אמת.
- ניתוח שושלת/השפעה, הליכי DSAR/RTBF, Regionalization (EEA/UK).
- הדמיה אוטומטית של שינויים (ריצה יבשה), שידור חוזר והשוואה של מדדים.
- Chargback/מכסות, לוחות מחוונים עלות; תרגילי ד "ר והחלמת מסע בזמן.
- דור אוטומטי של תיעוד תצוגה וכרטיסי מדדים.
15) דוגמאות של תבניות SQL
תעריפים אמיתיים (כסף, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
חיבור ל-SCD II (קבל סטטוס RG בזמן ההימור):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
שליטה מלאה בשוק:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) רשימת בדיקות לפני המכירה
[ ] סכמות וחוזים ברישום, מבחני התאמה הם ירוקים.
[ ] CDC/Extrements ו-MERGE Productions הם חסרי אונים.
[ תצוגות זהב ] יש SLA, נוסחאות מטריות קבועות.
[ כללי DQ ] פעילים (critical law + DLQ), לוחות מחוונים טריים/שלמים.
[ ] RBAC/ABAC, הצפנה, תושבות לפי אזור, יומני גישה.
[ ] Lineage/Impact מופעל; מסע בזמן/גיבוי/ד "ר בדק.
[ ] עלות תחת שליטה: מסיבות, קיבוצים, התממשות, מכסות.
17) אנטי דפוסים וסיכונים
”DWH שומן אחד ללא שכבות”: תערובת של נתונים גולמיים ומדווחים * תוהו ובוהו ותיקונים יקרים.
טעינה מחדש יומית ללא צורך: השתמש במרווחים/CDC.
זהב ללא בעלים ונוסחאות: היעדר גרסה אחת של האמת
PII בשכבות אנליטיות: לשמור על מפיות נפרדות, CLS/RLS.
אין DQ/שושלת: אין ראיות לרגולטורים/ביקורת.
עלות בלתי ניתנת לשליטה: אין חבורות/אופטימיזציות/מכסות.
18) גלוסרי (קצר)
DWH הוא מחסן נתונים לאיחוד ואנליטיקה.
אגם לייקהאוס - אגם מידע + טבלאות חומצה ומנוע SQL.
CDC - שינויים לכידה מ OLTP.
SCD - לאט לאט משתנה מדידות (I/II/III).
תצוגת זהב - מוכן לצריכה גיליון דו "ח/מצגת.
שכבה סמנטית - הגדרות אחידות של מדדים ותכונות.
19) השורה התחתונה
DWH מודרני עבור iGaming אינו ”שולחן גדול”, אלא פלטפורמה הניתנת לניהול: שכבות ברונזה/כסף/זהב, חוזים קפדניים ו-DQ, מדדים אחידים ושושלת, פרטיות ותושבות, ביצועים ויעילות. על ידי בניית היברידי Lakehouse + DWH-March, תהיה לך קבלת החלטות מהירה ומאומתת מוכנה לביקורת, קנה מידה ושווקים חדשים.