העשרת נתונים
1) תכלית וערך עסקי
העשרה הופכת אירועים ”גולמיים” לעובדות מועילות על ידי הוספת הקשר וסימנים:- פיננסים/דיווח: fx-נורמליזציה של סכומים, מחייב לשווקים/שיעורי מס, חישוב GGR/NGR.
- ציות/AML/RG: ציוני סיכון, סנקציות/תגי PEP, מגבלות RG, מאפיינים התנהגותיים.
- שיווק/מוצר: מקורות תנועה, מקטעים, משימות/מסעות, התאמה אישית.
- SRE/Operations: Geo/ASN עבור תנועה, סוג לקוח/התקן, תצוגת דגלים ושחרורים.
התוצאה המרכזית היא דיוק משופר של מודלים, איכות הדיווחים ומהירות קבלת ההחלטות.
2) מקורות העשרה (קטלוג לדוגמה)
התייחסות/קטלוגים: משחקים, ספקים, שווקים/תחומי שיפוט, מטבעות, טבלאות מס, לוח שנה לחג.
KYC/KYB/RG: רמות אימות, סטטוסים, בלעדיות עצמית, גבולות, קבוצות גיל.
להיטי סינון, רשימות, רמות סיכון.
רשתות ומכשירים: IP geo/ASN, התקן/OS/דפדפן, טביעת אצבע התקן.
ספקי תשלומים (PSP): טבלאות סל, שיטות, MCC, תגי סיכון.
FX/time: שערי חליפין בתאריך האירוע, אזורי זמן מקומיים/DST.
תוכן ושיווק: מקורות/קמפיינים/UTM, משתייכים, מקטעים.
מודלים והיוריסטיקה: ניקוד מיומן מראש, הטבעה, מיפוי קטגורי.
3) סוגי העשרה
מפרק תצפית: מיפוי נקודה אחר מפתח (game_id, BIN, ip_range, user_pseudo_id).
מצורף מימד: חיבור ממדים (עמומים) לעובדות.
שדות נגזרים: עמודות ממוחשבות (amount_base, local_time, tax_rate).
אגרגציות/מהירות: דלפקים לחלונות (N rates/min, כמות ההפקדות/שעה).
סיכונים/מאפיינים התנהגותיים: ”זמן מאז האירוע האחרון”, שיתוף ארנק, פעילות לילית.
Geo/ASN/התקן: קוד מדינה, אזור, מפעיל, סוג התקן/דפדפן.
מפות סמנטיות: סיווג ספקים/משחק, אשכולות שחקנים.
מאפייני ML למודל מקוון/Offline (חנות תכונה)
4) היכן להעשיר: אצווה נגד זרם
זרם (בזמן אמת): אנטי-פראוד, RG טריגרים, התראות SRE - p95 עיכובים בלימה 2-5 S; צפייה אל המטמונים (רדיס/סילה), בקשות אסינכרוניות לספקים עם פסקי זמן.
Batch (מיקרו-אצווה/יומי): תצוגות זהב (GGR/RG/AML), פיוס, דיווחים - יציבות ושלמות חשובים יותר מאשר איחור.
היברידי: תכונה מקוונת מהירה + העשרה מחדש בלילות (פיוס/דיוק).
5) התייחסות ארכיטקטונית
1. ברונזה - אירועים גולמיים (אפנד בלבד).
2. כסף (clean/conform) - נורמליזציה, מפתחות, תצפית ראשית "ו (fx, geo, dim.).
3. שכבת העשרה - מאפיינים מורחבים, צירופי חלונות, תוויות סיכון.
4. חנות תכונה - רישום אופייני (עקביות מקוונת/לא מקוונת).
5. זהב - תצוגות למודלים BI/רגולטור/BI; חפצים בלתי ניתנים לשינוי.
6. שירותים - API/GraphQL, דיווח על יצוא, התראות בזמן אמת.
רכיבים: Kafka/Redpanda, Flink/Spark/Beam, Redis/Sylla (תצפית), ClickHouse/Pinot (קריאה חיה), Lakehouse (דלתא/קרחון/האדי).
6) חוזים ותכניות
schema-first: ”event _ time”, ”schema _ version”, estable keys (user_pseudo_id, game_id, transaction_id).
סימני העשרה: העשרה. גרסה ”, העשרה”. מקורות ”, fx _ source”, ”geo _ source”, ”model _ version”.
ורסיונינג: מאפיינים חדשים מתווספים כחסרי ערך; שבירת שינויים - דרך '/v2 'וכניסה כפולה.
7) דוגמאות להעשרה (SQL/Pseudocode)
7. נורמליזציה 1 FX וזמן מקומי
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 גיאו/ASN על ידי IP (פסאודוקודה)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 סימני חלון של מהירות הפקדה (זרם)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 ממשק עם גבולות RG
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) איכות העשרה (DQ)
כללים מינימליים:- FX: ”fx _ rate _ used” not NULL, ”fx _ source” מ-whitelist, מחושב ”כמות _ base 0”.
- GEO/ASN: הנתח של lookups 98% (על ידי שוק), ”קאנטרי” בספרייה.
- תגיות RG/AML: ”תקפים _ מ/תקפים _ to” (SCD II) אינם מצטלבים; היעדר ”חורים” בהיסטוריה.
- אגרגטים/חלונות: תקינות של חלונות (ללא ספירה כפולה), שלמות - 99. 5%.
- גרסאות מודל: ”model _ version” בהווה, prograft drift control.
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) פרטיות וציות
מזעור PII: להעשיר על ידי פסאודו-זיהוי, זהויות אמיתיות בלולאה נפרדת.
גיאו-לוקליזציה ותושבות: ניתוב לפי אזור (EEA/UK/BR), מפתחות הצפנה נפרדים.
DSAR/RTBF: תחזיות מועשרות חייבות לתמוך ב ”הסתרה ”/redaction; לשמור על בסיס חוקי לחריגים.
החזק משפטי: להקפיא מחיקות עבור חפצים/תיקים דוחות.
10) יכולת תצפית ושושלת
Linage: מאירוע גולמי * lookup/aggregates * הצגה/מודלים; תקן גרסאות מקור (”fx _ source”, ”geo _ source”, ”bin _ source”).
SLI/SLO: רעננות p95 (כסף) 15 Geo-lookups מוצלח 98%; הפרופורציה של רשומות עם מאפייני מפתח הושלמו latency 99% latency stream p95 light 2-5 s.
לוחות מחוונים: מפת חום מושלמת על ידי מקורות, מפה של גרסאות של ספרי עיון/מודלים, צג של ”יקר” מצטרף, סחף של סימנים.
11) עלות וביצועים
Caches/Memerialization: Lookup תדיר 'in Redis/Syllla; תמונות תקופתיות.
סימנים קומפקטיים: אחסון אגרגטים (לא רשימות ”גולמיות”); השתמש בפורמטים של פרקט/עמודה.
מחיצה: לפי תאריך/שוק/דייר; קיבוצים על ידי שדות מסוננים לעתים קרובות.
תדירות הסתגלות: כבד להעשיר-עבודות - בלילה; זמן אמיתי - קריטי בלבד.
Chargback: עלות/שאילתה ועלות/GB חשבונאות על ידי צוות/תכונה.
12) דפוסים ואנטי דפוסים
תבניות:- תצפית מממד + SCD II עבור ספקי RG/KYC.
- Async Henrichment עם פסקי זמן ונשורת לאחור (תווית ”לא ידוע” + חוזר).
- חנות תכונה עם משא ומתן מקוון/לא מקוון ומבחני חזרה.
- כלל-כקוד להעשרה (סף/מפות קטגוריות).
- קשירה קשיחה למכשירים חיצוניים בנתיב חם ללא מטמון.
- גרסאות מקור לא מתויגות (”fx _ source”, ”geo _ source”).
- הדנורמליזציה ”הכל עם הכסף” (פיצוצי עלות/מורכבות).
- הכנסת מח "ש לשכבות אנליטיות.
13) תהליכים ו ־ RACI
R (אחראי): Data Engineering (צינורות להעשיר/זרם), Domain Owers (סמנטיקה תכליתית), MLOPs (חנות תכונה).
ראש מחלקת נתונים/מידע ראשי.
C (ייעוץ): Complication/Legal/DPO, Finance (FX/essociated), Risk (RG/AML), SRE.
אני (מושכל): BI/מוצר/שיווק/מבצעים.
14) מימוש מפת דרכים
MVP (2-4 שבועות):1. קטלוג מקור העשרה (fx, geo, markets, RG/KYC).
2. Silver-normalization + basy lookup 'ו- (fx/geo/dim.) .
3. האגרגטים הראשונים הם מהירות (מרבצים/תעריפים) ומועשרים. שולחנות v1.
4. שלמות לוח מחוונים/רעננות, גרסאות מקור.
שלב 2 (שבועות 4-8):- חיבור של סנקציות/PEP/BCL, שולחנות סל PSP, טביעת אצבע התקן.
- חנות תכונה (מאפייני ליבה) + מטמון מקוון, פלינק העשרה בזמן אמת.
- כללי DQ להעשרת שכבה, שושלת וסימולציות יבש לרוץ.
- התאמה אישית (משימות/משימות) וגלאי RG/AML ברשת.
- ניהול ערך (מכסות, התממשות, סדר Z), רב-אזור.
- דור אוטומטי של תיעוד תכונה וקטלוג.
15) רשימת איכות לפני המכירה
[ ] מפתחות עקביים ותרשימים, גרסאות מקור חתומות.
[ ] כללי DQ על fx/geo/RG/סנקציות/חלונות; התראות ותראות.
[ ] מטמונים/פסקי זמן ונשורת לחיפושים חיצוניים.
[ ] לינאז 'ולוחות מחוונים עלויות/ביצועים.
[ ] DSAR/RTBF/Legal Hold עבור שולחנות מועשרים.
[ ] תיעוד מאפיינים (בעלים, נוסחאות, SLO, השפעה).
16) טעויות תכופות וכיצד להימנע מהן
התייחסות/גרסאות מודל לא מתויגות: תמיד תקן את ”_ source” ו ”model _ version”.
חישוב fx ”רטרואקטיבית”: השתמש בקצב בזמן האירוע; לאחסן את המקור FX.
מיזוג מח "ש: Tokenize ולבודד מפיות.
ספירה כפולה ביחידות: בדוק חלונות ודידאפ.
שיחות חיצוניות סינכרוניות ללא מטמון: הזן async + מטמון/רטריי.
אין יכולת חזרה של תכונות: קוד שינוי מקוון/לא מקוון יחיד, בדיקות ציות.
17) גלוסרי (קצר)
הצמד את ספר ההתייחסות לעובדה באמצעות מפתח.
חנות תכונה - מאפיינים להירשם ולשרת עבור ML.
SCD II - מדידה היסטורית עם מרווחי תוקף.
שערי חליפין ונורמליזציה של כמויות.
ASN - מערכת רשת אוטונומית; שימושי לאנטי הונאה וגיאו-אנליטיקה.
18) השורה התחתונה
העשרה היא משמעת של הפיכת אירועים לידע: מפתחות עקביים ומזימות, תצפית מבוקרת וצבירה, מקורות מבוססים, פרטיות ברירת מחדל, DQ ויכולת תצפית. על ידי מעקב אחר התבניות המתוארות, תקבלו תצוגות ראווה חסכוניות וצייתניות וסימנים מוכנים לדיווח, התאמה אישית וגלאי סיכונים בזמן אמת.