إثراء البيانات
1) الغرض والقيمة التجارية
يحول الإثراء الأحداث «الخام» إلى حقائق مفيدة بإضافة السياق والعلامات:- التمويل/الإبلاغ: تطبيع المبالغ، إلزام الأسواق/معدلات الضرائب، حساب GGR/NGR.
- الامتثال/مكافحة غسل الأموال/النمو الحقيقي: درجات المخاطر، والعقوبات/علامات PEP، وحدود النمو الحقيقي، والخصائص السلوكية.
- التسويق/المنتج: مصادر حركة المرور، والقطاعات، والمهام/المهام، والتخصيص.
- SRE/العمليات: geo/ASN لحركة المرور، نوع العميل/الجهاز، أعلام وإطلاقات الميزات.
والنتيجة الرئيسية هي تحسين دقة النماذج ونوعية التقارير وسرعة اتخاذ القرارات.
2) مصادر التخصيب (كتالوج مثال)
المراجع/الكتالوجات: الألعاب، مقدمو الخدمات، الأسواق/الولايات القضائية، العملات، الجداول الضريبية، تقويم العطلات.
KYC/KYB/RG: مستويات التحقق، والحالات، والاستبعاد الذاتي، والحدود، والفئات العمرية.
AML/الجزاءات/PEP: عمليات الفرز والقوائم ومستويات المخاطر.
الشبكات والأجهزة: IP→geo/ASN، الجهاز/نظام التشغيل/المتصفح، بصمة الجهاز.
مزودو الدفع (PSP): جداول BIN وطرقه و MCC وعلامات المخاطر.
العملة الأجنبية/الوقت: أسعار الصرف في تاريخ الحدث، والمناطق الزمنية المحلية/التوقيت الصيفي.
المحتوى والتسويق: المصادر/الحملات/UTM، الشركات المنتسبة، القطاعات.
النماذج والاستدلال: التسجيل المسبق التدريب، والتضمين، ورسم الخرائط القاطعة.
3) أنواع الإثراء
Lookup-joint: point mapping by key (game_id, BIN, ip_range, user_pseudo_id).
تعلق الأبعاد: ربط الأبعاد (قاتمة) بالحقائق.
الحقول المشتقة: أعمدة محسوبة (amount_base، local_time، tax_rate).
التجميعات/السرعة: عدادات النوافذ (معدلات N/دقيقة، كمية الرواسب/الساعة).
ميزات المخاطر/السلوك: «الوقت منذ الحدث الأخير»، مشاركة المحفظة، النشاط الليلي.
Geo/ASN/Device: رمز البلد، المنطقة، المشغل، نوع الجهاز/المتصفح.
رسم الخرائط الدلالية: تصنيف المزود/اللعبة، مجموعات اللاعبين.
ميزات ML للنمذجة عبر الإنترنت/خارج الإنترنت (متجر الميزات)
4) مكان الإثراء: Batch vs Stream
التيار (في الوقت الحقيقي): مضاد للرود، مشغلات RG، تنبيهات SRE - p95 تأخير ≤ 2-5 ثانية ؛ البحث عن المخابئ (Redis/Scylla)، الطلبات غير المتزامنة لمقدمي الخدمة مع المهلات.
الدفعة (دفعة صغيرة/يومية): العروض الذهبية (GGR/RG/AML)، والتسويات، والتقارير - الاستقرار والاكتمال أكثر أهمية من زمن الكمون.
الهجين: ميزة سريعة عبر الإنترنت + إعادة التخصيب ليلاً (التسوية/الدقة).
5) المرجع المعماري
1. برونزية - أحداث خام (ملحقة فقط).
2. الفضة (نظيفة/مطابقة) - التطبيع، المفاتيح، البحث الأولي 'و (fx، geo، dim.).
3. طبقة التخصيب - الخصائص الممتدة، مجاميع النوافذ، ملصقات المخاطر.
4. متجر الميزات - سجل مميز (اتساق عبر الإنترنت/غير متصل بالإنترنت).
5. الذهب - معارض للتكنولوجيا/التنظيم/النماذج ؛ القطع الأثرية الثابتة.
6. الخدمات - API/GraphQL، الصادرات المبلغ عنها، التنبيهات في الوقت الفعلي.
المكونات: Kafka/Redpanda، Flink/Spark/Beam، Redis/Scylla (lookup)، ClickHouse/Pinot (قراءة حية)، Lakehouse (Delta/Iceberg/Hudi).
6) العقود والمخططات
Schema-first: 'event _ time', 'schema _ version', stable keys (user_pseudo_id, game_id, transaction_id).
علامات الإثراء: الإثراء. '،' الإثراء. ',' fx _ source ',' geo _ source ',' model _ version '.
الإصدار: تضاف ميزات جديدة باعتبارها غير قابلة للإلغاء ؛ كسر التغييرات - من خلال '/v2 'والدخول المزدوج.
7) أمثلة الإثراء (SQL/pseudocode)
7. 1 تطبيع FX والتوقيت المحلي
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 Geo/ASN by IP (pseudocode)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 علامات نافذة لسرعة الإيداع (تيار)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 التفاعل مع حدود RG
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) جودة الإثراء (DQ)
القواعد الدنيا:- FX: 'fx _ rate _ used' NULL, 'fx _ source' from whitelist, consulted 'munition _ base ≥ 0'.
- Geo/ASN: حصة عمليات البحث الناجحة ≥ 98٪ (حسب السوق)، «البلد» في الدليل.
- علامات RG/AML: 'صالحة _ من/صالحة _ إلى' (SCD II) لا تتقاطع ؛ عدم وجود «ثغرات» في التاريخ.
- الركام/النوافذ: صحة النوافذ (بدون عد مزدوج)، والاكتمال ≥ 99. 5%.
- الإصدارات النموذجية: 'model _ version' present, feature drift control.
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) الخصوصية والامتثال
تقليل PII: إثراء بواسطة معرف زائف، معرفات حقيقية - في حلقة منفصلة.
التوطين الجغرافي والإقامة: التوجيه حسب المنطقة (EEA/UK/BR)، مفاتيح تشفير منفصلة.
DSAR/RTBF: يجب أن تدعم الإسقاطات المثرية «الإخفاء «/التنقيح ؛ الاحتفاظ بالأساس القانوني للاستثناءات.
تعليق قانوني: تجميد الحذف من القطع الأثرية/القضايا التي يمكن الإبلاغ عنها.
10) إمكانية الرصد والنسب
الربط: من الأحداث الخام → البحث/المجاميع → العروض/النماذج ؛ إصدارات المصدر الثابتة ('fx _ source', 'geo _ source', 'bin _ source').
SLI/SLO: النضارة p95 (الفضة) ≤ 15 мин ؛ المراقبة الجغرافية الناجحة ≥ 98 في المائة ؛ نسبة السجلات ذات الخصائص الرئيسية المكتملة ≥ 99٪ وقت الانتهاء تثري التيار p95 ≤ 2-5 s.
لوحات القيادة: اكتمال الخريطة الحرارية حسب المصادر، خريطة إصدارات الكتب/النماذج المرجعية، مراقبة الوصلات «باهظة الثمن»، انجراف العلامات.
11) التكلفة والأداء
المخابئ/التجسيد: البحث المتكرر 'وفي ريديس/سيلا ؛ لقطات دورية.
العلامات المدمجة: مجاميع المخزونات (وليس القوائم «الخام») ؛ استخدم صيغ الباركيه/العمود.
التقسيم: حسب التاريخ/السوق/المستأجر ؛ التجميع بواسطة الحقول المفلترة بشكل متكرر.
التردد التكيفي: وظائف الإثراء الثقيلة - في الليل ؛ الوقت الحقيقي - حرج فقط.
رد التكاليف: التكلفة/الاستعلام ومحاسبة التكلفة/GB حسب الفريق/الميزة.
12) الأنماط والأنماط المضادة
الأنماط:- Dimension Lookup + SCD II for RG/KYC/providers.
- Async الإثراء مع المهلة والاحتياطي (تسمية «غير معروفة» + تكرار).
- ميزة المتجر مع اختبارات التفاوض والتكرار عبر الإنترنت/غير متصل بالإنترنت.
- قاعدة كمدونة للإثراء (عتبة/خرائط قاطعة).
- ربط صارم بواجهات برمجة التطبيقات الخارجية في مسار ساخن بدون مخبأ.
- إصدارات المصدر غير المسماة ('fx _ source', 'geo _ source').
- نزع الطابع «مع كل شيء» في الفضة (انفجارات التكلفة/التعقيد).
- إدخال PII في طبقات تحليلية.
13) العمليات و RACI
R (مسؤول): هندسة البيانات (إثراء/تدفق خطوط الأنابيب)، مالكو النطاق (دلالات الميزات)، MLOps (متجر الميزات).
ألف (مسؤول): رئيس قسم البيانات/كبير موظفي البيانات.
جيم (استشاري): الامتثال/القانون/إدارة الشؤون السياسية، المالية (FX/налоги)، المخاطر (RG/AML)، SRE.
I (مطلع): BI/Product/Marketing/Operations.
14) خارطة طريق التنفيذ
أفضل لاعب (2-4 أسابيع):1. فهرس مصادر التخصيب (fx, geo, markets, RG/KYC).
2. تطبيع الفضة + البحث الأساسي 'و (fx/geo/dim.) .
3. المجاميع الأولى هي السرعة (الرواسب/الأسعار) والإثراء. v1 الجداول.
4. اكتمال لوحة القيادة/نضارتها، إصدارات المصدر.
المرحلة 2 (4-8 أسابيع):- ربط الجزاءات/PEP/BCL، جداول PSP BIN، بصمة الجهاز.
- متجر الميزات (الميزات الأساسية) + ذاكرة التخزين المؤقت عبر الإنترنت، إثراء الوقت الحقيقي Flink.
- قواعد DQ لطبقة الإثراء والنسب والمحاكاة الجافة.
- إضفاء الطابع الشخصي (المهام/المهام) وكاشفات RG/AML عبر الإنترنت.
- إدارة القيمة (الحصص، التجسيد، الترتيب Z)، متعدد المناطق.
- التوليد التلقائي للميزات والوثائق الكتالوجية.
15) قائمة مراجعة الجودة قبل البيع
- المفاتيح والمخططات المتسقة، نسخ المصدر الموقعة.
- قواعد DQ بشأن fx/geo/RG/الجزاءات/النوافذ ؛ التنبيهات والمنظمات غير الحكومية.
- المخابئ/المهلات والخلفيات للمراجعة الخارجية.
- لوحات متابعة النسب والتكلفة/الأداء.
- DSAR/RTBF/Legal Hold procedures for heried tables.
- توثيق الخصائص (المالك، الصيغ، SLO، الأثر).
16) الأخطاء المتكررة وكيفية تجنبها
النسخ المرجعية/النموذجية غير الموسومة: تثبت دائمًا «المصدر» و «الطراز _ الإصدار».
حساب fx «بأثر رجعي»: استخدام المعدل وقت وقوع الحدث ؛ تخزين مصدر FX.
مزج PII: توكينيز وعزل الخرائط.
العد المزدوج في الوحدات: فحص النوافذ والتخلص.
مكالمات خارجية متزامنة بدون ذاكرة تخزين مؤقت: أدخل async + cache/retrai.
لا توجد إمكانية تكرار للميزات: رمز تحويل واحد عبر الإنترنت/غير متصل بالإنترنت، واختبارات الامتثال.
17) مسرد (موجز)
Lookup/Dimension take - أرفق الكتاب المرجعي بالحقيقة حسب المفتاح.
متجر الميزات - سجل الخصائص وتقديم ML.
SCD II - تأريخ القياس مع فترات صلاحية.
FX - أسعار الصرف وتطبيع المبالغ.
ASN - نظام الشبكة المستقل ؛ مفيدة لمكافحة الغش والتحليلات الجغرافية.
18) خلاصة القول
الإثراء هو الانضباط لتحويل الأحداث إلى معرفة: المفاتيح والمخططات المتسقة، والبحث والتجمعات الخاضعة للرقابة، والمصادر المتحققة، والخصوصية الافتراضية، و DQ وإمكانية الملاحظة. من خلال اتباع الأنماط الموصوفة، ستتلقى عروضًا وعلامات قابلة للتكرار واقتصادية ومتوافقة وجاهزة للإبلاغ والتخصيص وأجهزة كشف المخاطر في الوقت الفعلي.