GH GambleHub

إثراء البيانات

1) الغرض والقيمة التجارية

يحول الإثراء الأحداث «الخام» إلى حقائق مفيدة بإضافة السياق والعلامات:
  • التمويل/الإبلاغ: تطبيع المبالغ، إلزام الأسواق/معدلات الضرائب، حساب GGR/NGR.
  • الامتثال/مكافحة غسل الأموال/النمو الحقيقي: درجات المخاطر، والعقوبات/علامات PEP، وحدود النمو الحقيقي، والخصائص السلوكية.
  • التسويق/المنتج: مصادر حركة المرور، والقطاعات، والمهام/المهام، والتخصيص.
  • SRE/العمليات: geo/ASN لحركة المرور، نوع العميل/الجهاز، أعلام وإطلاقات الميزات.

والنتيجة الرئيسية هي تحسين دقة النماذج ونوعية التقارير وسرعة اتخاذ القرارات.


2) مصادر التخصيب (كتالوج مثال)

المراجع/الكتالوجات: الألعاب، مقدمو الخدمات، الأسواق/الولايات القضائية، العملات، الجداول الضريبية، تقويم العطلات.
KYC/KYB/RG: مستويات التحقق، والحالات، والاستبعاد الذاتي، والحدود، والفئات العمرية.
AML/الجزاءات/PEP: عمليات الفرز والقوائم ومستويات المخاطر.
الشبكات والأجهزة: IP→geo/ASN، الجهاز/نظام التشغيل/المتصفح، بصمة الجهاز.
مزودو الدفع (PSP): جداول BIN وطرقه و MCC وعلامات المخاطر.
العملة الأجنبية/الوقت: أسعار الصرف في تاريخ الحدث، والمناطق الزمنية المحلية/التوقيت الصيفي.
المحتوى والتسويق: المصادر/الحملات/UTM، الشركات المنتسبة، القطاعات.
النماذج والاستدلال: التسجيل المسبق التدريب، والتضمين، ورسم الخرائط القاطعة.


3) أنواع الإثراء

Lookup-joint: point mapping by key (game_id, BIN, ip_range, user_pseudo_id).
تعلق الأبعاد: ربط الأبعاد (قاتمة) بالحقائق.
الحقول المشتقة: أعمدة محسوبة (amount_base، local_time، tax_rate).
التجميعات/السرعة: عدادات النوافذ (معدلات N/دقيقة، كمية الرواسب/الساعة).
ميزات المخاطر/السلوك: «الوقت منذ الحدث الأخير»، مشاركة المحفظة، النشاط الليلي.
Geo/ASN/Device: رمز البلد، المنطقة، المشغل، نوع الجهاز/المتصفح.
رسم الخرائط الدلالية: تصنيف المزود/اللعبة، مجموعات اللاعبين.

ميزات ML للنمذجة عبر الإنترنت/خارج الإنترنت (متجر الميزات)


4) مكان الإثراء: Batch vs Stream

التيار (في الوقت الحقيقي): مضاد للرود، مشغلات RG، تنبيهات SRE - p95 تأخير ≤ 2-5 ثانية ؛ البحث عن المخابئ (Redis/Scylla)، الطلبات غير المتزامنة لمقدمي الخدمة مع المهلات.
الدفعة (دفعة صغيرة/يومية): العروض الذهبية (GGR/RG/AML)، والتسويات، والتقارير - الاستقرار والاكتمال أكثر أهمية من زمن الكمون.
الهجين: ميزة سريعة عبر الإنترنت + إعادة التخصيب ليلاً (التسوية/الدقة).


5) المرجع المعماري

1. برونزية - أحداث خام (ملحقة فقط).
2. الفضة (نظيفة/مطابقة) - التطبيع، المفاتيح، البحث الأولي 'و (fx، geo، dim.).
3. طبقة التخصيب - الخصائص الممتدة، مجاميع النوافذ، ملصقات المخاطر.
4. متجر الميزات - سجل مميز (اتساق عبر الإنترنت/غير متصل بالإنترنت).
5. الذهب - معارض للتكنولوجيا/التنظيم/النماذج ؛ القطع الأثرية الثابتة.
6. الخدمات - API/GraphQL، الصادرات المبلغ عنها، التنبيهات في الوقت الفعلي.

المكونات: Kafka/Redpanda، Flink/Spark/Beam، Redis/Scylla (lookup)، ClickHouse/Pinot (قراءة حية)، Lakehouse (Delta/Iceberg/Hudi).


6) العقود والمخططات

Schema-first: 'event _ time', 'schema _ version', stable keys (user_pseudo_id, game_id, transaction_id).
علامات الإثراء: الإثراء. '،' الإثراء. ',' fx _ source ',' geo _ source ',' model _ version '.
الإصدار: تضاف ميزات جديدة باعتبارها غير قابلة للإلغاء ؛ كسر التغييرات - من خلال '/v2 'والدخول المزدوج.


7) أمثلة الإثراء (SQL/pseudocode)

7. 1 تطبيع FX والتوقيت المحلي

sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate   AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;

7. 2 Geo/ASN by IP (pseudocode)

python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"

7. 3 علامات نافذة لسرعة الإيداع (تيار)

sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

7. 4 التفاعل مع حدود RG

sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);

8) جودة الإثراء (DQ)

القواعد الدنيا:
  • FX: 'fx _ rate _ used' NULL, 'fx _ source' from whitelist, consulted 'munition _ base ≥ 0'.
  • Geo/ASN: حصة عمليات البحث الناجحة ≥ 98٪ (حسب السوق)، «البلد» في الدليل.
  • علامات RG/AML: 'صالحة _ من/صالحة _ إلى' (SCD II) لا تتقاطع ؛ عدم وجود «ثغرات» في التاريخ.
  • الركام/النوافذ: صحة النوافذ (بدون عد مزدوج)، والاكتمال ≥ 99. 5%.
  • الإصدارات النموذجية: 'model _ version' present, feature drift control.
مثال على قواعد YAML:
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major

9) الخصوصية والامتثال

تقليل PII: إثراء بواسطة معرف زائف، معرفات حقيقية - في حلقة منفصلة.
التوطين الجغرافي والإقامة: التوجيه حسب المنطقة (EEA/UK/BR)، مفاتيح تشفير منفصلة.
DSAR/RTBF: يجب أن تدعم الإسقاطات المثرية «الإخفاء «/التنقيح ؛ الاحتفاظ بالأساس القانوني للاستثناءات.
تعليق قانوني: تجميد الحذف من القطع الأثرية/القضايا التي يمكن الإبلاغ عنها.


10) إمكانية الرصد والنسب

الربط: من الأحداث الخام → البحث/المجاميع → العروض/النماذج ؛ إصدارات المصدر الثابتة ('fx _ source', 'geo _ source', 'bin _ source').
SLI/SLO: النضارة p95 (الفضة) ≤ 15 мин ؛ المراقبة الجغرافية الناجحة ≥ 98 في المائة ؛ نسبة السجلات ذات الخصائص الرئيسية المكتملة ≥ 99٪ وقت الانتهاء تثري التيار p95 ≤ 2-5 s.
لوحات القيادة: اكتمال الخريطة الحرارية حسب المصادر، خريطة إصدارات الكتب/النماذج المرجعية، مراقبة الوصلات «باهظة الثمن»، انجراف العلامات.


11) التكلفة والأداء

المخابئ/التجسيد: البحث المتكرر 'وفي ريديس/سيلا ؛ لقطات دورية.
العلامات المدمجة: مجاميع المخزونات (وليس القوائم «الخام») ؛ استخدم صيغ الباركيه/العمود.
التقسيم: حسب التاريخ/السوق/المستأجر ؛ التجميع بواسطة الحقول المفلترة بشكل متكرر.
التردد التكيفي: وظائف الإثراء الثقيلة - في الليل ؛ الوقت الحقيقي - حرج فقط.
رد التكاليف: التكلفة/الاستعلام ومحاسبة التكلفة/GB حسب الفريق/الميزة.


12) الأنماط والأنماط المضادة

الأنماط:
  • Dimension Lookup + SCD II for RG/KYC/providers.
  • Async الإثراء مع المهلة والاحتياطي (تسمية «غير معروفة» + تكرار).
  • ميزة المتجر مع اختبارات التفاوض والتكرار عبر الإنترنت/غير متصل بالإنترنت.
  • قاعدة كمدونة للإثراء (عتبة/خرائط قاطعة).
الأنماط المضادة:
  • ربط صارم بواجهات برمجة التطبيقات الخارجية في مسار ساخن بدون مخبأ.
  • إصدارات المصدر غير المسماة ('fx _ source', 'geo _ source').
  • نزع الطابع «مع كل شيء» في الفضة (انفجارات التكلفة/التعقيد).
  • إدخال PII في طبقات تحليلية.

13) العمليات و RACI

R (مسؤول): هندسة البيانات (إثراء/تدفق خطوط الأنابيب)، مالكو النطاق (دلالات الميزات)، MLOps (متجر الميزات).
ألف (مسؤول): رئيس قسم البيانات/كبير موظفي البيانات.
جيم (استشاري): الامتثال/القانون/إدارة الشؤون السياسية، المالية (FX/налоги)، المخاطر (RG/AML)، SRE.
I (مطلع): BI/Product/Marketing/Operations.


14) خارطة طريق التنفيذ

أفضل لاعب (2-4 أسابيع):

1. فهرس مصادر التخصيب (fx, geo, markets, RG/KYC).

2. تطبيع الفضة + البحث الأساسي 'و (fx/geo/dim.) .

3. المجاميع الأولى هي السرعة (الرواسب/الأسعار) والإثراء. v1 الجداول.

4. اكتمال لوحة القيادة/نضارتها، إصدارات المصدر.

المرحلة 2 (4-8 أسابيع):
  • ربط الجزاءات/PEP/BCL، جداول PSP BIN، بصمة الجهاز.
  • متجر الميزات (الميزات الأساسية) + ذاكرة التخزين المؤقت عبر الإنترنت، إثراء الوقت الحقيقي Flink.
  • قواعد DQ لطبقة الإثراء والنسب والمحاكاة الجافة.
المرحلة 3 (8-12 أسبوعًا):
  • إضفاء الطابع الشخصي (المهام/المهام) وكاشفات RG/AML عبر الإنترنت.
  • إدارة القيمة (الحصص، التجسيد، الترتيب Z)، متعدد المناطق.
  • التوليد التلقائي للميزات والوثائق الكتالوجية.

15) قائمة مراجعة الجودة قبل البيع

  • المفاتيح والمخططات المتسقة، نسخ المصدر الموقعة.
  • قواعد DQ بشأن fx/geo/RG/الجزاءات/النوافذ ؛ التنبيهات والمنظمات غير الحكومية.
  • المخابئ/المهلات والخلفيات للمراجعة الخارجية.
  • لوحات متابعة النسب والتكلفة/الأداء.
  • DSAR/RTBF/Legal Hold procedures for heried tables.
  • توثيق الخصائص (المالك، الصيغ، SLO، الأثر).

16) الأخطاء المتكررة وكيفية تجنبها

النسخ المرجعية/النموذجية غير الموسومة: تثبت دائمًا «المصدر» و «الطراز _ الإصدار».
حساب fx «بأثر رجعي»: استخدام المعدل وقت وقوع الحدث ؛ تخزين مصدر FX.
مزج PII: توكينيز وعزل الخرائط.
العد المزدوج في الوحدات: فحص النوافذ والتخلص.
مكالمات خارجية متزامنة بدون ذاكرة تخزين مؤقت: أدخل async + cache/retrai.
لا توجد إمكانية تكرار للميزات: رمز تحويل واحد عبر الإنترنت/غير متصل بالإنترنت، واختبارات الامتثال.


17) مسرد (موجز)

Lookup/Dimension take - أرفق الكتاب المرجعي بالحقيقة حسب المفتاح.
متجر الميزات - سجل الخصائص وتقديم ML.
SCD II - تأريخ القياس مع فترات صلاحية.
FX - أسعار الصرف وتطبيع المبالغ.
ASN - نظام الشبكة المستقل ؛ مفيدة لمكافحة الغش والتحليلات الجغرافية.


18) خلاصة القول

الإثراء هو الانضباط لتحويل الأحداث إلى معرفة: المفاتيح والمخططات المتسقة، والبحث والتجمعات الخاضعة للرقابة، والمصادر المتحققة، والخصوصية الافتراضية، و DQ وإمكانية الملاحظة. من خلال اتباع الأنماط الموصوفة، ستتلقى عروضًا وعلامات قابلة للتكرار واقتصادية ومتوافقة وجاهزة للإبلاغ والتخصيص وأجهزة كشف المخاطر في الوقت الفعلي.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.