GH GambleHub

بنية تدفق البيانات

1) الغرض والمبادئ

الأهداف: تقديم بيانات صحيحة وفي الوقت المناسب ومتوافقة للتحليلات والإبلاغ ومكافحة الاحتيال والتخصيص و ML.

المبادئ:
  • البيانات كمنتج: المالكون الواضحون والعقود و SLOs والإصدار.
  • المخطط أولا: المخططات مطلوبة ؛ التطور بالقواعد.
  • الخصوصية حسب التصميم: تقليل PII، التعريف، التحكم في الوصول.
  • الملاحظة الافتراضية: الآثار والمقاييس والنسب وملامح الجودة.
  • مدركًا للتكلفة: التخزين المتدرج، وأخذ عينات من الأحداث الصاخبة، والضغط.

2) المصدر ومناظر الأحداث

المعاملات: الودائع/عمليات السحب، الرهانات/المدفوعات، المكافآت، استرداد التكاليف.
المستخدم: الجلسات والنقرات والتحويلات وحدود RG وحالات KYC.
التشغيل: سجلات التطبيقات، مقاييس الأداء، التنبيهات.
مقدمو الخدمات: PSP/KYC/استوديوهات العقوبات/الألعاب (المجمعون).
المرجع: كتالوجات الألعاب، أدلة البلد/العملة، التعريفات/الضرائب.

طباعة الحدث (مثال):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) الهيكل المرجعي الرفيع المستوى

1. طبقة داخلية

البوابات (HTTP/gRPC)، موصلات CDC (من OLTP)، قوائم الانتظار/الحافلات (كافكا/ريدباندا)، جامعي القياس عن بعد.
التحقق، التطبيع، إصدار PII عند الإدخال، إنفاذ العقد.

2. طبقة البث

ضربات التيار (Flink/Spark Structured Streaming/Beam) مع التفريغ والعلامة المائية والتجمعات الفخمة.
الاستعداد للتخزين والخدمات عبر الإنترنت (fichestore، مكافحة الاحتيال).

3. طبقة الدفعة

التنسيق (Airflow/Dagster)، التنزيلات المتزايدة، الاختبارات الخلفية والمعالجات التراجعية، أنواع SCD.

4. التخزين (البحيرة)

برونزية: أحداث خام (ملحقة فقط، غير قابلة للتغيير).
الفضة: طاولات نظيفة ومطابقة مع الجودة والتفريغ.
الذهب: معارض/ماركت لحالات محددة (BI/regulator/ML).
تنسيقات الجدول مع ACID (دلتا/Iceberg/Hudi)، طبقات ساخنة/دافئة/باردة.

5. الخدمة والوصول

BI/SQL (Trino/Presto/DuckDB)، طبقة دلالية (طبقة مقاييس)، API/GraphQL، متجر ميزات للاتساق عبر الإنترنت/غير متصل.

6. الإدارة والسلامة

دليل/خط، قواعد DQ، محرك الوصول السياسي (RBAC/ABAC)، إخفاء/توكينيز، أرشيف WORM للتقارير.

4) العقود والمخططات

عقود البيانات: OpenAPI/AsyncAPI/JSON Schema/Avro.
التطور: الإصدارات الدلالية ؛ التغييرات المتوافقة مع الماضي - إضافة مجالات غير قابلة للإلغاء ؛ كسر - فقط مع '/v2 'والدخول المزدوج لفترة الهجرة.
السجلات: سجل المخطط، دليل النطاق (المدفوعات، طريقة اللعب، التسويق).

5) أنماط التكامل

CDC (Change Data Capture): من OLTP إلى الحافلة (Debezium)، تقسيم مفاتيح المجال.
Outbox/Inbox: التسليم المضمون لأحداث منطق النطاق.
بالضبط مرة واحدة/بشكل فعال مرة واحدة: المعاملات في الدولة، الحوض الخفي، مفاتيح التفريغ.
البيانات المتأخرة والعلامات المائية: التعامل مع الأحداث المتأخرة ؛ النوافذ مع التأخير المسموح به.
إعادة المعالجة: خطوط الأنابيب الخفية، السفر عبر الزمن، إصلاحات اللقطات.

6) نموذج البحيرة: برونزية/فضية/ذهبية

البرونز (خام):
  • أطراف الوقت (event_date) والسوق (الولاية القضائية).
  • إضافة فقط ؛ تخزين الحمولة الأصلية للطب الشرعي.
الفضة (نظيفة):
  • أنواع طبيعية، كتب مرجعية، تفريغ بواسطة «(event_id، event_time)».
  • التحقق من المعارف الكورية، وتوحيد العملات/المنطقة الزمنية، والإثراء.
الذهب (خدمة):
  • عروض غير طبيعية (GGR، تسجيل RG، LTV، جداول المجموعات).
  • وجيش تحرير السودان للتحديث، ومجموعات المعلومات المتعلقة بالثقافة والإبلاغ.

7) جودة البيانات

القواعد: التحقق من صحة الدائرة، والنطاقات، والتفرد، والاكتمال، والسلامة المرجعية.
التنميط: التوزيع، الكاردينالية، «انجراف» العلامات.
المراقبة: p50/p95 تأخير خط الأنابيب، معدل الانخفاض، ميزانية الخطأ.
سياسة التدهور: استرداد تلقائي (آخر لقطة)، تنبيهات واختبارات t للمقاييس.

مثال على عقد DQ (YAML):
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) الخصوصية والامتثال

تقليل PII والإخفاء: تخزين معرف زائف، خرائط بحث منفصلة.
Regionalisation: geo-local bulets/catalogs (EEA/UK/BR), «data residency».
العمليات القانونية: DSAR/RTBF (إسقاطات قابلة للحساب وتعديلات انتقائية)، Legal Hold، محفوظات التقارير غير القابلة للتغيير.
تسجيل الوصول: يقرأ التدقيق الجداول «الحساسة» وزجاج الكسر والوصول إلى JIT.

9) إمكانية الرصد والإدارة

تتبع Linege-تلقائيًا التبعيات من المصدر إلى واجهة المتجر.
مقاييس خط الأنابيب: الإنتاجية، التأخر، معدل الفشل، التكلفة/جيجابايت، التكلفة/الاستعلام.
Trace (OTel): يتم إلقاء «trace _ id» من التطبيقات في الأحداث → نبني مسار طلب من طرف إلى طرف.
التنبيهات: ميزانيات SLO، شذوذ النضارة/الحجم/الكاردينالية.

10) نموذج الوصول والأمن

فئات البيانات: العامة/الداخلية/السرية/المقيدة.
السياسات: الأمن على مستوى الصف/العمود ؛ (PAN/IBAN/email).
الإدارة الرئيسية: KMS/CMK، التشفير أثناء الاستراحة/العبور، التناوب.
الفصل بين الواجبات: أدوار منفصلة لـ prod/analyst/admin/reviewer.

11) شبكة البيانات ونهج المنتج

Домены: المدفوعات، طريقة اللعب، التسويق، المخاطر، الامتثال.
منتج البيانات: المالك، النضارة SLA، القاموس الميداني، الاختبارات، الإصدارات، مقياس الاستهلاك.
العقود بين المجالات: اختبارات مدروسة ومتوافقة مع الخلف يحركها المستهلك.

12) تيارات Fichestor و ML

سجل الميزات: وصف الميزات، المصادر، التحويلات، SLO.
الاتساق عبر الإنترنت/خارج الإنترنت: رمز تحويل واحد، تأخير تجسيد عبر الإنترنت ≤ 200-500 مللي ثانية.
مراقبة الانجراف: PSI/KS، التنبيهات التلقائية وردود الطرازات، التحكم في PII.
Journal of experiments: metadata, versions, reproducibility, model maps.

13) عارضة الأزياء وتحسين التكلفة

التقسيم والترتيب Z/المجموعة حسب المحددات المتكررة.
التخزين البارد و TTL للجداول غير المستخدمة، المكنسة الكهربائية.
وجهات نظر ملموسة فقط لأنماط الاستفسار المستقرة.
الحصص والميزانيات للأعمال الشاقة ؛ رد المسؤولية من قبل الفريق.

14) الطوبولوجيا الإقليمية والمتعددة المستأجرين

نشط متعدد المناطق: تكرار المواضيع والجداول، محيط خط الأنابيب المستقل.
Failover/DR: أهداف RPO/RTO، لقطات البيانات الوصفية المنسقة، فحص الاسترداد.
تعدد الحيازات: دليل/مفتاح/عزل الحصص، علامات tenant_id.

15) العمليات و RACI (باختصار)

R: Data Platform (inester, storage, orchestration), Data Engineering (Transformation).
ألف: رئيس قسم البيانات/كبير موظفي البيانات.
C: Compliance/Legal/DPO, Architecture, SRE.
الأول: BI/Analytics، المنتج، التسويق، التمويل.

16) SLO/SLI للتدفقات

النضارة: p95 تأخير الفضة ≤ 15 دقيقة، الذهب (يوميًا) جاهز ≤ 06:00 قفل. الوقت.
الاكتمال: ≥ 99. 5٪ من الأحداث لكل نافذة T.
الصلاحية: معدل خطأ شيكات DQ <0. 5٪ من الحجم.
توافر الخدمة: ≥ 99. 9٪ لـ BI/Feature API.

17) الجدول ونماذج التقسيم

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) التنسيق و DevX

Infra-as-Code: مستودعات خطوط الأنابيب، الاختبارات، المراجعات، GitOps.
CI عقود البيانات: بطانات الدائرة، اختبارات DQ قبل النشر.
إطار الردم الخلفي: عمليات قديمة آمنة مع قيود البحث والتطوير والتطوير.
الكتالوجات والقوالب: مولدات قطع ملفات تعريف الارتباط، أفضل الممارسات.

19) خارطة طريق التنفيذ

أفضل لاعب (4-6 أسابيع):

1. Event bus + inst من 2-3 مصادر رئيسية (OLTP CDC، بوابة API).

2. Lakehouse Bronze/Silver, ACID format, catalog and basic DQ rules.

3. 1-2 علبة ذهبية (GGR يوميًا وقمع التحويل).

4. مقاييس التأخر/الاكتمال، النسب الأساسي، RBAC، وإخفاء PII.

المرحلة 2 (6-12 أسبوعاً):
  • وحدات البث (زمن الوصول p95 ≤ 5 دقائق)، متجر الميزات، معارض RG/AML.
  • طبقة دلالية من المقاييس، جيش تحرير السودان للإبلاغ ؛ لوحات قياس التكاليف.
  • Regionalisation (EEA/UK), DSAR/RTBF procedures, Legal Hold for articles.
المرحلة 3 (12 + أسبوعًا):
  • شبكة البيانات: مجالات المنتجات، العقود التي يحركها المستهلك.
  • عمليات ML مع مراقبة الانجراف، التفاوض التلقائي عبر الإنترنت/غير المتصل بالإنترنت.
  • المحاكاة التلقائية لتغيرات المخطط (تحليل الأثر) و «ماذا لو» حسب التكلفة.

20) الأخطاء المتكررة وكيفية تجنبها

الحمولات الخام بدون مخططات: تنفيذ المخطط أولاً، والتسجيل والتحقق من صحة CI.
لا تفريغ - مفاتيح الحدث والمزامنة الخفية بالفضة.
امزج PII مع التحليلات - خرائط منفصلة وحقول أقنعة.
الذهب بدون مالك: تعيين المالك، SLO ومقاييس الاستهلاك.
لا توجد استراتيجية لإعادة المعالجة: السفر عبر الزمن، إصدار المنطق، التحكم في «العد المزدوج».
قيمة لا يمكن التحكم فيها: دفعات، ضغط، TTL، إمكانية ملاحظة القيمة.

21) مسرد (موجز)

مركز السيطرة على الأمراض - التقاط التغييرات من OLTP.
Outbox - ننشر أحداث المجال بالمعاملات.
علامة مائية - تقييم اكتمال التدفق للنوافذ.
Lakehouse - بحيرة البيانات + جداول ACID.
Data Product - product unit of data with owner and SLO.
متجر الميزات - توزيع متسق لميزات ML.

22) خلاصة القول

هيكل تدفق البيانات هو نظام ترتيبات يمكن التحكم فيه: عقود واضحة وقابلية للمراقبة والأمن والتكلفة تحت السيطرة. باتباع الأنماط الموصوفة (المخطط أولاً، البرونز/الفضة/الذهب، CDC + Outbox، DQ والنسب، الخصوصية حسب التصميم)، تزود المنصة الأعمال والامتثال و ML بشكل موثوق ببيانات الجودة مع SLOs التي يمكن التنبؤ بها والتكلفة المفهومة للملكية.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.