GH GambleHub

التحليلات وخطوط أنابيب ETL

(القسم: التكنولوجيا والهياكل الأساسية)

موجز موجز

يحول خط الأنابيب التحليلي الأحداث التشغيلية «الخام» لـ iGaming (الرهانات، الرواسب، خطافات الويب PSP، سجلات الألعاب) إلى عروض مترية مستقرة (GGR/NGR، LTV، الاحتفاظ، إشارات مكافحة الاحتيال). المبادئ الداعمة: نموذج الطبقة الواحدة (البرونزية/الفضية/الذهبية)، الانضباط الآلي DQ/النسب، التدرج والخصوصية، إمكانية الرصد و SLO، التحكم في التكلفة. يتم اتخاذ القرارات مع مراعاة ملف تعريف الحمل (ذروة البطولة)، والتنظيم (PII/التوطين) ومتطلبات الأعمال لنضارة البيانات.

1) الهندسة المعمارية: ETL vs ELT، دفعة مقابل دفق

استخراج → تحويل → التحميل قبل التحميل إلى DWH. مناسب حيث تتطلب التحولات بيئة/أسرار خاضعة للرقابة قبل «السحابة».
ELT (مستخرج → تحويل → الحمل): المواد الخام في بحيرة/ليكهاوس/DWH، ثم SQL/المحرك (dbt/SQL scripts). ملائمة لمحركات الأعمدة والتكرارات المرنة.
الدفعة: النوافذ المجدولة (كل 5/15/60 دقيقة، ليلاً). رخيصة ويمكن التنبؤ بها.
البث: почти في الوقت الفعلي (كافكا → فلينك/ksqlDB → OLAP). للنوافذ في الوقت الفعلي (5-60 ثانية) وإشارات مكافحة الاحتيال/إدارة علاقات العملاء.
الهجين: تمتلئ البرونز بالتيار والفضة/الذهبية - طرازات الدفعة الإضافية.

توصية: في iGaming، حافظ على تدفق ELT +: الأحداث عبر CDC/outbox → البرونزية (نضارة دقيقة)، التحولات التدريجية في الفضة/الذهب.

2) ميدالية

البرونز (الخام): الأحداث الخام/مراكز السيطرة على الأمراض والوقاية منها بدون منطق تجاري. نماذج Parquet/ORC، مخططات كما هي، الحد الأدنى من التحقق.
الفضة (مطابقة): التنظيف، التفريغ، تطبيع الهوية، بعد SCD، توحيد العملة/المنطقة الزمنية.
الذهب (Marts): القضايا التجارية (حقائق/أبعاد، مكعبات)، الآراء المجسدة، عمليات ما قبل التطبيق (أيام/بلدان/منتجات).

الإيجابيات: قابلية التكاثر، والتطور الشفاف، ومختلف SLOs و TTLs حسب الطبقة.

3) المصادر والتحميل: CDC، outbox، الملفات

CDC (Change Data Capture): يتدفق التغيير من OLTP (Postgres/MySQL) مع ترتيب مضمون وغباء.
نمط Outbox: تتم كتابة الأحداث إلى جدول/مجموعة outbox في معاملة الخدمة → ينشرها الموصل إلى الحافلة/البحيرة.
تحميل الملف: تحميل PSP، تقارير الشركاء ؛ استخدام البيانات، الشيكات، وتلقي الأدلة.

الممارسات: يتم نشر المصادر (نسخة المخطط) لكل مصدر - عقد المجالات وتوقعات الجودة.

4) التنسيق: نشر DAG، التبعيات

DAGs: التبعيات الصريحة (خام → انطلاق → dims → حقائق → مارت).
Discuse idempotency: reerun without side effects (partition-overwrite, 'MERGE '/upsert).
فصل البيئات: Dev/Stage/Prod، ترويج القطع الأثرية، «الموافقة اليدوية» على الردم الخلفي باهظ الثمن.
الجدول الزمني: نوافذ cron/time windows + محفزات الحدث (وفقًا لوصول الملفات/الأطراف).
الأسرار: من المدير السري ؛ منع الأسرار في رمز DAG.

مثال على DAG التجريدي (cseudocode):
python with DAG("dwh_daily", schedule="0  ") as dag:
bronze = ingest_cdc(source="payments", partition=hour())
silver = dedup_normalize(input=bronze)
dims  = build_dimensions(input=silver)
facts = build_facts(input=silver, dims=dims)
marts = build_marts(input=facts)
bronze >> silver >> [dims, facts] >> marts

5) جودة البيانات (DQ) والنسب

شيكات DQ: الاكتمال (العد، الوصول المتأخر)، تفرد المفاتيح، النطاقات/قواعد النطاق (المبلغ ≥ 0، العملة في الدليل).
عتبة الزناد: توقف صعب/فشل ناعم مع تنبيه اعتمادًا على أهمية الجدول.
النسب/الكتالوج: من تقرير إلى مصدر (الجداول، الأعمدة، المقاييس)، المالكون، الوثائق، تصنيف مؤشر الاستثمار الدولي.
التحكم في المخطط: اختبارات التوافق التلقائي (التخلف/التوافق الأمامي)، تنبيه لكسر التغييرات.

6) المحاكاة: SCD، المفاتيح البديلة، التطبيع

SCD2 للأبعاد هي 'صالحة _ من/صالحة _ إلى/هي _ الحالية'، ومفتاح بديل ('_ sk')، ومفتاح طبيعي ('_ id').
SCD1-Overwrites بالنسبة للسمات الصغيرة (على سبيل المثال، الواجهة المحلية).
مفاتيح بديلة: ثابتة «_ sk» للانضمام، مفاتيح طبيعية للتفرد.
تطبيع الأبعاد: ندفة الثلج حيث تكون التسلسلات الهرمية عميقة ؛ بخلاف ذلك نجمة للسرعة.

7) النماذج التدريجية والتقسيم

Watermark ('updated _ at',' infest _ ts '): اقرأ فقط الأسطر الجديدة/المتغيرة.
الاستراتيجيات التدريجية: «ادمج» بمفاتيح العمل، «أدخل OVERWRITE» بالقطع، «احذف + أدخل» للقطع الصغيرة.
التقسيم: حسب التاريخ/الساعة/المنطقة ؛ التجميع (مفاتيح الفرز/ترتيب Z) عن طريق تصفية المفاتيح وضمها.
الآراء المجسدة: GGR/NGR preagregation، مخبأ الأقسام الشعبية.
تقريبًا الوحدات: HLL/approx_distinct لعروض Top-N الرخيصة.

مثال على «الدمج» التدريجي (عام):
sql
MERGE INTO fact_deposits f
USING staging_deposits s
ON (f. deposit_id = s. deposit_id)
WHEN MATCHED THEN UPDATE SET amount = s. amount, status = s. status, updated_at = s. updated_at
WHEN NOT MATCHED THEN INSERT (...)
VALUES (...);

8) إدارة الردم وإعادة المعالجة والقصة

الردم: فرادى أفرقة العمل الحكومية ذات حدود الموارد والنوافذ ؛ «نافذة الحقيقة» واضحة (على سبيل المثال 2024-01-01.. 2025-11-05).
إعادة المعالجة: التحولات الحتمية → التشغيل المتكرر تعطي نفس النتيجة. تسجيل الإصدارات من رمز النموذج.
نسخ السفر عبر الزمن/الجدول: مناسبة للتحقيقات و «أخطاء منطقية» DR.
التراجع: سحب (حذف/إصلاح) السياسة مع قطع الأشجار.

9) نقل CLO/SLA/SLO

النضارة: برونزية ≤ 1-5 دقائق، فضية ≤ 15 دقيقة، ذهبية ≤ 60 دقيقة (مثال).
الموثوقية: DAG ≥ 99 معدل النجاح x٪.
الأداء: p95/p99 مدة العقدة ؛ ميزانية وقت الحفلة.
المراقبة المتأخرة: تأخر التيار المبتلع، عمق قائمة الانتظار، حصة «البيانات المتأخرة».
التنبيهات: انتهاك النضارة/الحجم، ملفات DQ، زيادة تكلفة المسح، تدهور MV.

10) التكلفة: التنبؤ والاستخدام الأمثل

تقلل التقسيمات والعناقيد من حجم المسح.
تجسيد العلامات الساخنة (أيام/بلدان/منتجات).
مخبأ النتائج/MVs للوحات القيادة المستخدمة بشكل متكرر.
راقب تردد إعادة التشغيل (لا «كل 5 دقائق» بدون سبب).
TTL: الاحتفاظ بالبرونز العدواني، متوسط الفضة، طويل الذهب (مجموع المباراتين فقط).
تخطيط القدرات: مقاييس الكتالوج، توقعات ذروة البطولة/الحملة.

11) السلامة و PII والتوطين

تصنيف البيانات: PII/financial/operational.
التشفير: عند الراحة والعبور ؛ KMS/الوصول القائم على الأدوار.
إلغاء الهوية: التجزئة/الإخفاء، أعمدة منفصلة بها مفاتيح.
RLS/العواصف الثلجية للإيجار المتعدد (حسب 'المستأجر _ id').
التوطين: مناطق التخزين والتجهيز حسب المنطقة (EU/TR/LATAM) ؛ التصدير فقط إلى المواقع المسموح بها.
التدقيق: يقرأ/يكتب إلى الجداول النقدية، والوصول إلى الدليل.

12) إمكانية الملاحظة: المقاييس والسجلات والمسارات

مقاييس خط الأنابيب: مدة المهمة، قائمة الانتظار، الأخطاء، إعادة التدوير، البايت/الصفوف المعالجة، التكلفة.
جذوع الأشجار: منظمة ؛ الارتباط على 'trace _ id '/' run _ id'.
التتبع: من المصدر إلى العرض (ابتلع → تحويل الحمل → → BI).
لوحات القيادة: نضارة الطبقات، نجاح DAGs، أعلى الطلبات باهظة الثمن، p95/p99.

13) الأدوات (معايير الأدوار)

التنسيق: منظمو DAG (مع جدولة، إعادة طباعة، تنبيهات، أسرار).
التحولات: نمذجة SQL («النماذج كرمز»)، اختبارات الوحدة للنماذج، التوثيق.
DQ/العقود: أطر التحقق و SLAs على مجموعات البيانات.
النسب/الكتالوج: الرسم البياني التلقائي، البحث عن المالك.
البث: معالجات النوافذ/التجميع، موصلات الحوض/المصدر.

(يتم اختيار بائعين محددين لمتطلبات المكدس والأمن للشركة.)

14) نماذج العينة

قالب GGR Showcase (Generic SQL)

sql
CREATE OR REPLACE TABLE mart_ggr_daily AS
SELECT
DATE(b. ts) AS d,
c. country_code,
SUM(b. stake) AS stake_sum,
SUM(b. win)  AS win_sum,
SUM(b. stake - b. win) AS ggr
FROM fact_bets b
JOIN dim_country c ON c. country_sk = b. country_sk AND c. is_current
WHERE b. ts >= DATE_SUB(CURRENT_DATE, INTERVAL 60 DAY)
GROUP BY d, c. country_code;

نموذج علامات مائية تدريجي

sql
INSERT INTO fact_bets PARTITION (dt)
SELECT
FROM staging_bets
WHERE updated_at > (SELECT COALESCE(MAX(watermark), '1970-01-01') FROM _meta_watermarks WHERE table='fact_bets');
-- then update watermark

شيكات DQ (فكرة)

sql
-- 1) key uniqueness
SELECT deposit_id FROM fact_deposits GROUP BY deposit_id HAVING COUNT()>1;

-- 2) negative amounts (error)
SELECT FROM fact_deposits WHERE amount < 0;

15) قائمة التنفيذ المرجعية

1. حدد قاموس المقاييس (GGR/NGR/LTV/Retention) والمالكين.
2. سجل نضارة SLO عبر الطبقات البرونزية/الفضية/الذهبية.
3. توحيد عقود المصادر (المخططات، DQ، SLA).
4. قم ببناء رسم بياني DAG بخطوات غبية وأسرار معزولة.
5. تنفيذ التدرج (MERGE/الكتابة الفوقية حسب الطرف) والعلامات المائية.
6. تشمل DQ (الفحوصات الحرجة/اللينة) والنسب ودليل البيانات.
7. إعداد إمكانية الرصد (المقاييس والسجلات والمسارات) والتنبيهات.
8. أدخل سياسة الاحتفاظ/TTL والردم/إعادة المعالجة.
9. توفير التحكم في PII والتشفير و RLS والتوطين.
10. قضاء يوم اللعبة: تقليد هبوط المصدر، مخططات «كسر»، ردم جماعي.

16) أنتيباترن

«ليلة واحدة ETL لكل شيء» بدون حفلات وبدون زيادة.
نقص DQ والنسب → التقارير المتضاربة وصيد الأشباح.
تنقيح كامل للجداول عند كل عملية إطلاق (انفجار التكلفة).
حزمة صلبة في الوقت الفعلي بدون حواجز/استرجاع.
مزج PII وواجهات المتاجر العامة دون تجزئة وإخفاء.
لا توجد سياسة سحب/حذف (لا يمكن تصحيح الأخطاء).

موجز

خط أنابيب التحليلات القوي في iGaming هو تحميل ELT + في نموذج متعدد الطبقات مع DQ/سلالة صلبة، ونماذج تدريجية، ومنسق شفاف، و SLOs قابلة للقياس. أضف التحكم في التكلفة، وسياسة PII/التوطين، وتمارين الردم/DR المنتظمة - وستتسع نظامك الأساسي التحليلي بشكل موثوق إلى ذروة البطولة، والاستجابة للأعمال ببيانات النضارة والجودة المطلوبة.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.