GH GambleHub

مصدر البيانات

النسب

1) ما هو النسب ولماذا هو مطلوب

نسب البيانات هو سجل رسمي لـ "من أين جاءت البيانات، وكيف تم تحويلها، وأين ومن استخدمت. "والنتيجة هي رسم بياني موجه للتبعيات ذات السمات (الوقت والإصدارات والمالكين والتحولات وسياسات الوصول والجودة)، مما يجعل نظام البيانات مفهومًا وقابلاً للتدقيق.

قيمة العمل:
  • شفافية المقاييس (التمويل والمنتج والمخاطر): "لماذا الرقم X = 1 234 ؟ ».
  • تحليل الأثر السريع للتغييرات (مخطط/وظيفة): «ماذا سينكسر إذا»....
  • الامتثال ومراجعة الحسابات (GDPR/ISO/SOC): مسار ميداني يمكن إثباته.
  • تسريع الصعود إلى الطائرة والحد من الكد (معرفة الخدمة الذاتية).
  • تحسين الجودة: عمليات التفتيش المستهدفة التي تزيد فيها المخاطر.

2) مجالات التغطية ومستويات التفاصيل

مستوى التدفق (خط الأنابيب/الوظيفة): أي الوظائف/المنسقين أنتجوا مجموعات البيانات.
مستوى مجموعة البيانات (الجدول/العرض/الموضوع/الملف): المدخلات → والنواتج، والنسخ/اللقطات.
العمود/مستوى الميزة - كيفية حساب كل مجال، من أي مصادر.
طبقة الاستهلاك: تقارير BI وواجهات برمجة التطبيقات ونماذج ML ولوحات القيادة والتنبيهات.

بالنسبة للكيانات الحيوية (المال، التنظيم)، يلزم تقديم تفاصيل على مستوى العمود.

3) نموذج بيانات النسب - الكيانات الرئيسية

مجموعة البيانات: «{جرة، نوع، مخطط، مالكون، pii_class، الاحتفاظ، علامات}»

الوظيفة/المهمة: «{جرة، code_ref، نسخة، وقت التشغيل، الجدول الزمني، المالكين}»

تشغيل/تنفيذ: '{تشغيل _ معرف، job_urn، بدء/نهاية، الحالة، المدخلات []، النواتج []، code_sha، أدناه}'

الحقل: '{dataset _ urn, name, type, derivation}' (الاشتقاق - التعبير/AST/المشغل).

السياسة: '{dataset _ urn/field, access_rules, masking, consent_scope}'

التحقق من الجودة: «{تحقق _ معرف، نطاق، قاعدة، شدة، نتيجة}»

4) مصادر النسب: التجميع النشط مقابل التجميع السلبي

نشط (قائم على الأحداث): أجهزة تنسيق/محركات (Spark/DBT/SQL محركات/كافكا) لإصدار الأحداث «بدأت/انتهت المهمة، المدخلات/المخرجات، رسم خرائط الأعمدة».

الإيجابيات: الدقة والأهمية وتقليل ما بعد التحليل.
السلبية (الاستدلال): parsim DAG, SQL/DDL/log requests, directory/storage logs; بناء التبعيات بأثر رجعي.

الإيجابيات: التغطية التراثية السريعة ؛ السلبيات: دقة أقل على مستوى العمود.

عادة ما يتم استخدام الهجين: الأحداث النشطة حيثما أمكن، والتحليل السلبي كـ «شبكة تأمين».

5) بنية الحلول (مرجع)

المنتجون (المنسقون/المحركات) → حافلة حدث السلالة → Normalizer → تخزين الرسم البياني → فهرس/بحث → واجهة المستخدم/واجهة المستخدم/التنبيهات → التصدير/الكتالوج.

الأحداث: موحدة (وظيفة/تشغيل/مجموعة بيانات/عمود-سلالة)، مع URNs ونسخ دلالية.
تخزين الرسم البياني: الرسم البياني على مستوى العمود (على سبيل المثال، استنادًا إلى قاعدة بيانات الرسم البياني أو الفهرس العلائقي + المقلوب).
واجهة المستخدم: التصور التفاعلي لأقصر المسارات، والتأثير/السبب الجذري، و «إشارات الجودة» على الحواف والعقد.
عمليات التكامل: فهرس البيانات، ونظام الجودة (DQ)، ومراقبة الدخول (ABAC)، ومراجعة الحسابات (سجلات التذييل فقط).

6) المعرفات والتحرير

URN/Global ID لكل مجموعة بيانات/وظائف/حقول: مستقرة، قابلة للقراءة البشرية، بما في ذلك النظام الأساسي/مساحة الاسم/الاسم/الإصدار.
SchemaVersion and code version (code SHA, image digest).
نسب السفر عبر الزمن: قابلية تكرار التحقيقات.

7) النسب على مستوى العمود: كيفية الحصول على موثوقية

تحليل SQL مع بناء AST وتطبيع الأسماء المستعارة/CTE/العاصفة الثلجية.
شروح في رمز التحويل (اختبارات DBT، تعليقات بدائية، UDF-metadata).

الأحداث من المحركات: تحديد "الهدف. col = f (src. أ، src. (ب) "

القواعد الدلالية: يتم وضع علامة على اختيارات UDF/التجميع على أنها «lossy» (مع فقدان الدقة) أو «الحفاظ على الحساسية» (نقل علامات PII).

8) ربط النسب بالخصوصية والأمن

الخصوصية حسب التصميم: الملصقات الميدانية "pii _ class'،" الموافقة _ scope "،" الاحتفاظ ". عند الترويج للأعمدة، يتم إرسال الملصقات وفقًا للقواعد (على سبيل المثال، "البريد الإلكتروني → hash_email' بقايا مشتقة من PII).
ترميز PII: حقيقة ترميز/إزالة التوكينات في مخازن النسب وعقد خدمة رمزية ؛ أي تفكيك هو حدث تدقيق.
التشفير: بالنسبة لحقول AEAD/FPE، يلتقط النسب «حالة التشفير» والمجال الرئيسي (المستأجر/النطاق) - دون إفصاح رئيسي.
مراجعة الحسابات و WORM - يتم تخزين أحداث النسب وتغييرات السياسة في سجل غير قابل للتعديل (ملحق فقط مع سلاسل التجزئة).

9) جودة البيانات ومنظمات البيئة المستدامة القائمة على النسب

عمليات التحقق من الحواف: النضارة، والاكتمال، والتفرد/المفاتيح، وانجراف التوزيعات.
SLO/SLI: «95٪ من الوظائف التي تغذي مقاييس التقارير المالية المكتملة ≤ 06:00 بالتوقيت العالمي المنسق».
السبب الجذري: يعطي الرسم البياني + أوقات التنفيذ تعريفًا سريعًا لـ «العقدة المكسورة الأولى».

10) تحليل الأثر وإدارة التغيير

في حالة التغيير المخطط له في المخطط/المنطق: حسب العمود في المصب (المصب) - قائمة بالتقارير/النماذج/عملاء API المتأثرين.
سياسة كسر التغييرات: إخطار إلزامي لمالكي القطع الأثرية في اتجاه مجرى النهر، وفترة السماح، والإصدارات الموازية ('v1 '/' v2') وعلم تاريخ غروب الشمس.
العلاقات العامة/التذاكر التلقائية مع قائمة المستهلكين وقائمة مرجعية للهجرة.

11) التكامل مع المنسقين والمحركات

المنسقون: تنبعث أحداث «RunStarted/RunCompleted» مع المدخلات/المخرجات قبل/بعد الوظيفة.
SQL/ELT: موصلات للمحركات (المستودع والبحيرة) للحصول على خطة التنفيذ الفعلية ورسم خرائط الأعمدة.
تجهيز التيار: نسب الرسائل (topic→topic، المفتاح/الرؤوس)، مخططات أفرو/بروتوبوف، تطور المخططات من خلال التسجيل.
ML: ميزات النسب/مجموعات البيانات، إصدارات النماذج، القطع الأثرية التدريبية، مصادر الميزات.

12) نمذجة قواعد نشر البطاقات (عقود البيانات)

عقد مجموعة البيانات: schema + field semantics (المفاتيح، PII، التجميع، التراخيص/الأسس القانونية، الاحتفاظ).

قواعد الانتشار:
  • 'حدد a, b من T' → تحريك الملصقات 'a, b'.
  • «تجزئة (بريد إلكتروني)» ملصق → «مشتق من PII (اسم مستعار)» مع حظر إزالة التوكينات.
  • 'SUM (مبلغ)' → فقدان الشخصية ؛ الانضمام غير مسموح به في مجال النتيجة.
  • يتم التحقق من صحة العقود في CI (مانع في حالة عدم الامتثال)، والانتهاكات هي أحداث في المراجعة.

13) الأداء والنطاق

الحقن التدريجي لأحداث النسب ؛ التفريغ بواسطة «(run_id، job_urn)».
تخزين العمود: فصل الفهرس الساخن (آخر 30-90 يوما) والمحفوظات ؛ لقطات.
مسارات التخزين المؤقت للطلبات المتكررة (مسارات قصيرة للمقاييس «الذهبية»).
شحن المساحات/المستأجرين ؛ الحماية من «العقد الوحشية» (الحد من المروحة).

14) التصور و UX

الأنماط:
  • الطريق إلى المقياس: «الذي يتم تجميع المقياس منه».
  • التأثير من المصدر: «من سيتأثر بالتغيير».
  • النسب الميداني: «كيف يتم حساب المجال».
  • التراكب: أوضاع الوظيفة، الجودة، علامات PII، الاحتفاظ، المالكين.
  • الإجراءات: فتح عقد، إنشاء تذكرة للهجرة، الاشتراك في تنبيهات التغيير.

15) أمن الوصول إلى الرسم البياني

ABAC: تقتصر رؤية العقدة/الحافة على المستأجرين/الأدوار.
التنقيح: إخفاء الأسماء الميدانية الحساسة (أو تعريفها) في واجهة المستخدم لأدوار غير مدربة.
تم توقيع mTLS/OIDC لأحداث نسب API مع هويات الخدمة.
WORM والتحكم في القراءة: يتم أيضًا تسجيل قراءة مقاطع الرسم البياني الحرجة.

16) العملية: SLO، الرصد، التنبيهات

الرسم البياني SLO: تأخير الحدث <5 دقائق ؛ اكتمال التغطية> 98٪ من خطوط الأنابيب الحيوية ؛ 100٪ من «المقاييس الذهبية» لها نسب على مستوى العمود.
التنبيهات: كسر السلسلة، تشغيل الأحداث دون الانتهاء، مخططات غير متسقة، مجموعات بيانات يتيمة، إذكاء النمو/الدورات.
التقارير: «تغطية حالة النسب» الأسبوعية، أهم 10 عقد مخاطر.

17) الخصوصية والامتثال (حزم)

اللائحة العامة لحماية البيانات/PbD: قواعد معالجة المخازن والاحتفاظ بها كعلامات ؛ توفِّر سلالة سريعة لمسارات DSAR و «الحق في الحذف» من خلال حذف التشفير المتتالي للقطاعات المقابلة.
الإدارة السرية: لا تندرج مصادر الحصول على المواد الخام في النسب كائتمانات مفتوحة ؛ ولا يخزن سوى الدور/مرجع السياسة العامة.
مراجعة الحسابات/السجلات غير المعدلة - توقع جميع أحداث النسب وتعلق على مستودع التذييل فقط (انظر المقال المقابل).

18) القوائم المرجعية

قبل البدء:
  • تم تحديد اتفاقات URN لمجموعات البيانات/الوظائف/المجالات.
  • تمكين انبعاث أحداث النسب من المنسقين والمحركات.
  • SQL/DDL parser and schema normalizer work.
  • تتم الموافقة على عقود البيانات وقواعد نشر المؤشر PII/الاحتفاظ.
  • سجل حدث WORM المكون ونسخ احتياطية من الرسم البياني.
  • BI/ML متصلة كمستهلكين للنسب (تقارير ونماذج وميزات).
العملية:
  • تغطية النسب للمجالات الحرجة ≥ 98٪، مستوى العمود لـ «المال» = 100٪.
  • يتم تشغيل تنبيهات الاستراحات، ومجموعات البيانات اليتيمة، وانجراف الدائرة.
  • مراجعة فصلية لبطاقات وعقود مؤشر الاستثمار الدولي.
  • تدفق الوثائق للتغيرات (الانقطاع) وتوزيعها على المستهلكين.

19) وصفات صغيرة

حدث RunCompleted (pseudo-JSON):
json
{
"event": "RunCompleted",
"run": {
"id": "run_2025-10-31T14:20:00Z_42",
"job": "urn:job:etl:finance:close_books_v3",
"status": "SUCCESS",
"code_sha": "b3f9…",
"started_at": "2025-10-31T14:05:00Z",
"ended_at": "2025-10-31T14:19:52Z"
},
"inputs": [
"urn:dataset:lake:bank_txn_v2",
"urn:dataset:warehouse:fx_rates_d+1"
],
"outputs": [
"urn:dataset:warehouse:pnl_daily_v3"
],
"column_lineage": [
{
"output": "pnl_daily_v3. pnl_usd",
"expr": "SUM(txn. amount_local fx. rate)",
"inputs": ["bank_txn_v2. amount_local", "fx_rates_d+1. rate"],
"lossy": true
}
]
}
قاعدة انتشار PII (فكرة):

if input. field. pii in {email, phone, id} and transform in {hash, tokenize}:
output. field. pii = "pseudonymized"
elif transform in {aggregate, anonymize_k}:
output. field. pii = "anonymous"
else:
output. field. pii = input. field. pii
كواريس التأثير «ماذا سينكسر»:

affected = downstream(urn:"urn:dataset:warehouse:users_v4", depth=4)
filter affected where kind in {"dashboard","model","api"} and owner not in {"team-exp"}

20) الأخطاء المتكررة وكيفية تجنبها

النسب «في الصورة» بدون نموذج رسمي. هناك حاجة إلى الأحداث/المخططات/URN، وإلا فإن الرسم البياني غير مقياس.
لا يوجد مستوى عمود حيث يوجد "المال. "لا يمكن تفسير الحسابات بدون مستوى عمود.
أحداث غير مكتملة (بدون مخططات code_sha/versii). قابلية التكاثر غير ممكنة.
تجاهل الخصوصية. يجب أن تعيش علامات PII وتحمل مع الحقول.
قاعدة بيانات رسم بياني كبيرة بدون شحن. تقسيم مساحات الأسماء، لقطات التخزين.
إيمان أعمى بالمحللين. في الحالات المثيرة للجدل - أحداث نشطة من المحركات.

21) Runbook'и

الحادث: مقياس «قفز».

1. افتح «المسار إلى المقياس» → تحقق من آخر عقد «تشغيل» على المسار.
2. تحقق من إصدارات الرمز/المخطط، تحقق من حالة DQ على الحواف.
3. إذا تم العثور على رابط مكسور، فقم بإنشاء تذكرة للمالك، وقم بتمكين «الاحتفاظ» المؤقت للنشر المتري.
4. بعد الإصلاح - ضع علامة على RCA واربط مع عقد الرسم البياني.

تعديل مخطط المصدر.

1. طلب تأثير المصب.
2. أرسل إشعارات إلى المالكين، وأنشئ علاقات عامة للهجرة.
3. ارفع "v _ next' الموازي، واحتفظ بكلا الإصدارين حتى تاريخ الغروب.
4. إغلاق 'v _ سابقًا'، وتحديث العقود والرسم البياني للنسب.

المواد ذات الصلة:
  • «Privacy by Design (GDPR)»
  • «PII Data Tokenization»
  • «الإدارة السرية»
  • «سجلات التدقيق والسجلات الثابتة»
  • «At Rest/In Transit Encryption»
  • «الإدارة والتناوب الرئيسيان»
Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.