GH GambleHub

منبع داده ها

خط

1) اصل و نسب چیست و چرا لازم است

Data Lineage یک رکورد رسمی از جایی است که داده ها از کجا آمده اند، چگونه تبدیل شده اند، کجا و توسط چه کسی مورد استفاده قرار گرفته است. نتیجه یک نمودار مستقیم از وابستگی ها با ویژگی ها (زمان، نسخه ها، صاحبان، تحولات، سیاست های دسترسی، کیفیت) است که باعث می شود سیستم داده قابل فهم و قابل حسابرسی باشد.

ارزش کسب و کار:
  • شفافیت معیارها (مالی، محصول، ریسک): چرا عدد X = 1234 است ؟ ».
  • تجزیه و تحلیل تاثیر سریع تغییرات (طرح/کار): «چه خواهد شکست اگر»....
  • انطباق و حسابرسی (GDPR/ISO/SOC): مسیر فیلد قابل اثبات.
  • تسریع در کار و کاهش زحمت (دانش سلف سرویس).
  • بهبود کیفیت: بازرسی های هدفمند که در آن خطر بیشتر است.

2) مناطق پوشش و سطح جزئیات

سطح جریان (خط لوله/شغل): کدام مشاغل/ارکسترها مجموعه داده ها را ایجاد کرده اند.
سطح مجموعه داده (جدول/نمایش/موضوع/فایل): ورودی → خروجی ها، نسخه ها/عکس های فوری.
ستون/سطح ویژگی - چگونه هر فیلد محاسبه می شود، از کدام منابع.
لایه مصرف: گزارش های BI، API ها، مدل های ML، داشبورد ها و هشدارها.

برای نهادهای مهم (پول، مقررات)، جزئیات ستون سطح مورد نیاز است.

3) مدل داده های خطی - نهادهای کلیدی

مجموعه داده: '{urn, type, schema, owners, pii_class, retention, tags}'

کار/وظیفه: {urn، code_ref، نسخه، زمان اجرا، برنامه، صاحبان}

اجرا/اجرا: {run _ id، job_urn، شروع/پایان، وضعیت، ورودی []، خروجی []، code_sha، infra}

فیلد: '{dataset _ urn, name, type, derivation}' (مشتق - expression/AST/operator).

سیاست: {dataset _ urn/field، access_rules، پوشش، consent_scope}'

بررسی کیفیت: {check _ id، دامنه، قانون، شدت، نتیجه}

4) منابع خطی: مونتاژ فعال در مقابل منفعل

فعال (مبتنی بر رویداد): ابزار ارکستر/موتور (موتورهای Spark/DBT/SQL/Kafka) برای صدور رویدادهای «کار آغاز شده/به پایان رسید، ورودی/خروجی، نقشه برداری ستون».

مزایا: دقت، ارتباط، به حداقل رساندن پس از تجزیه.
منفعل (استنتاج): DAG پارسیم، درخواست SQL/DDL/ورود به سیستم، سیاهههای مربوط به دایرکتوری/ذخیره سازی ؛ ایجاد وابستگی به عقب.

مزایا: پوشش سریع میراث ؛ منفی: دقت پایین در سطح ستون.

معمولا ترکیبی استفاده می شود: رویدادهای فعال در صورت امکان، و تجزیه و تحلیل منفعل به عنوان یک شبکه بیمه.

5) معماری راه حل (مرجع)

Producers (orchestrators/engines) → Lineage event bus → Normalizer → Graph storage → Index/search → UI/API/alerts → Export/catalog.

رویدادها: یکپارچه (job/run/dataset/column-lineage)، با URN ها و نسخه های معنایی.
ذخیره سازی نمودار: نمودار ستون سطح (به عنوان مثال، بر اساس یک پایگاه داده گراف یا شاخص رابطه ای + معکوس).
UI: تجسم تعاملی کوتاه ترین مسیرها، ضربه/علت ریشه، «سیگنال های کیفیت» در لبه ها و گره ها.
ادغام: کاتالوگ داده ها، سیستم کیفیت (DQ)، کنترل دسترسی (ABAC)، حسابرسی (اضافه کردن فقط سیاهههای مربوط).

6) شناسه ها و نسخه ها

URN/شناسه جهانی برای هر مجموعه داده/شغل/زمینه: پایدار، انسان قابل خواندن، از جمله پلت فرم/namespace/نام/نسخه.
SchemaVersion و نسخه کد (کد SHA، تصویر هضم).

اصل و نسب سفر در زمان: تکرارپذیری تحقیقات

7) سلسله ستون: چگونه می توان قابل اعتماد بود

تجزیه SQL با ساخت AST و نرمال سازی نام های مستعار/CTE/کولاک.
حاشیه نویسی در کد تبدیل (تست DBT، نظرات اولیه، ابرداده UDF).

رویدادها از موتورها: مشخص کردن «هدف». col = f (src. یک، src. ب) "

قوانین معنایی: opsهای UDF/aggregation به عنوان «lossy» (با از دست دادن دانه دانه) یا «حفظ حساس» (انتقال برچسب های PII) مشخص می شوند.

8) پیوند اصل و نسب به حریم خصوصی و امنیت

حریم خصوصی توسط طراحی: برچسب های زمینه 'pii _ class'، 'رضایت _ محدوده'، 'حفظ'. هنگام تبلیغ ستون ها، برچسب ها با توجه به قوانین منتقل می شوند (به عنوان مثال، "ایمیل → hash_email' PII مشتق شده باقی می ماند).
PII tokenization: سلسله فروشگاه های tokenization/detokenization واقعیت و گره های خدمات نشانه ؛ هر گونه detokenization یک رویداد حسابرسی است.
رمزگذاری: برای زمینه های AEAD/FPE، lineage «حالت رمزنگاری» و منطقه کلیدی (مستاجر/دامنه) را بدون افشای کلید ضبط می کند.
حسابرسی و WORM - رویدادهای خطی و تغییرات سیاست در یک log غیر قابل تغییر (فقط با زنجیره های هش اضافه می شود) ذخیره می شود.

9) کیفیت داده ها و SLO های مبتنی بر تبار

چک در لبه: طراوت، کامل، منحصر به فرد/کلید، رانش توزیع.
SLO/SLI: «95٪ از مشاغل تغذیه معیارهای گزارش نهایی ≤ 06:00 UTC تکمیل شده است».
ریشه علت: گراف + زمان اجرا تعریف سریعی از «اولین گره شکسته» ارائه میدهد.

10) تجزیه و تحلیل تاثیر و مدیریت تغییر

در صورت تغییر برنامه ریزی شده در طرح/منطق: توسط ستون پایین دست (پایین دست) - لیستی از گزارش ها/مدل ها/مشتریان API آسیب دیده است.
شکستن سیاست تغییرات: اطلاع رسانی اجباری از صاحبان مصنوعات پایین دست، دوره فضل، نسخه های موازی ('v1 '/' v2') و پرچم غروب آفتاب.
روابط عمومی خودکار/بلیط با یک لیست از مصرف کنندگان و چک لیست مهاجرت.

11) ادغام با ارکسترها و موتورها

ارکسترها: رویدادهای «RunStarted/RunCompleted» با ورودی/خروجی قبل/بعد از کار منتشر می شوند.
SQL/ELT: اتصالات به موتورها (انبار، دریاچه) برای به دست آوردن برنامه اجرای واقعی و نقشه برداری ستون.
پردازش جریان: سلسله پیام ها (موضوع → موضوع، کلید/هدر)، طرح های Avro/Protobuf، تکامل طرح ها از طریق رجیستری.
ML: ویژگی های سلسله/مجموعه داده ها، نسخه های مدل، مصنوعات آموزشی، منابع ویژگی.

12) مدل سازی قوانین انتشار برچسب (قراردادهای داده)

قرارداد مجموعه داده: طرح + معانی زمینه (کلید، PII، جمع آوری، مجوز/زمینه های قانونی، نگهداری).

قوانین انتشار:
  • 'SELECT a, b FROM T' → برچسبهای «a, b» را حرکت دهید.
  • 'هش (ایمیل)' → برچسب 'PII مشتق شده (pseudonymised)' با detokenization ممنوع است.
  • "SUM (مقدار) → از دست دادن فردیت ؛ عضویت در فیلد نتیجه مجاز نیست.
  • قراردادها در CI (مسدود کننده در صورت عدم رعایت) تأیید می شوند و تخلفات در حسابرسی اتفاق می افتد.

13) عملکرد و مقیاس

تزریق افزایشی حوادث اصل و نسب ؛ deduplication توسط '(run_id، job_urn)'.

ذخیره سازی ستون: جداسازی شاخص داغ (آخرین 30-90 روز) و آرشیو ؛ عکس های فوری

مسیرهای ذخیره سازی برای درخواست های مکرر (مسیرهای کوتاه به معیارهای «طلایی»).
Sharding توسط neimspaces/مستاجران ؛ حفاظت در برابر «گره های هیولا» (محدودیت فن).

14) تجسم و UX

حالت ها:
  • مسیر متریک: «که متریک از آن جمع شده است».
  • تأثیر از منبع: «چه کسی تحت تأثیر تغییر قرار خواهد گرفت».
  • اصل و نسب میدان: «چگونه میدان محاسبه شده است».
  • پوشش ها: وضعیت شغلی، کیفیت، برچسب های PII، retentions، صاحبان.
  • اقدامات: باز کردن یک قرارداد، ایجاد یک بلیط برای مهاجرت، اشتراک برای تغییر هشدار.

15) امنیت دسترسی به نمودار

ABAC: دید گره/لبه محدود به مستاجران/نقش است.
Redaction: مخفی کردن نام فیلد حساس (یا aliasing آنها) در UI برای نقش های آموزش ندیده.
mTLS/OIDC برای رویدادهای خطی API با هویت سرویس امضا می شوند.
WORM و خواندن کنترل: خواندن بخش های گراف بحرانی نیز وارد شده است.

16) عملیات: SLO، نظارت، هشدار

SLO نمودار: تاخیر رویداد <5 دقیقه ؛ پوشش کامل> 98٪ از خطوط لوله بحرانی ؛ 100٪ از «معیارهای طلایی» دارای سطح ستون هستند.
هشدارها: شکستن زنجیره ای، اجرا بدون حوادث تکمیل، طرح های متناقض، مجموعه داده های یتیم، فن از رشد/چرخه.
گزارش ها: «وضعیت پوشش خط» هفتگی، 10 گره خطر بالا.

17) حفظ حریم خصوصی و انطباق (بسته نرم افزاری)

GDPR/PbD: پایگاه های پردازش فروشگاه و retentions به عنوان برچسب ها ؛ نسب فراهم می کند pathfinding DSAR سریع و «حق حذف» از طریق حذف رمزنگاری آبشار از بخش های مربوطه.
مدیریت مخفی: منابع دسترسی به مواد خام هرگز به عنوان اعتبارات باز نمی شوند ؛ فقط مرجع نقش/سیاست ذخیره می شود.
حسابرسی/سیاهههای مربوط اصلاح نشده - تمام رویدادهای خط خطی امضا شده و به مخزن فقط پیوست می شوند (نگاه کنید به مقاله مربوطه).

18) چک لیست

قبل از شروع:
  • موافقت نامه های URN برای مجموعه داده ها/مشاغل/زمینه ها تعریف شده است.
  • انتشار رویدادهای خطی از ارکسترها و موتورها را فعال کرد.
  • تجزیه کننده SQL/DDL و کار نرمال ساز طرح.
  • قراردادهای داده و قوانین انتشار PII/نگهداری تایید شده است.
  • پیکربندی رویداد WORM ورود و پشتیبان گیری نمودار.
  • BI/ML به عنوان مصرف کنندگان خطی (گزارش ها، مدل ها، ویژگی ها) متصل می شوند.
عملیات:
  • پوشش خطی برای دامنه های بحرانی ≥ 98٪، سطح ستون برای «پول» = 100٪.
  • هشدار برای شکاف، مجموعه داده یتیم، رانش مدار در هستند.
  • ممیزی های سه ماهه برچسب ها و قراردادهای PII.
  • سند جریان تغییرات (شکستن) و توزیع به مصرف کنندگان.

19) دستور العمل های کوچک

رویداد RunCompleted) pseudo-JSON):
json
{
"event": "RunCompleted",
"run": {
"id": "run_2025-10-31T14:20:00Z_42",
"job": "urn:job:etl:finance:close_books_v3",
"status": "SUCCESS",
"code_sha": "b3f9…",
"started_at": "2025-10-31T14:05:00Z",
"ended_at": "2025-10-31T14:19:52Z"
},
"inputs": [
"urn:dataset:lake:bank_txn_v2",
"urn:dataset:warehouse:fx_rates_d+1"
],
"outputs": [
"urn:dataset:warehouse:pnl_daily_v3"
],
"column_lineage": [
{
"output": "pnl_daily_v3. pnl_usd",
"expr": "SUM(txn. amount_local fx. rate)",
"inputs": ["bank_txn_v2. amount_local", "fx_rates_d+1. rate"],
"lossy": true
}
]
}
قانون انتشار PII (ایده):

if input. field. pii in {email, phone, id} and transform in {hash, tokenize}:
output. field. pii = "pseudonymized"
elif transform in {aggregate, anonymize_k}:
output. field. pii = "anonymous"
else:
output. field. pii = input. field. pii
تاثیر کواریس «چه خواهد شکست»:

affected = downstream(urn:"urn:dataset:warehouse:users_v4", depth=4)
filter affected where kind in {"dashboard","model","api"} and owner not in {"team-exp"}

20) اشتباهات مکرر و چگونگی اجتناب از آنها

اصل و نسب «در تصویر» بدون یک مدل رسمی. رویدادها/طرح ها/URN مورد نیاز است، در غیر این صورت نمودار مقیاس نمی شود.
هیچ ستونی وجود ندارد که در آن «پول» وجود داشته باشد. محاسبات را نمی توان بدون سطح ستون توضیح داد.
رویدادهای ناقص (بدون طرحوارههای code_sha/versii). بازتولید امکان پذیر نیست.
حريم خصوصي رو ناديده بگير برچسب های PII باید با مزارع زندگی کنند و حمل شوند.
یک پایگاه داده گراف بزرگ بدون sharding. تقسیم بر فضاهای نام، ذخیره عکس های فوری.
ایمان کورکورانه به تجزیه کننده ها در موارد بحث برانگیز - رویدادهای فعال از موتورهای.

21) Runbook'и

حادثه: متریک «پرید».

1. باز کردن «Path to metric» → بررسی آخرین گره های «Run» در مسیر.
2. نسخه های کد/طرح را بررسی کنید، وضعیت DQ را در لبه ها بررسی کنید.
3. اگر یک لینک شکسته پیدا شد، یک بلیط برای مالک ایجاد کنید، «نگه داشتن» موقت انتشار متریک را فعال کنید.
4. پس از رفع - علامت RCA و مرتبط با گره های نمودار.

اصلاح طرح منبع.

1. درخواست اثر پایین دست.
2. ارسال اطلاعیه به صاحبان، ایجاد روابط عمومی مهاجرت.
3. افزایش موازی 'v _ next'، نگه داشتن هر دو نسخه تا تاریخ غروب آفتاب.
4. بستن v _ prev، به روز رسانی قراردادها و نمودار خطی.

مواد مرتبط:
  • حریم خصوصی از طریق طراحی (GDPR)
  • «نشانه گذاری اطلاعات PII»
  • «مدیریت مخفی»
  • «گزارش های حسابرسی و تغییر ناپذیر»
  • «در حالت استراحت/در رمزگذاری ترانزیت»
  • «مدیریت کلید و چرخش»
Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.