GH GambleHub

מקור נתונים

lineage

1) מהי שושלת היוחסין ומדוע היא נחוצה

"Data Lineage" הוא תיעוד רשמי של "מאיפה המידע הגיע, איך הוא השתנה, איפה ועל ידי מי הוא היה בשימוש. התוצאה היא גרף מכוון של תלות עם תכונות (זמן, גרסאות, בעלים, טרנספורמציות, מדיניות גישה, איכות), שהופך את מערכת המידע למובנת ושומעת.

ערך עסקי:
  • שקיפות המדדים (פיננסים, מוצר, סיכון): "מדוע המספר X = 1,234? ».
  • ניתוח השפעה מהיר של שינויים (תוכנית/עבודה): ”מה ישבור אם...”
  • ציות וביקורת (GDPR/ISO/SOC): נתיב שדה מספק.
  • האצת העלייה למטוס והפחתת העמל (ידע בשירות עצמי).
  • שיפור איכות: בדיקות ממוקדות היכן שהסיכון גבוה יותר.

2) אזורי כיסוי ורמות פירוט

מפלס זרם (צינור/עבודה) אשר עבודות/תזמורות הולידו נתונים.
רמת Dataset (טבלה/תצוגה/נושא/קובץ): כניסות לתפוקות, גרסאות/תמונות.
עמודה/רמת תכונה - איך כל שדה מחושב, מאיזה מקורות.
שכבת צריכה: דו "חות BI, API, דגמי ML, לוחות מחוונים והתראות.

עבור ישויות קריטיות (כסף, רגולציה), דרושה רמת עמודה המפרטת.

3) מודל מידע שושלתי - ישויות מפתח

נתונים: ”[כד, סוג, סכימה, בעלים, pii_class, שימור, תגיות]”

עבודה/משימה: ”code_ref, גרסה, זמן ריצה, לוח זמנים, בעלים”

הפעלה/הוצאה להורג: (run _ id, , state/end, states, inputs , infra)

שדה: [dataset _ urn, שם, סוג, גזירה] (גזירה - ביטוי/AST/אופרטור).

מדיניות: "[dataset _ urn/field, access_rules, masking, consent_scope}'

בדיקת איכות: 'בדיקת _ id, היקף, כלל, חומרה, תוצאה'

4) מקורות שושלת: פעיל נגד הרכבה פסיבית

מנועים/מנועים (Spark/DBT/SQL/Kafka) להנפיק אירועים ”עבודה החלה/גמורה, כניסות/יציאות, מיפוי עמודות”.

מקצוענים: דיוק, רלוונטיות, מזעור אחרי ניתוח.
בקשות פסיביות (inference): DAG parsim, SQL/DDL/log, directory/storage logs; לבנות תלויות רטרואקטיבית.

מקצוענים: כיסוי מורשת מהיר; חסרונות: דיוק נמוך ברמת עמודה.

בדרך כלל משתמשים בהיבריד: אירועים אקטיביים שבהם אפשר, וניתוח פסיבי כ ”רשת ביטוח”.

5) ארכיטקטורה (התייחסות)

Productors (תזמורות/מנועים) # Lineage Event Bus # Normalizer * Graph astruction # Index/Search # UI/API/Advents # Export/catalog.

אירועים: מאוחדים (עבודה/הרצה/נתונים/טורים-שושלת), עם כתובות וגרסאות סמנטיות.
אחסון גרף: גרף ברמת עמודה (לדוגמה, מבוסס על מסד נתונים גרף או אינדקס יחוס + הפוך).
הדמיה אינטראקטיבית של נתיבים קצרים, השפעה/שורש-סיבה, ”אותות איכות” בקצוות ובצמתים.
אינטגרציות: קטלוג נתונים, מערכת איכות (DQ), בקרת גישה (ABAC), ביקורת (יומנים בלבד).

6) זיהוי ואירועים

URN/Global ID עבור כל מאגר נתונים/עבודות/שדות: יציב, ניתן לקריאה אנושית, כולל פלטפורמה/שם/שם/גרסה.
SchamaVersion וגרסת קוד (קוד SHA, עיכול תמונה).
שושלת מסע בזמן: רבייה של חקירות.

7) שושלת עמודים: כיצד להגיע אמין

פריסת SQL עם בניית AST ונורמליזציה של כינויים/CTE/סופת שלגים.
אנוטציות בקוד טרנספורמציה (מבחני DBT, הערות פרימיטיביות, UDF-metadata).

אירועים ממנועים: ציון "מטרה. col = f (src. A, src. ב. "

חוקים סמנטיים: UDF/Aggregation Opses מסומנים כ ”לוסי” (עם אובדן גרנולריות) או כ ”רגיש לשימור” (מעביר תגיות PII).

8) חיבור קשר לפרטיות וביטחון

Privacy by Design: תוויות שדה "pii _ class'," conscient _ scope "," reservation ". כאשר מקדמים עמודות, התוויות מועברות על פי הכללים (לדוגמה, 'דוא "ל' hash_email' שרידים נגזרים מ-PII).
tokenization PII: tokenization tokenization/detokenization faction and token service nodes; כל גירוי הוא אירוע ביקורת.
הצפנה: עבור שדות AEAD/FPE, השושלת תופסת את ”מצב ההצפנה” ואת אזור המפתח (דייר/סקופ) - ללא גילוי מפתח.
ארועי שושלת ושינויי מדיניות מאוחסנים ביומן שאינו ניתן לשינוי (append-only עם שרשראות חשיש).

9) איכות נתונים ושושלות מבוססות SLOs

בדיקות בקצוות: רעננות, שלמות, ייחודיות/מפתחות, סחיפה של התפלגויות.
SLO/Sli: ”95% מהעבודות הזנת מדדי fino-report סיימו את 06:00 UTC”.
גורם שורש: גרף + ביצוע כפול נותן הגדרה מהירה של ”הצומת השבור הראשון”.

10) ניתוח השפעה וניהול שינוי

במקרה של שינוי מתוכנן בתרשים/לוגיקה: על ידי הטור במורד הזרם (במורד הזרם) - רשימה של דוחות/מודלים/לקוחות API מושפעים.
שבירת מדיניות השינויים: הודעה חובה של בעלים של חפצים במורד הזרם, תקופת החסד, גרסאות מקבילות ('v1 '/' v2') ודגל השקיעה-תאריך.
כרטיסים אוטומטיים עם רשימת צרכנים ורשימת נדידה.

11) שילוב עם תזמורות ומנועים

תזמורות: 'RunStart/Runned' אירועים עם קלט/יציאות נפלטים לפני/אחרי העבודה.
SQL/ELT: מחברים למנועים (מחסן, אגם) כדי להשיג את תוכנית הביצוע בפועל ומיפוי עמודות.
עיבוד זרם: שושלת מסרים (נושא = נושא, מפתח/כותרות), תוכניות Avro/Protobuf, אבולוציה של סכימות באמצעות רישום.
ML: מאפייני שושלת/נתונים, גרסאות מודל, חפצי אימון, מקורות תכונה.

12) דוגמנות של כללי הפצת תוויות (חוזי נתונים)

חוזה הגדרת נתונים: schema + field semantics (מפתחות, PII, צבירה, רישיונות/בסיס חוקי, שימור).

כללי התפשטות:
  • 'בחר A, B מ-T' = תוויות תנועה 'a, b'.
  • 'Hash (דוא "ל)' = תווית" PII-נגזר (פסאודונימי) "עם טואוקניזציה אסורה.
  • 'Sum (סכום)' = אובדן של אינדיבידואליות; להצטרפות אסור להיות במגרש התוצאות.
  • החוזים מותנים במצ "ח (חוסם במקרה של אי עמידה), והפרות הן אירועים בביקורת.

13) ביצועים וסולם

הזרקה מצטברת של אירועי שושלת; שכפול על ידי '(run_id, job_urn)'.
אחסון עמודות: הפרדת אינדקס חם (30-90 ימים אחרונים) וארכיון; תמונות.
נתיבי מטמון לבקשות תכופות (נתיבים קצרים למדדים ”מוזהבים”).
לשדרג על ידי חלל נימי/דיירים; הגנה מפני ”צמתים מפלצתיים” (מגבלת מאוורר).

14) הדמיה ו ־ UX

מצבים:
  • נתיב למטרי: ”שממנו המטרי מורכב”.
  • השפעה ממקור: ”מי יושפע מהשינוי”.
  • שושלת שדה: ”איך התחום מחושב”.
  • מכסים: מדינות עבודה, איכות, תגי מח "ש, החזרות, בעלים.
  • פעולות: לפתוח חוזה, ליצור כרטיס לנדידה, מנוי לשינוי התראות.

15) ביטחון הגישה לגרף

ראות צומת/קצה מוגבלת לדיירים/תפקידים.
Reduction: להסתיר שמות שדה רגישים (או לזהות אותם) ב UI לתפקידים לא מאומנים.
MTLS/OIDC לאירועי שושלת API חתומים עם זהויות שירות.
בקרת תולעת וקריאה: קריאת קטעי גרף קריטיים גם מחוברת.

16) מבצע: SLO, מעקב, התראות

גרף SLO: עיכוב אירוע <5 min; כיסוי שלמות> 98% של צינורות קריטיים; ל-100% מ ”מדדי הזהב” יש שושלות ברמת הטור.
התראות: הפסקת שרשרת, לרוץ ללא אירועי השלמה, מזימות לא עקביות, נתונים מיותמים, מאוורר צמיחה/מחזורים.
דיווחים: ”מצב של כיסוי שושלות” שבועי, 10 צמתים בסיכון.

17) פרטיות וציות (חבילות)

GDPR/PbD: אחסון בסיסי עיבוד ושחזור כתגים; השושלת מספקת patfinding DSAR מהיר ו ”זכות למחוק” באמצעות מחיקת קריפטו מקטעים מתאימים.
ניהול סודי: מקורות גישה לחומרי גלם לעולם לא נופלים לשושלת כקרדיטים פתוחים; רק התייחסות התפקיד/מדיניות מאוחסנת.
רישומי ביקורת/רישומים לא מותאמים - כל אירועי השושלת נחתמים ונצמדים למאגר apend-only (ראה מאמר מקביל).

18) רשימות בדיקה

לפני ההתחלה:
[ ] הסכמי כד מוגדרים עבור נתונים/עבודות/שדות.
[ ] אפשרה פליטה של אירועי שושלת מתזמורות ומנועים.
[ ] SQL/DDL parser ותוכניות עבודה מנרמל.
[ ] דטה-חוזים ו PII/שימור כללי התפשטות מאושרים.
[ ] רשומות אירועים מוגדרות של תולעת וגיבויי גרף.
[ ] BI/ML מחוברים כצרכני שושלות (דוחות, מודלים, תכונות).
מבצע:
[ ] כיסוי לינאז 'לתחומים קריטיים - 98%, רמת עמודה עבור ”כסף” = 100%.
[ ] התראות להפסקות, נתונים מיותמים, סחף מעגלי מתחיל.
[ ] רבעונים של תגים וחוזים של מח "ש.
[ ] תזרים מסמכים של שינויים (שבירה) והפצה לצרכנים.

19) מתכונים קטנים

אירוע מושלם (פסאודו-JSON):
json
{
"event": "RunCompleted",
"run": {
"id": "run_2025-10-31T14:20:00Z_42",
"job": "urn:job:etl:finance:close_books_v3",
"status": "SUCCESS",
"code_sha": "b3f9…",
"started_at": "2025-10-31T14:05:00Z",
"ended_at": "2025-10-31T14:19:52Z"
},
"inputs": [
"urn:dataset:lake:bank_txn_v2",
"urn:dataset:warehouse:fx_rates_d+1"
],
"outputs": [
"urn:dataset:warehouse:pnl_daily_v3"
],
"column_lineage": [
{
"output": "pnl_daily_v3. pnl_usd",
"expr": "SUM(txn. amount_local fx. rate)",
"inputs": ["bank_txn_v2. amount_local", "fx_rates_d+1. rate"],
"lossy": true
}
]
}
כלל התפשטות PII (רעיון):

if input. field. pii in {email, phone, id} and transform in {hash, tokenize}:
output. field. pii = "pseudonymized"
elif transform in {aggregate, anonymize_k}:
output. field. pii = "anonymous"
else:
output. field. pii = input. field. pii
קוואריס אימפקט ”מה יישבר”:

affected = downstream(urn:"urn:dataset:warehouse:users_v4", depth=4)
filter affected where kind in {"dashboard","model","api"} and owner not in {"team-exp"}

20) טעויות תכופות וכיצד להימנע מהן

שושלת ”בתמונה” ללא מודל רשמי. יש צורך במאורעות/תרשימים/כד, אחרת הגרף אינו מאוזן.
אין רמה של עמודה איפה שיש "כסף. "חישובים לא יכולים להיות מוסברים ללא רמת עמודה.
אירועים לא שלמים (ללא תוכניות code_sha/versii). רבייה אינה אפשרית.
התעלם מפרטיות. תגי PII חייבים לחיות ולהישא עם השדות.
מסד נתונים אחד גדול גרף בלי לשדרג. תחלק לפי שמות, תצלומי אחסון.
אמונה עיוורת בפרסרים. במקרים שנויים במחלוקת - אירועים פעילים ממנועים.

21) runbook 'observe

תקרית: מטרי ”קפץ”.

1. פתח ”נתיב אל מטרי” = בדוק את צמתים 'Run' האחרון על השביל.
2. בדוק גרסאות קוד/סכימה, בדוק את מצב DQ בקצוות.
3. אם נמצא קישור שבור, צור כרטיס עבור הבעלים, אפשר את ה ”אחיזה” הזמנית של הפרסום המטרי.
4. לאחר התיקון - לסמן RCA ולקשר עם הצמתים של הגרף.

סכימת מקור שינוי.

1. בקשה במורד הזרם.
2. שלח הודעות לבעלים, ליצור עמותות נדידה.
3. העלה מקביל 'v _ next', שמור את שתי הגרסאות עד תאריך השקיעה.
4. סגור 'v _ prev', עדכון חוזים וגרף שושלות.

חומרים קשורים:
  • ”פרטיות בעיצוב (GDPR)”
  • ”PII Data Tokenization”
  • ‏ ”ניהול סודי” ‏
  • ”ביקורת ויומנים בלתי ניתנים לשינוי”
  • ”בהצפנת מנוחה/במעבר”
  • ”ניהול מפתח וסבב”
Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.