डेटा मूल
वंश
1) क्या वंश है और इसकी आवश्यकता क्यों है
डेटा वंश का एक औपचारिक रिकॉर्ड है "जहां से डेटा आया था, यह कैसे बदल गया था, कहां और किसके द्वारा इसका उपयोग किया गया था। "परिणाम विशेषताओं (समय, संस्करण, मालिक, परिवर्तन, पहुंच नीतियों, गुणवत्ता) के साथ निर्भरता का एक निर्देशित ग्राफ है, जो डेटा प्रणाली को समझने योग्य और श्रव्य बनाता है।
व्यवसाय मूल्य:- मैट्रिक्स की पारदर्शिता (वित्त, उत्पाद, जोखिम): "संख्या X = 1,234 क्यों है? ».
- परिवर्तनों का त्वरित प्रभाव विश्लेषण (योजना/नौकरी): "क्या होगा अगर...।"
- अनुपालन और ऑडिटिंग (GDPR/ISO/SOC): सिद्ध क्षेत्र पथ।
- ऑनबोर्डिंग में तेजी लाना और शौचालय को कम करना (स्व-सेवा ज्ञान)।
- गुणवत्ता में सुधार: लक्षित निरीक्षण जहां जोखिम अधिक है।
2) कवरेज क्षेत्र और विस्तार के स्तर
स्ट्रीम स्तर (पाइपलाइन/नौकरी): कौन सी नौकरियां/ऑर्केस्ट्रा ने डेटासेट पैदा किए।
डेटासेट स्तर (तालिका/दृश्य/विषय/फ़ाइल): इनपुट → आउटपुट, संस्करण/स्नैपशॉट।
कॉलम/फीचर-स्तर - प्रत्येक क्षेत्र की गणना कैसे की जाती है, किन स्रोतों से।
खपत परत: बीआई रिपोर्ट, एपीआई, एमएल मॉडल, डैशबोर्ड और अलर्ट।
महत्वपूर्ण संस्थाओं (धन, विनियमन) के लिए, स्तंभ-स्तर का विवरण आवश्यक है।
3) वंश डेटा मॉडल - प्रमुख इकाइयाँ
Dataset: '{urn, type, schema, मालिक, pii_class, प्रतिधारण, टैग}'
कार्य/कार्य: '{urn, code_ref, संस्करण, रनटाइम, शेड्यूल, मालिक}'
चलाएँ/निष्पादन: '{run _ id, job_urn, start/end, स्थिति, इनपुट [], आउटपुट [], code_sha, infra}'
फ़ील्ड: '{dataset _ urn, नाम, प्रकार, व्युत्पत्ति}' (व्युत्पत्ति - अभिव्यक्ति/एएसटी/ऑपरेटर)।
नीति: '{dataset _ urn/field, access_rules, मास्किंग, consent_scope}'
गुणवत्ता जाँच: '{check _ id, स्कोप, नियम, गंभीरता, परिणाम}'
4) वंश स्रोत: सक्रिय बनाम निष्क्रिय विधानसभा
सक्रिय (घटना-आधारित): "काम शुरू/समाप्त, इनपुट/आउटपुट, कॉलम-मैपिंग" जारी करने के लिए ऑर्केस्ट्रेटर/इंजन (स्पार्क/डीबीटी/एसक्यूएल इंजन/काफ्का) को इंस्ट्रूमेंट करना।
पेशेवरों: सटीकता, प्रासंगिकता, पोस्ट-पार्सिंग को कम करना।
निष्क्रिय (निष्क्रियता): DAG parsim, SQL/DDL/log अनुरोध, निर्देशिका/भंडारण लॉग; निर्भरता को पूर्वव्यापी रूप से बनाएं।
पेशेवरों: तेजी से विरासत कवरेज; विपक्ष: स्तंभ-स्तर पर निचली सटीकता।
आमतौर पर एक हाइब्रिड का उपयोग किया जाता है: सक्रिय घटनाएं जहां संभव हो, और "बीमा ग्रिड" के रूप में निष्क्रिय विश्लेषण।
5) समाधान वास्तुकला (संदर्भ)
निर्माता (ऑर्केस्ट्रेटर/इंजन) → वंश घटना बस → नॉर्मलाइज़र → ग्राफ भंडारण → सूचकांक/खोज → UI/API/अलर्ट → निर्यात/सूची।
घटनाएँ: URN और शब्दार्थ संस्करणों के साथ एकीकृत (नौकरी/रन/डेटासेट/कॉलम-वंश)।
ग्राफ भंडारण: कॉलम-स्तरीय ग्राफ (उदाहरण के लिए, एक ग्राफ डेटाबेस या रिलेशनल + उलटा सूचकांक पर आधारित)।
UI: किनारों और नोड्स पर सबसे छोटे रास्तों, प्रभाव/मूल-कारण, "गुणवत्ता संकेतों" का इंटरैक्टिव दृश्य।
एकीकरण: डेटा कैटलॉग, गुणवत्ता प्रणाली (डीक्यू), एक्सेस कंट्रोल (एबीएसी), ऑडिट (एपेंड-ओनली लॉग)।
6) पहचानकर्ता और संस्करण
प्रत्येक डेटासेट/नौकरियों/क्षेत्रों के लिए URN/ग्लोबल आईडी: स्थिर, मानव-पढ़ने योग्य, मंच/नेमस्पेस/नाम/संस्करण सहित।
स्कीमा संस्करण और कोड संस्करण (कोड SHA, छवि डाइजेस्ट)।
समय-यात्रा वंश: जांच की प्रजनन क्षमता।
7) स्तंभ-स्तरीय वंश: विश्वसनीय कैसे प्राप्त करें
एएसटी निर्माण और उपनाम/सीटीई/बर्फ़ीला तूफ़ान के सामान्यीकरण के साथ एसक्यूएल पार्सिंग।
परिवर्तन कोड में एनोटेशन (डीबीटी परीक्षण, आदिम टिप्पणियां, यूडीएफ-मेटाडेटा)।
इंजन से घटनाएँ: "लक्ष्य निर्दिष्ट करना। col = f (src। a, src। b) "।
शब्दार्थ नियम: यूडीएफ/एकत्रीकरण ऑप्स को "हानिकारक" (दानेदारी के नुकसान के साथ) या "संवेदनशील-संरक्षण" (पीआईआई टैग को स्थानांतरित करता है) के रूप में चिह्नित किया जाता है।
8) गोपनीयता और सुरक्षा के लिए वंश को जोड़ ना
डिजाइन द्वारा गोपनीयता: फील्ड लेबल 'पिआई _ क्लास', 'सहमति _ स्कोप', 'प्रतिधारण'। कॉलम को बढ़ावा देते समय, लेबल नियमों के अनुसार प्रेषित किए जाते हैं (उदाहरण के लिए, 'ईमेल → hash_email' PII-व्युत्पन्न अवशेष)।
पीआईआई टोकन: वंश भंडार टोकन/डिटोकेनाइजेशन तथ्य और टोकन सेवा नोड्स; कोई भी detokenization एक ऑडिट घटना है।
एन्क्रिप्शन: AEAD/FPE फ़ील्ड्स के लिए, वंश "क्रिप्टो स्टेट" और कुंजी क्षेत्र (किरायेदार/स्कोप) को कैप्चर करता है - बिना कुंजी प्रकटीकरण के।
ऑडिट और WORM - वंश की घटनाओं और नीतिगत परिवर्तनों को गैर-संशोधित लॉग (केवल हैश चेन के साथ जोड़ें) में संग्रहीत किया जाता है।
9) डेटा गुणवत्ता और वंश-आधारित एसएलओ
किनारों पर जाँच: ताजगी, पूर्णता, विशिष्टता/कुंजी, वितरण का बहाव।
SLO/SLI: "फिनो-रिपोर्ट मैट्रिक्स खिलाने वाली 95% नौकरियां ≤ 06:00 UTC पूरी हुईं।"
रूट-कारण: ग्राफ + निष्पादन समय "पहले टूटे हुए नोड" की त्वरित परिभाषा देता है।
10) प्रभाव विश्लेषण और परिवर्तन प्रबंधन
स्कीमा/तर्क में एक नियोजित परिवर्तन के मामले में: स्तंभ डाउनस्ट्रीम (डाउनस्ट्रीम) द्वारा - प्रभावित रिपोर्ट/मॉडल/एपीआई ग्राहकों की एक सूची।
ब्रेकिंग पॉलिसी: डाउनस्ट्रीम कलाकृतियों के मालिकों की अनिवार्य अधिसूचना, अनुग्रह अवधि, समानांतर संस्करण ('v1 '/' v2') और सूर्यास्त-तिथि ध्वज।
उपभोक्ताओं की सूची और एक प्रवासन चेकलिस्ट के साथ स्वचालित पीआर/टिकट।
11) ऑर्केस्ट्रेटर और इंजन के साथ एकीकरण
ऑर्केस्ट्रेटर्स: 'रनस्टार्टेड/रनकम्प्लीट' इवेंट्स इनपुट/आउटपुट के साथ काम से पहले/बाद में उत्सर्जित होते हैं।
SQL/ELT: वास्तविक निष्पादन योजना और स्तंभ मानचित्रण प्राप्त करने के लिए इंजन (गोदाम, लेकहाउस) से कनेक्टर।
स्ट्रीम-प्रोसेसिंग: संदेशों का वंश (topic→topic, कुंजी/हेडर), एवरो/प्रोटोबुफ योजनाएं, रजिस्ट्री के माध्यम से योजनाओं का विकास।
एमएल: वंश सुविधाएँ/डेटासेट, मॉडल संस्करण, प्रशिक्षण कलाकृतियां, सुविधा स्रोत।
12) लेबल प्रसार नियमों का मॉडलिंग (डेटा अनुबंध)
डेटा सेट अनुबंध: स्कीमा + फील्ड शब्दार्थ (कुंजी, पीआईआई, एकत्रीकरण, लाइसेंस/कानूनी आधार, प्रतिधारण)।
प्रसार नियम:- 'सेलेक्ट ए, बी फ्रॉम टी' → मूव लेबल 'ए, बी'।
- Detokenization निषिद्ध के साथ 'हैश (ईमेल)' → लेबल 'PII-व्युत्पन्न (छद्म नाम)'।
- 'SUM (राशि)' → व्यक्तित्व का नुकसान; परिणाम क्षेत्र में शामिल होने की अनुमति नहीं है
- अनुबंध सीआई (गैर-अनुपालन के मामले में अवरोधक) में मान्य हैं, और उल्लंघन ऑडिट में घटनाएं हैं।
13) प्रदर्शन और पैमाने
वंश की घटनाओं का वृद्धिशील इंजेक्शन; Deduplication '(run_id, job_urn)' द्वारा।
स्तंभ भंडारण: गर्म सूचकांक का पृथक्करण (अंतिम 30-90 दिन) और संग्रह; स्नैपशॉट।
लगातार अनुरोधों के लिए रास्ते कैचिंग ("गोल्डन" मेट्रिक्स के लिए छोटे रास्ते)।
neimspaces/किरायेदारों द्वारा शार्टिंग; "राक्षस नोड्स" (फैन-आउट सीमा) के खिलाफ सुरक्षा।
14) विज़ुअलाइज़ेशन और यूएक्स
मोड्स:- मीट्रिक के लिए पथ: "जिससे मीट्रिक इकट्ठा होता है।"
- स्रोत से प्रभाव: "जो परिवर्तन से प्रभावित होगा।"
- क्षेत्र वंश: "क्षेत्र की गणना कैसे की जाती है।"
- ओवरले: नौकरी की स्थिति, गुणवत्ता, पीआईआई टैग, प्रतिधारण, मालिक।
- क्रियाएं: एक अनुबंध खोलें, प्रवास के लिए एक टिकट बनाएं, अलर्ट बदलने के लिए सदस्यता लें।
15) ग्राफ तक पहुंच की सुरक्षा
ABAC: नोड/एज दृश्यता किरायेदारों/भूमिकाओं तक सीमित है।
Redaction: अप्रशिक्षित भूमिकाओं के लिए UI में संवेदनशील क्षेत्र के नाम (या उन्हें अलग करना) छिपाना।
एपीआई वंश की घटनाओं के लिए एमटीएलएस/ओआईडीसी को सेवा पहचान के साथ हस्ताक्षरित किया जाता है।
WORM और पढ़ें नियंत्रण: महत्वपूर्ण ग्राफ खंडों को पढ़ ना भी लॉग इन है।
16) ऑपरेशन: एसएलओ, निगरानी, अलर्ट
ग्राफ एसएलओ: घटना विलंब <5 मिनट; कवरेज पूर्णता> महत्वपूर्ण पाइपलाइनों का 98%; 100% "गोल्डन मेट्रिक्स" में कॉलम-लेवल वंश है।
अलर्ट: चेन ब्रेक, बिना पूर्णता की घटनाओं, असंगत योजनाओं, अनाथ डेटासेट, फैन आउट ग्रोथ/साइकिल।
रिपोर्ट: साप्ताहिक "वंश कवरेज की स्थिति", शीर्ष 10 जोखिम नोड्स।
17) गोपनीयता और अनुपालन (बंडल)
GDPR/PbD: स्टोर प्रोसेसिंग बेस और टैग के रूप में प्रतिधारण; वंश संबंधित खंडों के कैस्केड क्रिप्टो विलोपन के माध्यम से तेजी से डीएसएआर पाथफाइंडिंग और "हटाने का अधिकार" प्रदान करता है।
गुप्त प्रबंधन: कच्चे माल तक पहुंच के स्रोत कभी भी खुले क्रेडिट के रूप में वंश में नहीं आते हैं; केवल भूमिका/नीति संदर्भ संग्रहीत है।
ऑडिट/अनमॉडिफाइड लॉग - सभी वंश घटनाओं पर हस्ताक्षर किए जाते हैं और केवल एपेंड-रिपॉजिटरी पर पिन किए जाते हैं (संबंधित लेख देखें)।
18) चेकलिस्ट
प्रारंभ करने से पहले:- डेटासेट/नौकरियों/क्षेत्रों के लिए परिभाषित URN समझौते।
- ऑर्केस्ट्रेटर और इंजन से वंश की घटनाओं के उत्सर्जन को सक्षम।
- SQL/DDL पार्सर और स्कीमा सामान्य कार्य।
- डेटा-अनुबंध और पीआईआई/प्रतिधारण प्रसार नियम अनुमोदित हैं।
- कॉन्फ़िगर WORM घटना लॉग और ग्राफ बैकअप।
- BI/ML वंश उपभोक्ताओं (रिपोर्ट, मॉडल, सुविधाएँ) के रूप में जुड़े हुए हैं।
- महत्वपूर्ण डोमेन के लिए वंश कवरेज ≥ 98%, "धन" = 100% के लिए स्तंभ-स्तर।
- ब्रेक के लिए अलर्ट, अनाथ डेटासेट, सर्किट बहाव चालू हैं।
- पीआईआई टैग और अनुबंधों का त्रैमासिक ऑडिट।
- उपभोक्ताओं को परिवर्तन (ब्रेकिंग) और वितरण का दस्तावेज़ प्रवाह।
19) मिनी व्यंजनों
रनकम्प्लीट इवेंट (छद्म-JSON):json
{
"event": "RunCompleted",
"run": {
"id": "run_2025-10-31T14:20:00Z_42",
"job": "urn:job:etl:finance:close_books_v3",
"status": "SUCCESS",
"code_sha": "b3f9…",
"started_at": "2025-10-31T14:05:00Z",
"ended_at": "2025-10-31T14:19:52Z"
},
"inputs": [
"urn:dataset:lake:bank_txn_v2",
"urn:dataset:warehouse:fx_rates_d+1"
],
"outputs": [
"urn:dataset:warehouse:pnl_daily_v3"
],
"column_lineage": [
{
"output": "pnl_daily_v3. pnl_usd",
"expr": "SUM(txn. amount_local fx. rate)",
"inputs": ["bank_txn_v2. amount_local", "fx_rates_d+1. rate"],
"lossy": true
}
]
}
पीआईआई प्रसार नियम (विचार):
if input. field. pii in {email, phone, id} and transform in {hash, tokenize}:
output. field. pii = "pseudonymized"
elif transform in {aggregate, anonymize_k}:
output. field. pii = "anonymous"
else:
output. field. pii = input. field. pii
प्रभाव क्विस "क्या टूटेगा":
affected = downstream(urn:"urn:dataset:warehouse:users_v4", depth=4)
filter affected where kind in {"dashboard","model","api"} and owner not in {"team-exp"}
20) बार-बार गलतियाँ और उनसे कैसे बचें
औपचारिक मॉडल के बिना वंश "चित्र में"। घटनाओं/योजनाओं/URN की आवश्यकता है, अन्यथा ग्राफ स्केल नहीं किया गया है।
कोई स्तंभ-स्तर नहीं है जहां "पैसा" है। "गणना को एक स्तंभ स्तर के बिना नहीं समझाया जा सकता है।
अधूरी घटनाएँ (code_sha/versii स्कीमा के बिना)। प्रजनन योग्यता संभव नहीं है।
गोपनीयता की अनदेखी करें। पीआईआई टैग को खेतों के साथ रहना और ले जाना चाहिए।
बिना शार्डिंग के एक बड़ा ग्राफ डेटाबेस। Namespaces द्वारा विभाजित करें, स्नैपशॉट संग्रहीत करें।
पार्सर्स में अंधा विश्वास। विवादास्पद मामलों में - इंजन से सक्रिय घटनाएं।
21) Runbook'и
हादसा: मीट्रिक "कूद गया।"
1. "पथ से मीट्रिक" खोलें - पथ पर अंतिम 'रन' नोड्स की जाँच करें।
2. कोड/स्कीमा संस्करणों की जाँच करें, किनारों पर DQ स्थिति की जाँच करें।
3. यदि एक टूटा हुआ लिंक पाया जाता है, तो मालिक के लिए एक टिकट बनाएं, मीट्रिक प्रकाशन के अस्थायी "होल्ड" को सक्षम करें।
4. फिक्स के बाद आरसीए चिह्नित करें और ग्राफ के नोड्स के साथ सहयोगी।
स्रोत स्कीमा परिवर्धित कर रहा है
1. डाउनस्ट्रीम प्रभाव का अनुरोध क
2. मालिकों को सूचना भेजें, माइग्रेशन PRs बनाएँ।
3. समानांतर 'v _ next' उठाएं, दोनों संस्करणों को सूर्यास्त तिथि तक रखें.
4. 'v _ pack' बंद करें, अनुबंध और वंश ग्राफ अद्यतन करें।
संबंधित सामग्री:- "डिजाइन द्वारा गोपनीयता (GDPR)"
- "पीआईआई डेटा टोकेनाइजेशन"
- "गुप्त प्रबंधन"
- "ऑडिट और अपरिवर्तनीय लॉग"
- "एट रेस्ट/इन ट्रांजिट एन्क्रिप्शन"
- "प्रमुख प्रबंधन और घूर्णन"