उत्पत्ति और डेटा पथ
1) डेटा वंश क्या है
डेटा वंश डेटा की एक "जीवन कहानी" है: जन्म के स्थान (स्रोत) से परिवर्तन और स्टोरफ्रंट, रिपोर्ट और मॉडल में स्थानांतरण के माध्यम से। वंश सवालों के जवाब देता है:- रिपोर्ट में संख्या कहां से आई?
- स्कीमा परिवर्तन से कौन से टेबल/फील्ड प्रभावित होंगे?
- रात 9 बजे केपीआई क्यों बदल गया। कल?
- एक विशिष्ट मॉडल और एमएल संस्करण में क्या डेटा मिला?
आईगेमिंग के लिए, यह विनियमन, वित्तीय रिपोर्टिंग (जीजीआर/नेट), एंटी-फ्रॉड, केवाईसी/एएमएल, जिम्मेदार खेल और उत्पाद परिवर्तनों की उच्च गति के कारण महत्वपूर्ण है।
2) वंश स्तर और दानेदारी
1. व्यापार वंश - मैट्रिक्स और व्यावसायिक शब्दों (शब्दावली से) को दिखाने/सूत्रों से जोड़ ना।
2. तकनीकी पंक्ति (सारणीबद्ध) - तालिकाओं/नौकरियों/रूपांतरण पैकेजों के बीच संबंध।
3. फील्ड/कॉलम-स्तर - कौन सा स्रोत स्तंभ नियमों के साथ गंतव्य स्तंभ बनाता है।
4. रनटाइम-वंश (परिचालन) - वास्तविक रन: समय, खंड, कोड/स्कीमा संस्करण, हैश कलाकृतियाँ।
5. एंड-टू-एंड - एंड-टू-एंड पथ प्रदाता/पीएसपी/सीआरएम से रिपोर्ट/डैशबोर्ड/मॉडल तक।
6. संविदाओं के तहत डोमेन डेटा उत्पादों के बीच क्रॉस-डोमेन/मेश - कनेक्शन।
3) कुंजी मूल्य
ट्रस्ट और ऑडिट: रिपोर्ट और मॉडल की व्याख्या, घटनाओं की तेजी से जांच।
प्रभाव विश्लेषण: योजनाओं/तर्क में सुरक्षित परिवर्तन, रिलीज की पूर्वानुमेयता।
ऑनबोर्डिंग गति: नए विश्लेषक और इंजीनियर परिदृश्य को तेजी से समझते हैं।
अनुपालन: पीआईआई ट्रेसबिलिटी, लीगल होल्ड, नियामकों को रिपोर्टिंग।
लागत अनुकूलन: मृत पाइपलाइनों की पहचान और डुप्लिकेट स्टोरफ्रंट।
4) वस्तुओं और कलाकृतियों
ग्राफ इकाइयाँ: स्रोत (गेम प्रदाता, पीएसपी, सीआरएम), विषय/स्ट्रीम, रॉ/स्टेजिंग, कांस्य/रजत/गोल्ड, डीडब्ल्यूएच, एमएल सुविधाएँ, बीआई मॉडल, डैशबोर्ड।
संबंध: परिवर्तन (SQL/ELT), jabs (Airflow/DBT/...), मॉडल (संस्करण), अनुबंध (एवरो/प्रोटो/JSON स्कीमा)।
विशेषताएं: मालिक, डोमेन, वर्गीकरण, स्कीमा संस्करण, गुणवत्ता नियंत्रण, ताजगी, एसएलओ/एसएलआई।
5) वंश के लिए सत्य के स्रोत
स्थिर: SQL/कॉन्फ़िग्स पार्सिंग (dbt, ETL) → निर्भरता का निर्माण करें।
गतिशील/रनटाइम - रनटाइम पर मेटाडेटा एकत्र करें (ऑर्केस्ट्रेटर में कथन, क्वेरी लॉग)।
घटना: बस (काफ्का/पल्सर) में संदेश प्रकाशित/पढ़ते समय वंशावली की घटनाएं, संविदाओं का सत्यापन।
मैनुअल (न्यूनतम) - जटिल व्यवसाय तर्क का वर्णन करता है जो स्वचालित रूप से पुनर्प्राप्त नहीं है।
6) वंश और डेटा अनुबंध
अनुबंध योजना, शब्दार्थ और एसएलए को ठीक करता है।
संगतता जांच (सेमवर) और पहचान की आवश्यकता है।
Linige अनुबंध/संस्करण और चेक पास करने का तथ्य (CI/CD + runtime) के लिए एक लिंक रखता है।
7) iGaming में वंश: डोमेन उदाहरण
गेम इवेंट्स - RTP एग्रीगेट्स, अस्थिरता, प्रतिधारण, गेम परफॉर्मेंस गोल्ड शोकेस।
भुगतान/आउटपुट/चार्जबैक → GGR/NET रिपोर्ट, धोखाधड़ी विरोधी संकेत।
KYC/AML स्टेटस, चेक, अलर्ट - अनुपालन मामलों और रिपोर्टिंग।
जिम्मेदार गेमिंग → सीमाएं/स्व-बहिष्करण → जोखिम स्कोरिंग और हस्तक्षेप ट्रिगर।
विपणन/सीआरएम अभियान, बोनस, LTV/ARPPU पर प्रभाव।
8) ग्राफ दृश्य
सिफारिशें:- दो मोड "लैंडस्केप मैप" (मैक्रो) और "ट्रैक के माध्यम से" (माइक्रो) फील्ड से फील्ड तक हैं।
- फ़िल्टर: डोमेन, मालिक, वर्गीकरण (पीआईआई), पर्यावरण (प्रोड/स्टेज), समय द्वारा।
- ओवरले: ताजगी, वॉल्यूम, डीक्यू त्रुटियां, स्कीमा संस्करण।
- त्वरित कदम: "आश्रितों को दिखाएं", "इस स्तंभ का उपभोग कौन करता है? ", "केपीआई डैशबोर्ड के लिए पथ।"
9) प्रभाव विश्लेषण और परिवर्तन प्रबंधन
योजना/तर्क को बदलने से पहले, क्या-यदि: कौन सा जाब/शोकेस/डैशबोर्ड/मॉडल प्रभावित होंगे।
आश्रित कलाकृतियों के मालिकों को टिकटों का ऑटोजेनरेशन।
स्टोरफ्रंट के लिए डुअल-राइट/ब्लू-ग्रीन पैटर्न: v2 समानांतर, मीट्रिक तुलना, स्विचिंग में भरा हुआ है।
बैकफिल प्लेबुक: ऐतिहासिक डेटा कैसे और कैसे लोड करें, स्थिरता की जांच कैसे करें।
10) वंश और डेटा गुणवत्ता (DQ)
ग्राफ नोड्स/फील्ड्स के साथ एसोसिएट डीक्यू नियम: वैधता, विशिष्टता, स्थिरता, समयबद्धता।
उल्लंघन के मामले में, पटरियों पर "लाल खंड" प्रदर्शित करें और मालिकों को अलर्ट बढ़ाएं।
डीक्यू घटनाओं का इतिहास और केपीआई पर उनके प्रभाव को रखें।
11) एमएल/एआई के लिए वंश
ट्रेसिबिलिटी - डेटासेट → सुविधाएँ → प्रशिक्षण कोड → मॉडल (संस्करण) → अनुमान।
फिक्स कमिट, प्रशिक्षण मापदंड, फ्रेमवर्क संस्करण, सत्यापन डेटा।
वंश बहाव, मीट्रिक प्रतिगमन और परिणामों को पुन: पेश करने में मदद करता है।
12) वंश और गोपनीयता/अनुपालन
लेबल पीआईआई/वित्तीय क्षेत्र, देश, कानून (जीडीपीआर/स्थानीय), प्रसंस्करण आधार।
नोड्स को चिह्नित करें जहाँ मास्किंग/अलियासिंग/अनाम किया जाता है।
DSAR/राइट को भुलाए जाने के लिए, ट्रैक करें जिसमें विषय विंडो/बैकअप मौजूद है।
13) वंश के लिए मेट्रिक्स (एसएलओ/एसएलआई)
कवरेज: % तालिकाओं/क्षेत्रों का स्तंभ लाइनजेट के साथ।
ताजगी SLI: नोड्स का अनुपात जो SLA अपडेट में फिट होता है।
डीक्यू पास-रेट: महत्वपूर्ण रास्तों द्वारा सफल जांच का अनुपात।
डेटा घटनाओं के लिए MTTD/MTTR।
लीड टाइम बदलें: बातचीत करने और सुरक्षित रूप से एक स्कीमा जारी करने का औसत समय।
मृत परिसंपत्तियां: लावारिस स्टोरफ्रंट/नौकरी का अनुपात।
14) उपकरण (श्रेणियां)
कैटलॉग/शब्दावली/वंश: एकल मेटाडेटा ग्राफ, SQL/ऑर्केस्ट्रेटर/बस से आयात।
ऑर्केस्ट्रेशन: रनटाइम मेटाडेटा, टास्क स्टेटस, एसएलए एकत्र करना।
स्कीमा रजिस्ट्री/अनुबंध - संगतता जांच, संस्करण नीतियां।
डीक्यू/अवलोकन: नियम, विसंगतियाँ, ताजगी, खंड।
सेक/एक्सेस: पीआईआई लेबल, आरबीएसी/एबीएसी, ऑडिटिंग।
एमएल रजिस्ट्री: मॉडल, कलाकृतियों और डेटासेट का एक संस्करण।
15) टेम्पलेट (उपयोग के लिए तैयार)
15. 1 लिंजा यूनिट पासपोर्ट
नाम/डोमेन/पर्यावरण: स्वामी/स्टीवर्ड:- वर्गीकरण: सार्वजनिक/आंतरिक/गोपनीय/प्रतिबंधित (पीआईआई)
- स्रोत/इनपुट: टेबल/विषय + अनुबंध संस्करण
- परिवर्तन: SQL/कार्य/रेपो + कमिट
- आउटपुट/उपभोक्ता: मामले/डैशबोर्ड/मॉडल प्रदर्शित करें
- अवलोकन संकेत: ताजगी, मात्रा, विसंगतियाँ
- हादसा इतिहास: टिकट/पोस्टमार्टम के लिंक
15. 2 संचार कार्ड (स्तंभ-स्तर)
क्षेत्र से: स्कीमा। तालिका। कर्नल (प्रकार, शून्य)
क्षेत्र में: स्कीमा। तालिका। कर्नल (प्रकार, शून्य)
परिवर्तन नियम: अभिव्यक्ति/फंक्शन/शब्दको
गुणवत्ता संदर्भ: जाँच, सीमा, संदर्भ
15. 3 हादसा जांच प्लेबुक
1. प्रभावित केपीआई/डैशबोर्ड → 2) स्रोत के लिए अपस्ट्रीम की पहचान करें →
2. प्रत्येक नोड → 4 पर ताजगी/वॉल्यूम/डीक्यू की जाँच करें) अंतिम कोड/योजना परिवर्तन का पता लगाएं →
3. उत्पादन/चरण/कल → 6 की तुलना करें) निर्धारण और बैकफिल → 7) पोस्टमार्टम और भविष्य के लिए शासन करें।
16) प्रक्रियाएं और एकीकरण
ऑन-चेंज: प्रत्येक रेपो में विलय हो जाता है जो स्कीमा/एसक्यूएल को बदलता है जो एक वंश पुनर्निर्माण और प्रभाव विश्लेषण को ट्रिगर करता है।
ऑन-रन: प्रत्येक सफल/असफल काम एक ग्राफ के लिए रनटाइम मेटाडेटा लिखता है।
एक्सेस-हुक: एक्सेस अनुरोध पीआईआई और जिम्मेदार मालिकों का रास्ता दिखाते हैं।
शासन अनुष्ठान: महत्वपूर्ण रास्तों की साप्ताहिक समीक्षा, एसएलओ पर मासिक रिपोर्ट।
17) कार्यान्वयन रोडमैप
0-30 दिन (एमवीपी)
1. महत्वपूर्ण केपीआई/डैशबोर्ड और उनके एंड-टू-एंड रास्तों की पहचान करें।
2. सारणीबद्ध वंश के लिए SQL पार्सिंग/कार्य कनेक्ट करें।
3. नोड/संचार पासपोर्ट और न्यूनतम ताजगी मैट्रिक्स दर्ज करें।
4. प्रमुख रास्तों (केवाईसी, भुगतान) में पीआईआई टैग का वर्णन करें।
60-90 दिन
1. शीर्ष शोकेस के लिए स्तंभ-स्तर पर जाएँ।
2. ऑर्केस्ट्रेटर रनटाइम मेटाडेटा (समय, मात्रा, स्थिति) को एकीकृत करें।
3. एक ग्राफ के साथ एसोसिएट डीक्यू नियम, अलर्ट शामिल हैं।
4. दृश्य: डोमेन/मालिक/पीआईआई द्वारा फिल्टर, ताजगी के ओवरले।
3-6 महीने
1. घटना बस (खेल/भुगतान फ़ीड) पर योजनाओं के अनुबंध और रजिस्टर।
2. पूर्ण ट्रैक एमएल-वंश (dannyye→fichi→model→inferens)।
3. CI में प्रभाव विश्लेषण → निर्भरता मालिकों के लिए स्वचालित टिकट।
4. कॉलम-स्तर कवरेज - सक्रिय स्टोरफ्रंट का%; एसएलओ रिपोर्टिंग।
18) पैटर्न और विरोधी पैटर्न
पैटर्न:- ग्राफ-पहला: परिवर्तनों के "कम्पास" के रूप में एक एकल मेटाडेटा ग्राफ।
- अनुबंध-जागरूक वंश: स्कीमा संस्करणों और सत्यापन परिणामों के साथ जुड़ाव।
- अवलोकन ओवरले: ग्राफ पर ताजगी/वॉल्यूम/डीक्यू।
- उत्पाद-सोच: डोमेन मालिक प्रमाणित "डेटा उत्पाद" प्रकाशित करते हैं।
- स्वचालित संग्रह और समर्थन के बिना "चित्र के लिए चित्र"।
- पार्सिंग और रनटाइम-ट्रुथ के बजाय हाथ से आयोजित मन-नक्शे।
- महत्वपूर्ण केपीआई पथ में स्तंभ विवरण की कमी।
- एक्सेस/पीआईआई और डीएसएआर/लीगल होल्ड प्रक्रियाओं के साथ बाध्यकारी बिना लिंग।
19) व्यावहारिक चेकलिस्ट
डेटा परिवर्तन जारी करने से पहले
- अनुबंध अद्यतन, संगतता पारित
- निर्भरता प्रभाव विश्लेषण पूरा
- v2-शोकेस समानांतर में इकट्ठा, मेट्रिक्स की तुलना
- बैकफिल और रोलबैक योजना प्रलेखित
साप्ताहिक समीक्
- गंभीर रास्ते ताजगी में हरे रंग के होते हैं
- कोई अनाथ नौकरी/स्टोरफ्रंट नहीं
- डीक्यू घटनाएं बंद और प्रलेखित
- स्तंभ-स्तर> लक्ष्य सीमा का कवरेज
परिणाम
वंश अराजक डेटा धाराओं को क्षेत्र के एक प्रबंधनीय मानचित्र में बदल देता है: आप देख सकते हैं कि कहां से आया, कौन जिम्मेदार है, क्या जोखिम है और सुरक्षित रूप से कैसे बदलना है। IGaming के लिए, यह KPI में विश्वास का एक आधार है, प्रयोगों की गति और परिपक्व अनुपालन।