उत्पत्ति और डेटा पथ

1) डेटा वंश क्या है

डेटा वंश डेटा की एक "जीवन कहानी" है: जन्म के स्थान (स्रोत) से परिवर्तन और स्टोरफ्रंट, रिपोर्ट और मॉडल में स्थानांतरण के माध्यम से। वंश सवालों के जवाब देता है:

रिपोर्ट में संख्या कहां से आई?
स्कीमा परिवर्तन से कौन से टेबल/फील्ड प्रभावित होंगे?
रात 9 बजे केपीआई क्यों बदल गया। कल?
एक विशिष्ट मॉडल और एमएल संस्करण में क्या डेटा मिला?

आईगेमिंग के लिए, यह विनियमन, वित्तीय रिपोर्टिंग (जीजीआर/नेट), एंटी-फ्रॉड, केवाईसी/एएमएल, जिम्मेदार खेल और उत्पाद परिवर्तनों की उच्च गति के कारण महत्वपूर्ण है।

2) वंश स्तर और दानेदारी

1. व्यापार वंश - मैट्रिक्स और व्यावसायिक शब्दों (शब्दावली से) को दिखाने/सूत्रों से जोड़ ना।

2. तकनीकी पंक्ति (सारणीबद्ध) - तालिकाओं/नौकरियों/रूपांतरण पैकेजों के बीच संबंध।

3. फील्ड/कॉलम-स्तर - कौन सा स्रोत स्तंभ नियमों के साथ गंतव्य स्तंभ बनाता है।

4. रनटाइम-वंश (परिचालन) - वास्तविक रन: समय, खंड, कोड/स्कीमा संस्करण, हैश कलाकृतियाँ।

5. एंड-टू-एंड - एंड-टू-एंड पथ प्रदाता/पीएसपी/सीआरएम से रिपोर्ट/डैशबोर्ड/मॉडल तक।

6. संविदाओं के तहत डोमेन डेटा उत्पादों के बीच क्रॉस-डोमेन/मेश - कनेक्शन।

3) कुंजी मूल्य

ट्रस्ट और ऑडिट: रिपोर्ट और मॉडल की व्याख्या, घटनाओं की तेजी से जांच।

प्रभाव विश्लेषण: योजनाओं/तर्क में सुरक्षित परिवर्तन, रिलीज की पूर्वानुमेयता।

ऑनबोर्डिंग गति: नए विश्लेषक और इंजीनियर परिदृश्य को तेजी से समझते हैं।

अनुपालन: पीआईआई ट्रेसबिलिटी, लीगल होल्ड, नियामकों को रिपोर्टिंग।

लागत अनुकूलन: मृत पाइपलाइनों की पहचान और डुप्लिकेट स्टोरफ्रंट।

4) वस्तुओं और कलाकृतियों

ग्राफ इकाइयाँ: स्रोत (गेम प्रदाता, पीएसपी, सीआरएम), विषय/स्ट्रीम, रॉ/स्टेजिंग, कांस्य/रजत/गोल्ड, डीडब्ल्यूएच, एमएल सुविधाएँ, बीआई मॉडल, डैशबोर्ड।

संबंध: परिवर्तन (SQL/ELT), jabs (Airflow/DBT/...), मॉडल (संस्करण), अनुबंध (एवरो/प्रोटो/JSON स्कीमा)।

विशेषताएं: मालिक, डोमेन, वर्गीकरण, स्कीमा संस्करण, गुणवत्ता नियंत्रण, ताजगी, एसएलओ/एसएलआई।

5) वंश के लिए सत्य के स्रोत

स्थिर: SQL/कॉन्फ़िग्स पार्सिंग (dbt, ETL) → निर्भरता का निर्माण करें।

गतिशील/रनटाइम - रनटाइम पर मेटाडेटा एकत्र करें (ऑर्केस्ट्रेटर में कथन, क्वेरी लॉग)।

घटना: बस (काफ्का/पल्सर) में संदेश प्रकाशित/पढ़ते समय वंशावली की घटनाएं, संविदाओं का सत्यापन।

मैनुअल (न्यूनतम) - जटिल व्यावसायिक तर्क का वर्णन करता है जो स्वचालित रूप से प्राप्त नहीं

6) वंश और डेटा अनुबंध

अनुबंध योजना, शब्दार्थ और एसएलए को ठीक करता है।

संगतता जांच (सेमवर) और पहचान की आवश्यकता है।

Linige अनुबंध/संस्करण और चेक पास करने का तथ्य (CI/CD + runtime) के लिए एक लिंक रखता है।

7) iGaming में वंश: डोमेन उदाहरण

गेम इवेंट्स - RTP एग्रीगेट्स, अस्थिरता, प्रतिधारण, गेम परफॉर्मेंस गोल्ड शोकेस।

भुगतान/आउटपुट/चार्जबैक → GGR/NET रिपोर्ट, धोखाधड़ी विरोधी संकेत।

KYC/AML स्टेटस, चेक, अलर्ट - अनुपालन मामलों और रिपोर्टिंग।

जिम्मेदार गेमिंग → सीमाएं/स्व-बहिष्करण → जोखिम स्कोरिंग और हस्तक्षेप ट्रिगर।

विपणन/सीआरएम अभियान, बोनस, LTV/ARPPU पर प्रभाव।

8) ग्राफ दृश्य

सिफारिशें:

दो मोड "लैंडस्केप मैप" (मैक्रो) और "ट्रैक के माध्यम से" (माइक्रो) फील्ड से फील्ड तक हैं।
फ़िल्टर: डोमेन, मालिक, वर्गीकरण (पीआईआई), पर्यावरण (प्रोड/स्टेज), समय द्वारा।
ओवरले: ताजगी, वॉल्यूम, डीक्यू त्रुटियां, स्कीमा संस्करण।
त्वरित कदम: "आश्रितों को दिखाएं", "इस स्तंभ का उपभोग कौन करता है? ", "केपीआई डैशबोर्ड के लिए पथ।"

9) प्रभाव विश्लेषण और परिवर्तन प्रबंधन

योजना/तर्क को बदलने से पहले, क्या-यदि: कौन सा जाब/शोकेस/डैशबोर्ड/मॉडल प्रभावित होंगे।

आश्रित कलाकृतियों के मालिकों को टिकटों का ऑटोजेनरेशन।

स्टोरफ्रंट के लिए डुअल-राइट/ब्लू-ग्रीन पैटर्न: v2 समानांतर, मीट्रिक तुलना, स्विचिंग में भरा हुआ है।

बैकफिल प्लेबुक: ऐतिहासिक डेटा कैसे और कैसे लोड करें, स्थिरता की जांच कैसे करें।

10) वंश और डेटा गुणवत्ता (DQ)

ग्राफ नोड्स/फील्ड्स के साथ एसोसिएट डीक्यू नियम: वैधता, विशिष्टता, स्थिरता, समयबद्धता।

उल्लंघन के मामले में, पटरियों पर "लाल खंड" प्रदर्शित करें और मालिकों को अलर्ट बढ़ाएं।

डीक्यू घटनाओं का इतिहास और केपीआई पर उनके प्रभाव को रखें।

11) एमएल/एआई के लिए वंश

ट्रेसिबिलिटी - डेटासेट → सुविधाएँ → प्रशिक्षण कोड → मॉडल (संस्करण) → अनुमान।

फिक्स कमिट, प्रशिक्षण मापदंड, फ्रेमवर्क संस्करण, सत्यापन डेटा।

वंश बहाव, मीट्रिक प्रतिगमन और परिणामों को पुन: पेश करने में मदद करता है।

12) वंश और गोपनीयता/अनुपालन

लेबल पीआईआई/वित्तीय क्षेत्र, देश, कानून (जीडीपीआर/स्थानीय), प्रसंस्करण आधार।

नोड्स को चिह्नित करें जहाँ मास्किंग/अलियासिंग/अनाम किया जाता है।

DSAR/राइट को भुलाए जाने के लिए, ट्रैक करें जिसमें विषय विंडो/बैकअप मौजूद है।

13) वंश के लिए मेट्रिक्स (एसएलओ/एसएलआई)

कवरेज: % तालिकाओं/क्षेत्रों का स्तंभ लाइनजेट के साथ।

ताजगी SLI: नोड्स का अनुपात जो SLA अपडेट में फिट होता है।

डीक्यू पास-रेट: महत्वपूर्ण रास्तों द्वारा सफल जांच का अनुपात।

डेटा घटनाओं के लिए MTTD/MTTR।

लीड टाइम बदलें: बातचीत करने और सुरक्षित रूप से एक स्कीमा जारी करने का औसत समय।

मृत परिसंपत्तियां: लावारिस स्टोरफ्रंट/नौकरी का अनुपात।

14) उपकरण (श्रेणियां)

कैटलॉग/शब्दावली/वंश: एकल मेटाडेटा ग्राफ, SQL/ऑर्केस्ट्रेटर/बस से आयात।

ऑर्केस्ट्रेशन: रनटाइम मेटाडेटा, टास्क स्टेटस, एसएलए एकत्र करना।

स्कीमा रजिस्ट्री/अनुबंध - संगतता जांच, संस्करण नीतियां।

डीक्यू/अवलोकन: नियम, विसंगतियाँ, ताजगी, खंड।

सेक/एक्सेस: पीआईआई लेबल, आरबीएसी/एबीएसी, ऑडिटिंग।

एमएल रजिस्ट्री: मॉडल, कलाकृतियों और डेटासेट का एक संस्करण।

15) टेम्पलेट (उपयोग के लिए तैयार)

15. 1 लिंजा यूनिट पासपोर्ट

नाम/डोमेन/पर्यावरण: स्वामी/स्टीवर्ड:

वर्गीकरण: सार्वजनिक/आंतरिक/गोपनीय/प्रतिबंधित (पीआईआई)
स्रोत/इनपुट: टेबल/विषय + अनुबंध संस्करण
परिवर्तन: SQL/कार्य/रेपो + कमिट
आउटपुट/उपभोक्ता: मामले/डैशबोर्ड/मॉडल प्रदर्शित करें

डीक्यू-नियम/एसएलओ:

अवलोकन संकेत: ताजगी, मात्रा, विसंगतियाँ

केपीआई के लिए महत्वपूर्ण पथ निर्भरता:

हादसा इतिहास: टिकट/पोस्टमार्टम के लिंक

15. 2 संचार कार्ड (स्तंभ-स्तर)

क्षेत्र से: स्कीमा। तालिका। कर्नल (प्रकार, शून्य)

क्षेत्र में: स्कीमा। तालिका। कर्नल (प्रकार, शून्य)

परिवर्तन नियम: अभिव्यक्ति/फंक्शन/शब्दको

गुणवत्ता संदर्भ: जाँच, सीमा, संदर्भ

15. 3 हादसा जांच प्लेबुक

1. प्रभावित केपीआई/डैशबोर्ड → 2) स्रोत के लिए अपस्ट्रीम की पहचान करें →

2. प्रत्येक नोड → 4 पर ताजगी/वॉल्यूम/डीक्यू की जाँच करें) अंतिम कोड/योजना परिवर्तन का पता लगाएं →

3. उत्पादन/चरण/कल → 6 की तुलना करें) निर्धारण और बैकफिल → 7) पोस्टमार्टम और भविष्य के लिए शासन करें।

16) प्रक्रियाएं और एकीकरण

ऑन-चेंज: प्रत्येक रेपो में विलय हो जाता है जो स्कीमा/एसक्यूएल को बदलता है जो एक वंश पुनर्निर्माण और प्रभाव विश्लेषण को ट्रिगर करता है।

ऑन-रन: प्रत्येक सफल/असफल काम एक ग्राफ के लिए रनटाइम मेटाडेटा लिखता है।

एक्सेस-हुक: एक्सेस अनुरोध पीआईआई और जिम्मेदार मालिकों का रास्ता दिखाते हैं।

शासन अनुष्ठान: महत्वपूर्ण रास्तों की साप्ताहिक समीक्षा, एसएलओ पर मासिक रिपोर्ट।

17) कार्यान्वयन रोडमैप

0-30 दिन (एमवीपी)

1. महत्वपूर्ण केपीआई/डैशबोर्ड और उनके एंड-टू-एंड रास्तों की पहचान करें।

2. सारणीबद्ध वंश के लिए SQL पार्सिंग/कार्य कनेक्ट करें।

3. नोड/संचार पासपोर्ट और न्यूनतम ताजगी मैट्रिक्स दर्ज करें।

4. प्रमुख रास्तों (केवाईसी, भुगतान) में पीआईआई टैग का वर्णन करें।

60-90 दिन

1. शीर्ष शोकेस के लिए स्तंभ-स्तर पर जाएँ।

2. ऑर्केस्ट्रेटर रनटाइम मेटाडेटा (समय, मात्रा, स्थिति) को एकीकृत करें।

3. एक ग्राफ के साथ एसोसिएट डीक्यू नियम, अलर्ट शामिल हैं।

4. दृश्य: डोमेन/मालिक/पीआईआई द्वारा फिल्टर, ताजगी के ओवरले।

3-6 महीने

1. घटना बस (खेल/भुगतान फ़ीड) पर योजनाओं के अनुबंध और रजिस्टर।

2. पूर्ण ट्रैक एमएल-वंश (dannyye→fichi→model→inferens)।

3. CI में प्रभाव विश्लेषण → निर्भरता मालिकों के लिए स्वचालित टिकट।

4. कॉलम-स्तर कवरेज - सक्रिय स्टोरफ्रंट का%; एसएलओ रिपोर्टिंग।

18) पैटर्न और विरोधी पैटर्न

पैटर्न:

ग्राफ-पहला: परिवर्तनों के "कम्पास" के रूप में एक एकल मेटाडेटा ग्राफ।
अनुबंध-जागरूक वंश: स्कीमा संस्करणों और सत्यापन परिणामों के साथ जुड़ाव।
अवलोकन ओवरले: ग्राफ पर ताजगी/वॉल्यूम/डीक्यू।
उत्पाद-सोच: डोमेन मालिक प्रमाणित "डेटा उत्पाद" प्रकाशित करते हैं।

एंटी-पैटर्न:

स्वचालित संग्रह और समर्थन के बिना "चित्र के लिए चित्र"।
पार्सिंग और रनटाइम-ट्रुथ के बजाय हाथ से आयोजित मन-नक्शे।
महत्वपूर्ण केपीआई पथ में स्तंभ विवरण की कमी।
एक्सेस/पीआईआई और डीएसएआर/लीगल होल्ड प्रक्रियाओं के साथ बाध्यकारी बिना लिंग।

19) व्यावहारिक चेकलिस्ट

डेटा परिवर्तन जारी करने से पहले

अनुबंध अद्यतन, संगतता पारित
निर्भरता प्रभाव विश्लेषण पूरा
v2-शोकेस समानांतर में इकट्ठा, मेट्रिक्स की तुलना
बैकफिल और रोलबैक योजना प्रलेखित

साप्ताहिक अवलोकन

गंभीर रास्ते ताजगी में हरा हैं
कोई अनाथ नौकरी/स्टोरफ्रंट नहीं
डीक्यू घटनाएं बंद और प्रलेखित
स्तंभ-स्तर> लक्ष्य सीमा का कवरेज

कुल

वंश अराजक डेटा धाराओं को क्षेत्र के एक प्रबंधनीय मानचित्र में बदल देता है: आप देख सकते हैं कि कहां से आया, कौन जिम्मेदार है, क्या जोखिम है और सुरक्षित रूप से कैसे बदलना है। IGaming के लिए, यह KPI में विश्वास का एक आधार है, प्रयोगों की गति और परिपक्व अनुपालन।

उत्पत्ति और डेटा पथ

साप्ताहिक अवलोकन

कुल

हमसे संपर्क करें

त्वरित संपर्क

वीडियो जल्द ही अपडेट किया जाएगा

हम इस समय परियोजनाओं में बहुत व्यस्त हैं