डेटा जीवनचक्र
1) उद्देश्य और सिद्धांत
लक्ष्य शुरुआत से अंतिम स्वभाव तक डेटा के अनुमानित, अनुपालन और लागत-प्रभावी आंदोलन को सक्षम करना है, विश्लेषणात्मक, परिचालन और नियामक परिदृश्यों का समर्थन करना है।
बुनियादी सिद्धांत:- उत्पाद के रूप में डेटा: प्रत्येक सेट में एक मालिक, अनुबंध, एसएलओ, प्रलेखन होता है।
- स्कीमा-प्रथम: योजनाओं की आवश्यकता होती है; परिवर्तन - संस्करण के माध्यम से
- गोपनीयता-दर-डिजाइन: पीआईआई न्यूनतम, छद्म नामकरण, क्षेत्रीय भंडारण।
- अवलोकन-दर-डिफ़ॉल्ट: मैट्रिक्स, एक्सेस लॉगिंग, वंश।
- लागत-जागरूक: भंडारण स्तर, टीटीएल, नमूना, संपीड़न।
2) जीवन चक्र चरण
2. 1 बनाएँ/इकट्ठा करें
स्रोत: उत्पाद (वेब/मोबाइल), बैकेंड, भुगतान, केवाईसी/एएमएल प्रदाता, गेम/स्टूडियो, विपणन, ऑपरेटिंग लॉग।
पहचानकर्ता: 'event _ id', 'उपयोगकर्ता। pseudo_id', 'सत्र _ आईडी', 'ट्रेस _ आईडी'।
अनुबंध: JSON/एवरो योजनाएँ, AsyncAPI/OpenAPI।
इनपुट गुणवत्ता: योजनाओं का सत्यापन, अनिवार्य क्षेत्र, आकार सीमा, एंटी-डुप्लिकेट।
गोपनीयता: संवेदनशील क्षेत्रों का टोकन, भू-रूटिंग निगेस्ट (ईईए/यूके/बीआर)।
2. 2 इनगेस्ट एंड रॉ
परिवहन: HTTP/gRPC → एज → बस (काफ्का/रेडपांडा)।
कच्ची परत (कांस्य): एपेंड-ओनली, अपरिवर्तनीय पेलोड (फोरेंसिक के लिए), समय/बाजार/किरायेदार द्वारा विभाजन।
राजनेता: '(event_id, स्रोत)' द्वारा डीडअप, "टूटी हुई" घटनाओं के लिए डीएलक्यू, लीगल होल्ड टैग।
2. 3 प्रसंस्करण और सफाई (रिफाइन)
सामान्यीकरण (रजत): टाइपिंग, डीडुप्लीकेशन, निर्देशिका, एफएक्स/टाइमज़ोन, संवर्धन।
गुणवत्ता (डीक्यू): पूर्णता/विशिष्टता/रेंज/संदर्भ अखंडता।
पुनर्संसाधन: पहचान करने वाले कन्वेयर, समय-यात्रा, नियंत्रित बैकफिल।
2. 4 सेवा/उपयोग
गोल्ड शोकेस: BI/रिपोर्टिंग (GGR, RG, AML), उत्पाद और जोखिम मॉडल, वास्तविक समय के शोकेस।
पहुंच: SQL/Trino, सिमेंटिक मेट्रिक्स लेयर, API/GraphQL, फीचर स्टोर।
एसएलए ताजगी: उदाहरण के लिए, गोल्ड-दैनिक शोकेस स्थानीय समयानुसार 06:00 बजे तक तैयार होते हैं।
2. 5 शेयर और प्रकाशन
आंतरिक उपभोक्ता: एनालिटिक्स, उत्पाद, जोखिम, अनुपालन, विपणन, वित्त।
बाहरी ऑफलोड: नियामक, भागीदार/प्रदाता; अपरिवर्तनीय पैकेज (PDF/CSV/JSON + हैश)।
मॉनिटर किए गए चैनल: हस्ताक्षरित कलाकृतियां, ऑडिट डाउनलोड/निर्यात।
2. 6 आर्काइव/रिटेन
प्रतिधारण नीतियां: डेटा प्रकार और अधिकार क्षेत्र द्वारा (उदा। नियामक - 5-7 वर्ष)।
भंडारण परतें: गर्म/गर्म/ठंडा, अपरिवर्तनीयता के लिए WORM/ऑब्जेक्ट लॉक।
पुरालेख अनुक्रमण: निर्देशिका, संस्करण/बाजार लेबल, त्वरित मेटाडेटा खोज।
2. 7 निकालें और खत्म करें (निपटान)
सामान्य हटाना: टीटीएल/प्रतिधारण; सुरक्षित सफाई, अद्यतन सूचकांक।
कानूनी लेनदेन: DSAR/RTBF (भूल जाने का अधिकार), कानूनी भंडारण दायित्वों के अपवाद, कानूनी पकड़ (फ्रीज हटाने)।
सत्यापन: विलोपन रिपोर्ट, ऑडिट लॉग, क्रॉस-प्रतिकृति नियंत्रण।
3) वर्गीकरण और सूची
संवेदनशीलता श्रेणी: सार्वजनिक/आंतरिक/गोपनीय/प्रतिबंधित।
Домены: भुगतान, गेमप्ले, अनुपालन/एएमएल, आरजी, विपणन, ऑप्स, वित्त।
डेटा कैटलॉग: विवरण, मालिक, ताजगी एसएलए, योजनाएं, वंश, पहुंच स्तर।
Теги: 'क्षेत्राधिकार', 'किरायेदार', 'पीआई _ क्लास', 'रिटेंशन _ क्लास', 'लीगल _ होल्ड'।
4) लेकहाउस मॉडल और स्कीमैटिक्स
कांस्य/रजत/स्वर्ण: परिवर्तन और जिम्मेदारी के लिए स्पष्ट नियम।
प्रारूप: ACID (डेल्टा/आइसबर्ग/हुडी) के साथ Parquet + तालिका प्रारूप।
योजनाओं का विकास: शब्दार्थ संस्करण, अनुदैर्ध्य संगतता, परिवर्तनों को तोड़ ने के लिए दोहरी प्रवेश प्रवास।
रजिस्ट्री: स्कीमा रजिस्ट्री, अनुबंधों का सीआई-सत्यापन, उपभोक्ता-संचालित परीक्षण।
5) डेटा गुणवत्ता (DQ)
गुणवत्ता मेट्रिक्स:- पूर्णता - वास्तव में प्राप्त घटनाओं/पंक्तियों का प्रतिशत।
- वैधता: स्कीमा मान्यता पारित करने वाले अभिलेखों का अनुपात।
- विशिष्टता: डुप्लिकेट नियंत्रण।
- संगति: संदर्भ पुस्तकों और लिंक का अनुपालन।
- ताजगी: देरी से आगमन/भौतिककरण।
- कोड (YAML/SQL परीक्षण), डैशबोर्ड, SLO अलर्ट के रूप में DQ नियम।
- गिरावट के दौरान ऑटो-फॉलबैक (अंतिम सही कट)।
6) गोपनीयता और अनुपालन
पीआईआई कम से कम: स्टोर छद्म-आईडी, मैपिंग को एक अलग लूप में ले जाएं।
मास्किंग और आरएलएस/सीएलएस: स्तंभ/पंक्ति स्तर पर; गतिशील नीतियां।
क्षेत्रीयकरण: बाजार द्वारा डेटा निवास; अलग निर्देशिका/एन्क्रिप्शन कुंजियाँ।
DSAR/RTBF: नियंत्रित अनुमान, चयनात्मक संपादन, ऑडिट मुद्दे।
कानूनी पकड़: फ्रीज मार्क, अपरिवर्तनीय अभिलेखागार, एक्सेस लॉगिंग।
7) पहुंच और सुरक्षा
प्रमाणीकरण/प्राधिकरण: एसएसओ, आरबीएसी/एबीएसी, न्यायालयों और भूमिकाओं के गुण।
एन्क्रिप्शन: टीएलएस इन-ट्रांजिट; केएमएस/सीएमके के माध्यम से आराम; कुंजी घुमाव।
अभिगम लॉग: कौन/क्या/कब/कहाँ; बड़े पैमाने पर निर्यात/स्कैन के लिए अलर्ट।
कर्तव्यों का पृथक्करण: प्रोड/एनालिटिक्स/प्रशासन/समीक्षकों के लिए विभिन्न भूमिकाएं।
8) वंश और अवलोकन
तकनीकी वंश: स्रोत से परिवर्तन शोकेस - रिपोर्ट।
परिचालन वंश: रिलीज के साथ लिंक, फ्लैग, मॉडल, एएमएल/आरजी नियम।
प्लेटफ़ॉर्म मेट्रिक्स: थ्रूपुट, लैग, विफलता-दर, लागत/क्वेरी, लागत/जीबी।
ट्रेसिंग: अनुप्रयोगों से स्टोरफ्रंट/अलर्ट में 'ट्रेस _ आईडी' स्थानांतरित करना।
9) समय मॉडल और रेट्रोप्रोसेस
इवेंट-टाइम बनाम प्रोसेसिंग-टाइम: приоритет इवेंट-टाइम, वॉटरमार्क/अनुमत विलंबता।
बैकफिल और पुनर्संसाधन: पहचान पाइपलाइन, समय-यात्रा, "डबल काउंटिंग" का नियंत्रण।
बचत राज्य: टीटीएल, स्नैपशॉट, आपदा वसूली।
10) अर्थशास्त्र और लागत नियंत्रण
विभाजन (तिथि/बाजार/किरायेदार), क्लस्टरिंग/जेड-ऑर्डरिंग।
उच्च-आवृत्ति एनालिटिक्स के लिए नमूना (लेनदेन/अनुपालन के लिए नहीं)।
मल्टी-लेयर स्टोरेज (गर्म/गर्म/ठंडा), स्वचालित टीटीएल।
टीम द्वारा बजट/चार्जबैक, भारी अनुरोधों और बैकफिल पर सीमा।
11) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): डेटा प्लेटफ़ॉर्म (इनगेस्ट/स्टोरेज/ऑर्केस्ट्रेशन), डेटा इंजीनियरिंग (ट्रांसफॉर्मेशन), डोमेन मालिक (कॉन्ट्रैक्ट/डीक्यू/एसएलओ)।
ए (जवाबदेह): डेटा के प्रमुख/मुख्य डेटा अधिकारी।
सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वास्तुकला, एसआरई, सुरक्षा।
मैं (सूचित): BI/Продукт/Маркетинг/Финансы/Операции।
12) एसएलओ/एसएलआई (नमूना लक्ष्य)
13) डैशबोर्ड
डोमेन/बाजार द्वारा ताजगी गर्मी का नक्शा।
थ्रेड द्वारा पूर्णता/वैधता।
भंडारण और प्रश्नों की लागत (परत और कमांड द्वारा)।
महत्वपूर्ण रिपोर्टों (नियामक, जीजीआर, आरजी/एएमएल) के लिए वंश मानचित्र।
DSAR/RTBF कतारें, लीगल होल्ड स्टैटस।
14) प्रतिधारण नीति टेम्पलेट (उदाहरण)
वास्तविक तिथियां कानूनी/डीपीओ और स्थानीय कानून द्वारा निर्धारित की जाती हैं।
15) प्रलेखन और मानक
डेटा उत्पाद पृष्ठ: मालिक, गंतव्य, एसएलए, स्कीमा, डीक्यू नियम, संपर्क।
लॉग बदलें: स्कीमा/तर्क संस्करण, प्रभाव विश्लेषण, प्रवासन।
रनबुक: पुनर्संसाधन, बैकफिल, आपातकालीन परिदृश्य, फ्रिज बटन।
16) कार्यान्वयन रोडमैप
एमवीपी (4-6 सप्ताह):1. डेटा कैटलॉग और वर्गीकरण (शीर्ष डोमेन), बुनियादी योजनाएं और रजिस्टर।
2. लेकहाउस कांस्य/रजत, सत्यापन और कमी के साथ अंतर्ग्रहण।
3. 1-2 स्वर्ण मामले (जैसे) जीजीआर और रूपांतरण)।
4. न्यूनतम डीक्यू नियम और ताजगी/पूर्णता डैशबोर्ड।
5. प्रतिधारण नीतियां और आरबीएसी तक पहुंच।
चरण 2 (6-12 सप्ताह):- वंश, मैट्रिक्स की शब्दार्थ परत, DSAR/RTBF प्रक्रियाएँ।
- क्षेत्रीयकरण (EEA/UK), नियामक कलाकृतियों के लिए WORM, कानूनी पकड़।
- लागत अनुकूलन, एसएलओ अलर्ट, बजट रिपोर्टिंग।
- डेटा मेश (डोमेन उत्पाद), उपभोक्ता-संचालित अनुबंध और परीक्षण।
- योजनाओं/तर्क, रिप्ले बदलते समय प्रभाव का स्वचालित सिमुलेशन।
- एकल अनुपालन पैनल (नियामक, पहुंच, डीक्यू, वंश)।
17) प्री-सेल चेकलिस्ट
- योजनाओं को मंजूरी, रजिस्टर में अनुबंध, संगतता परीक्षण।
- डीक्यू नियम सक्रिय हैं, अलर्ट कॉन्फ़िगर किए गए हैं, एसएलओ सेट हैं।
- RBAC/ABAC भूमिकाओं की जाँच की गई, एक्सेस लॉग सक्षम।
- कानूनी/डीपीओ द्वारा प्रतिधारण/विलोपन/संग्रह नीतियों को मान्य किया गया है।
- DSAR/RTBF/लीगल होल्ड प्रक्रियाओं का दस्तावेजीकरण और परीक्षण किया जाता है।
- वंश/मैट्रिक्स/लागत डैशबोर्ड में प्रदर्शित होते हैं।
- बैकफिल/रिप्रोसेसिंग/डीआर के लिए रनबुक तैयार हैं।
18) बार-बार गलतियाँ और उनसे कैसे बचें
कोई एकल वर्गीकरण और निर्देशिका नहीं है: अनिवार्य डेटा उत्पाद कार्ड दर्ज करें।
योजनाओं के बिना कच्चा डेटा: स्कीमा-पहला + सीआई सत्यापन।
कोई हटाने योग्यता नहीं: शुरू से डिजाइन TTL और RTBF प्रक्रियाएँ।
पीआईआई और एनालिटिक्स मिश्रण: अलग से मैपिंग स्टोर करें, मास्किंग लागू करें।
मालिक और एसएलओ के बिना सोना: मालिक और ताजगी के लक्ष्य प्रदान करें।
अप्रबंधित लागत: बैच, संपीड़न, टियर-स्टोरेज, कोटा।
19) शब्दावली (संक्षिप्त)
DSAR/RTBF - डाटा विषय अनुरोध/सही मिटाएँ।
कानूनी पकड़ - कानूनी कारणों से फ्रीज हटाना।
वंश - उत्पत्ति और परिवर्तनों की पता लगाने की क्षमता।
डेटा उत्पाद एसएलए के साथ डेटा की एक प्रबंधित उत्पाद इकाई है।
डीक्यू - डेटा गुणवत्ता नियम और मैट्रिक्स।
लेकहाउस - डेटा झील और एसीआईडी तालिकाओं का संयोजन।
20) नीचे की रेखा
डेटा जीवनचक्र एक प्रबंधित व्यवस्था प्रणाली है, न कि केवल एक फ़ाइल गोदाम। स्पष्ट अनुबंध और योजनाएं, वर्गीकरण और सूची, औसत दर्जे की गुणवत्ता, गोपनीयता और सुरक्षा, लागत प्रभावी भंडारण वास्तुकला और पारदर्शी वंश डेटा को एक विश्वसनीय संपत्ति बनाते हैं जो आश्चर्य और छिपे हुए जोखिमों के बिना उत्पाद है।