डेटा प्रवाह वास्तुकला
1) उद्देश्य और सिद्धांत
उद्देश्य: एनालिटिक्स, रिपोर्टिंग, धोखाधड़ी विरोधी, निजीकरण और एमएल के लिए सही, समय पर और अनुपालन डेटा देना।
सिद्धांत:- एक उत्पाद के रूप में डेटा: स्पष्ट मालिक, अनुबंध, एसएलओ और संस्करण।
- स्कीमा-प्रथम: योजनाओं की आवश्यकता होती है; नियमों द्वारा विकास।
- गोपनीयता-दर-डिजाइन: पीआईआई न्यूनतम, उपनाम, पहुंच नियंत्रण।
- अवलोकन-दर-डिफ़ॉल्ट: निशान, मैट्रिक्स, वंश, गुणवत्ता प्रोफाइल।
- लागत-जागरूक: टियर-स्टोरेज, नमूना शोर की घटनाओं, संपीड़न।
2) स्रोत और घटना लैंडस्केप
लेन-देन: जमा/निकासी, दांव/भुगतान, बोनस, चार्जबैक।
उपयोगकर्ता: सत्र, क्लिक, रूपांतरण, आरजी सीमा, केवाईसी स्टेटस।
ऑपरेटिंग: एप्लिकेशन लॉग, परफॉर्मेंस मैट्रिक्स, अलर्ट।
प्रदाता: PSP/KYC/प्रतिबंध/गेम स्टूडियो (एग्रीगेटर)।
संदर्भ: गेम कैटलॉग, देश/मुद्रा निर्देशिका, टैरिफ/करों।
घटना टाइपिंग (उदाहरण):json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) उच्च-स्तरीय संदर्भ वास्तुकला
1. सबसे बड़ी परत
गेटवे (HTTP/gRPC), CDC कनेक्टर (OLTP से), कतारें/बसें (काफ्का/रेडपांडा), टेलीमेट्री कलेक्टर।
इनपुट पर सत्यापन, सामान्यीकरण, पीआईआई संस्करण, अनुबंध प्रवर्तन।
2. स्ट्रीमिंग परत
डीडुप्लिकेशन, वॉटरमार्क, स्टेटफुल एग्रीगेट्स के साथ स्ट्रीम जैब्स (फ्लिंक/स्पार्क स्ट्रक्चर्ड स्ट्रीमिंग/बीम)।
स्टोरेज और ऑनलाइन सेवाओं के लिए फैन-आउट (फिचस्टोर, एंटी-फ्रॉड)।
3. बैच परत
ऑर्केस्ट्रेशन (एयरफ्लो/डागस्टर), वृद्धिशील डाउनलोड, बैकटेस्ट और रेट्रोप्रोसेस, एससीडी प्रकार।
4. भंडारण (लेकहाउस)
कांस्य: कच्ची घटनाएँ (केवल जोड़ें, अपरिवर्तनीय)।
रजत: गुणवत्ता और कमी के साथ साफ, अनुरूप तालिकाएं।
सोना: विशिष्ट मामलों के लिए शोकेस/मार्ट (बीआई/नियामक/एमएल)।
ACID (डेल्टा/आइसबर्ग/हुडी) के साथ तालिका प्रारूप, गर्म/गर्म/ठंडा लेयरिंग।
5. सेवा और पहुँच
BI/SQL (Trino/Presto/DuckDB), सिमेंटिक लेयर (मेट्रिक्स लेयर), API/GraphQL, ऑनलाइन/ऑफ़लाइन स्थिरता के लिए फ़ीचर स्टोर।
6. शासन और सुरक्षा
निर्देशिका/पंक्ति, डीक्यू नियम, राजनीतिक पहुंच इंजन (आरबीएसी/एबीएसी), मास्किंग/टोकेनाइजेशन, रिपोर्ट के लिए वर्म संग्रह।
4) संविदा और योजनाएं
डेटा अनुबंध: OpenAPI/AsyncAPI/JSON स्कीमा/एवरो।
विकास: शब्दार्थ संस्करण; पिछड़े-संगत परिवर्तन - शून्य क्षेत्रों को जोड़ ना; ब्रेकिंग - केवल '/v2 'और प्रवास अवधि के लिए दोहरी प्रविष्टि के साथ।
रजिस्टर: स्कीमा रजिस्ट्री, डोमेन निर्देशिका (भुगतान, गेमप्ले, विपणन)।
5) एकीकरण पैटर्न
सीडीसी (डेटा कैप्चर बदलें): OLTP से बस (डेबेजियम), डोमेन कुंजी विभाजन।
आउटबॉक्स/इनबॉक्स: डोमेन तर्क घटनाओं की गारंटीकृत डिलीवरी।
बिल्कुल-एक बार/प्रभावी रूप से-एक बार: राज्य में लेनदेन, पहचान सिंक, डीडुप्लिकेशन कुंजियाँ।
लेट डेटा और वॉटरमार्क: देर से होने वाली घटनाओं को संभालना; अनुमत विलंबता के साथ खिड़कियां।
पुनर्प्रसंस्करण: अज्ञात पाइपलाइनें, समय-यात्रा, स्नैपशॉट सुधार।
6) लेकहाउस मॉडल: कांस्य/रजत/सोना
कांस्य (कच्चा):- समय (event_date) और बाजार (अधिकार क्षेत्र) पक्ष।
- केवल जोड़; फोरेंसिक के लिए मूल पेलोड का भंडारण।
- सामान्यीकृत प्रकार, संदर्भ पुस्तकें, deduplication '(event_id, event_time)' द्वारा।
- एफके सत्यापन, मुद्रा मानकीकरण/समय क्षेत्र, संवर्धन।
- विकृत शोकेस (GGR, RG स्कोरिंग, LTV, cohort टेबल)।
- अपडेट करने के लिए SLA, BI और रिपोर्टिंग के लिए समुच्चय।
7) डेटा क्वालिटी
नियम: सर्किट सत्यापन, सीमा, विशिष्टता, पूर्णता, संदर्भ अखंडता।
प्रोफाइलिंग: वितरण, कार्डिनैलिटी, संकेतों का "बहाव"।
निगरानी: p50/p95 पाइपलाइन देरी, ड्रॉप-रेट, त्रुटि बजट।
गिरावट नीति: स्वचालित फॉलबैक (अंतिम स्नैपशॉट), अलर्ट और मेट्रिक्स के लिए टी-परीक्षण।
डीक्यू अनुबंध (YAML) का उदाहरण:yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) गोपनीयता और अनुपालन
पीआईआई न्यूनतम और मास्किंग: स्टोर छद्म-आईडी, अलग-अलग लुक-अप मैपिंग।
क्षेत्रीयकरण: भू-स्थानीय बाल्टी/कैटलॉग (ईईए/यूके/बीआर), "डेटा रेजिडेंसी"।
कानूनी संचालन: DSAR/RTBF (गणना योग्य अनुमान और चयनात्मक संपादन), कानूनी पकड़, अपरिवर्तनीय रिपोर्ट अभिलेखागार।
एक्सेस लॉगिंग: ऑडिट "सेंसिटिव" टेबल, ब्रेक-ग्लास और जेआईटी एक्सेस के बारे में पढ़ ता है।
9) अवलोकन और प्रबंधन
लाइन- स्वचालित रूप से स्रोत से स्टोरफ्रंट तक निर्भरताओं का पता लगाता है।
पाइपलाइन मैट्रिक्स: थ्रूपुट, लैग, विफलता-दर, लागत/जीबी, लागत/क्वेरी।
ट्रेस (ओटीएल): अनुप्रयोगों से 'ट्रेस _ आईडी' को घटनाओं में फेंक दिया जाता है - हम एक एंड-टू-एंड अनुरोध पथ का निर्माण करते हैं।
अलर्ट: एसएलओ बजट, ताजगी/मात्रा/कार्डिनैलिटी विसंगतियाँ।
10) पहुंच और सुरक्षा मॉडल
डेटा श्रेणी: सार्वजनिक/आंतरिक/गोपनीय/प्रतिबंधित।
नीतियां: पंक्ति/स्तंभ-स्तरीय सुरक्षा; गतिशील मास्किंग (पैन/IBAN/ईमेल)।
मुख्य प्रबंधन: KMS/CMK, at-rest/in-transit एन्क्रिप्शन, रोटेशन।
कर्तव्यों का अलगाव: प्रोड/विश्लेषक/व्यवस्थापक/समीक्षक की अलग भूमिकाएं।
11) डेटा मेश और उत्पाद दृष्टिकोण
Домены: भुगतान, गेमप्ले, विपणन, जोखिम, अनुपालन।
डेटा उत्पाद: मालिक, ताजगी एसएलए, क्षेत्र शब्दकोश, परीक्षण, संस्करण, खपत मीट्रिक।
डोमेन के बीच अनुबंध: लंबवत, पिछड़े-संगत, उपभोक्ता-संचालित परीक्षण।
12) फिचस्टोर और एमएल धाराएँ
फीचर रजिस्ट्री: सुविधा विवरण, स्रोत, परिवर्तन, एसएलओ।
ऑनलाइन/ऑफ़लाइन स्थिरता: एक परिवर्तन कोड, ऑनलाइन भौतिककरण में देरी ≤ 200-500 एमएस।
बहाव निगरानी: पीएसआई/केएस, ऑटो-अलर्ट और मॉडल रोलबैक, पीआईआई नियंत्रण।
प्रयोगों का जर्नल: मेटाडेटा, संस्करण, प्रजनन योग्यता, मॉडल मानचित्र।
13) फिनमॉडल और लागत अनुकूलन
लगातार विधेय द्वारा विभाजन और जेड-ऑर्डर/क्लस्टर।
अप्रयुक्त तालिकाओं, VECUUM के लिए शीत भंडारण और टीटीएल।
केवल स्थिर क्वेरी पैटर्न के लिए भौतिक दृश्य।
भारी नौकरियों के लिए कोटा और बजट; टीम द्वारा चार्जबैक।
14) क्षेत्रीय और बहु-किरायेदार टोपोलॉजी
बहु-क्षेत्र सक्रिय-सक्रिय: विषयों और तालिकाओं की प्रतिकृति, स्वतंत्र पाइपलाइन परिधि।
फेलओवर/डीआर: आरपीओ/आरटीओ लक्ष्य, ऑर्केस्ट्रेटर मेटाडेटा स्नैपशॉट, रिकवरी जांच।
बहु-किरायेदारी: निर्देशिका/कुंजी/कोटा अलगाव, tenant_id मार्किंग।
15) प्रक्रियाएं और आरएसीआई (संक्षेप में)
आर: डेटा प्लेटफ़ॉर्म (निगलना, भंडारण, ऑर्केस्ट्रेशन), डेटा इंजीनियरिंग (परिवर्तन)।
A: डेटा के प्रमुख/मुख्य डेटा अधिकारी।
सी: अनुपालन/कानूनी/डीपीओ, वास्तुकला, एसआरई।
I: BI/Analytics, उत्पाद, विपणन, वित्त।
16) प्रवाह के लिए एसएलओ/एसएलआई
ताजगी: p95 देरी सिल्वर ≤ 15 मिनट, गोल्ड (दैनिक) तैयार ≤ 06:00 लॉक। समय।
पूर्णता: ≥ 99। प्रति टी विंडो घटनाओं का 5%।
वैधता: DQ जाँच की त्रुटि दर <0. मात्रा का 5%।
उपलब्धता की सेवा: ≥ 99। BI/फीचर API के लिए 9%।
17) तालिका और विभाजन टेम्पलेट
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) ऑर्केस्ट्रेशन और डेवएक्स
Infra-as-Code: पाइपलाइन रिपॉजिटरी, परीक्षण, समीक्षा, GitOps।
डेटा अनुबंध सीआई: सर्किट लिंटर्स, तैनाती से पहले डीक्यू परीक्षण।
बैकफिल फ्रेमवर्क: R/W और idempotency बाधाओं के साथ सुरक्षित रेट्रो प्रक्रियाएं।
कैटलॉग और टेम्पलेट: कुकी-कटर जनरेटर, सर्वश्रेष्ठ-प्रथाएं।
19) कार्यान्वयन रोडमैप
एमवीपी (4-6 सप्ताह):1. इवेंट बस + 2-3 प्रमुख स्रोतों (OLTP CDC, API गेटवे) का सबसे निगरानी।
2. लेकहाउस कांस्य/रजत, एसीआईडी प्रारूप, कैटलॉग और बुनियादी डीक्यू नियम।
3. 1-2 गोल्ड केस (दैनिक जीजीआर और रूपांतरण फ़नल)।
4. लैग/पूर्णता मेट्रिक्स, बुनियादी वंश, आरबीएसी और पीआईआई मास्किंग।
चरण 2 (6-12 सप्ताह):- स्ट्रीमिंग इकाइयाँ (p95 विलंबता ≤ 5 मिनट), फीचर स्टोर, आरजी/एएमएल शोकेस।
- मैट्रिक्स की शब्दार्थ परत, रिपोर्टिंग के लिए एसएलए; लागत-डैशबोर्ड।
- क्षेत्रीयकरण (ईईए/यूके), डीएसएआर/आरटीबीएफ प्रक्रियाएं, कलाकृतियों के लिए कानूनी पकड़।
- डेटा मेष: उत्पाद डोमेन, उपभोक्ता-संचालित अनुबंध।
- बहाव निगरानी, ऑनलाइन/ऑफलाइन ऑटो-बातचीत के साथ एमएल संचालन।
- स्कीमा परिवर्तन (प्रभाव विश्लेषण) और लागत द्वारा "क्या-यदि" का स्वचालित सिमुलेशन।
20) बार-बार गलतियाँ और उनसे कैसे बचें
स्कीमा के बिना कच्चे पेलोड: स्कीमा-प्रथम, रजिस्टर और सीआई सत्यापन लागू करें।
सिल्वर में कोई डीडुप्लिकेशन - इवेंट कुंजियाँ और आइडेम्पोटेंट सिंक नहीं।
पीआईआई को एनालिटिक्स के साथ मिलाएं - अलग मैपिंग और मास्क फ़ील्ड।
मालिक के बिना सोना: मालिक, एसएलओ और खपत मैट्रिक्स असाइन करें।
कोई पुनर्संसाधन रणनीति नहीं है: समय-यात्रा, तर्क संस्करण, "डबल गिनती" नियंत्रण।
असहनीय मूल्य: बैच, संपीड़न, टीटीएल, मूल्य की अवलोकन।
21) शब्दावली (संक्षिप्त)
सीडीसी - कैप्चर OLTP से परिवर्तन।
आउटबॉक्स - हम डोमेन घटनाओं को लेन-देन से प्रकाशित करते हैं।
वाटरमार्क - खिड़कियों के लिए प्रवाह पूर्णता का मूल्यांकन।
लेकहाउस - डेटा लेक + ACID टेबल।
डेटा उत्पाद - मालिक और एसएलओ के साथ डाटा की उत्पाद इकाई।
फीचर स्टोर - एमएल सुविधाओं का सुसंगत वितरण।
22) नीचे की रेखा
डेटा प्रवाह वास्तुकला व्यवस्था की एक प्रबंधनीय प्रणाली है: स्पष्ट अनुबंध, अवलोकन, सुरक्षा और नियंत्रण में लागत। वर्णित पैटर्न (स्कीमा-फर्स्ट, कांस्य/रजत/सोना, सीडीसी + आउटबॉक्स, डीक्यू और वंश, गोपनीयता-दर-डिजाइन) के बाद, मंच विश्वसनीय रूप से व्यापार, अनुपालन और एमएल की आपूर्ति करता है।