GH GambleHub

डेटा प्रवाह वास्तुकला

1) उद्देश्य और सिद्धांत

उद्देश्य: एनालिटिक्स, रिपोर्टिंग, धोखाधड़ी विरोधी, निजीकरण और एमएल के लिए सही, समय पर और अनुपालन डेटा देना।

सिद्धांत:
  • एक उत्पाद के रूप में डेटा: स्पष्ट मालिक, अनुबंध, एसएलओ और संस्करण।
  • स्कीमा-प्रथम: योजनाओं की आवश्यकता होती है; नियमों द्वारा विकास।
  • गोपनीयता-दर-डिजाइन: पीआईआई न्यूनतम, उपनाम, पहुंच नियंत्रण।
  • अवलोकन-दर-डिफ़ॉल्ट: निशान, मैट्रिक्स, वंश, गुणवत्ता प्रोफाइल।
  • लागत-जागरूक: टियर-स्टोरेज, नमूना शोर की घटनाओं, संपीड़न।

2) स्रोत और घटना लैंडस्केप

लेन-देन: जमा/निकासी, दांव/भुगतान, बोनस, चार्जबैक।

उपयोगकर्ता: सत्र, क्लिक, रूपांतरण, आरजी सीमा, केवाईसी स्टेटस।

ऑपरेटिंग: एप्लिकेशन लॉग, परफॉर्मेंस मैट्रिक्स, अलर्ट।

प्रदाता: PSP/KYC/प्रतिबंध/गेम स्टूडियो (एग्रीगेटर)।

संदर्भ: गेम कैटलॉग, देश/मुद्रा निर्देशिका, टैरिफ/करों।

घटना टाइपिंग (उदाहरण):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) उच्च-स्तरीय संदर्भ वास्तुकला

1. सबसे बड़ी परत

गेटवे (HTTP/gRPC), CDC कनेक्टर (OLTP से), कतारें/बसें (काफ्का/रेडपांडा), टेलीमेट्री कलेक्टर।

इनपुट पर सत्यापन, सामान्यीकरण, पीआईआई संस्करण, अनुबंध प्रवर्तन।

2. स्ट्रीमिंग परत

डीडुप्लिकेशन, वॉटरमार्क, स्टेटफुल एग्रीगेट्स के साथ स्ट्रीम जैब्स (फ्लिंक/स्पार्क स्ट्रक्चर्ड स्ट्रीमिंग/बीम)।

स्टोरेज और ऑनलाइन सेवाओं के लिए फैन-आउट (फिचस्टोर, एंटी-फ्रॉड)।

3. बैच परत

ऑर्केस्ट्रेशन (एयरफ्लो/डागस्टर), वृद्धिशील डाउनलोड, बैकटेस्ट और रेट्रोप्रोसेस, एससीडी प्रकार।

4. भंडारण (लेकहाउस)

कांस्य: कच्ची घटनाएँ (केवल जोड़ें, अपरिवर्तनीय)।

रजत: गुणवत्ता और कमी के साथ साफ, अनुरूप तालिकाएं।

सोना: विशिष्ट मामलों के लिए शोकेस/मार्ट (बीआई/नियामक/एमएल)।

ACID (डेल्टा/आइसबर्ग/हुडी) के साथ तालिका प्रारूप, गर्म/गर्म/ठंडा लेयरिंग।

5. सेवा और पहुँच

BI/SQL (Trino/Presto/DuckDB), सिमेंटिक लेयर (मेट्रिक्स लेयर), API/GraphQL, ऑनलाइन/ऑफ़लाइन स्थिरता के लिए फ़ीचर स्टोर।

6. शासन और सुरक्षा

निर्देशिका/पंक्ति, डीक्यू नियम, राजनीतिक पहुंच इंजन (आरबीएसी/एबीएसी), मास्किंग/टोकेनाइजेशन, रिपोर्ट के लिए वर्म संग्रह।

4) संविदा और योजनाएं

डेटा अनुबंध: OpenAPI/AsyncAPI/JSON स्कीमा/एवरो।

विकास: शब्दार्थ संस्करण; पिछड़े-संगत परिवर्तन - शून्य क्षेत्रों को जोड़ ना; ब्रेकिंग - केवल '/v2 'और प्रवास अवधि के लिए दोहरी प्रविष्टि के साथ।

रजिस्टर: स्कीमा रजिस्ट्री, डोमेन निर्देशिका (भुगतान, गेमप्ले, विपणन)।

5) एकीकरण पैटर्न

सीडीसी (डेटा कैप्चर बदलें): OLTP से बस (डेबेजियम), डोमेन कुंजी विभाजन।

आउटबॉक्स/इनबॉक्स: डोमेन तर्क घटनाओं की गारंटीकृत डिलीवरी।

बिल्कुल-एक बार/प्रभावी रूप से-एक बार: राज्य में लेनदेन, पहचान सिंक, डीडुप्लिकेशन कुंजियाँ।

लेट डेटा और वॉटरमार्क: देर से होने वाली घटनाओं को संभालना; अनुमत विलंबता के साथ खिड़कियां।

पुनर्प्रसंस्करण: अज्ञात पाइपलाइनें, समय-यात्रा, स्नैपशॉट सुधार।

6) लेकहाउस मॉडल: कांस्य/रजत/सोना

कांस्य (कच्चा):
  • समय (event_date) और बाजार (अधिकार क्षेत्र) पक्ष।
  • केवल जोड़; फोरेंसिक के लिए मूल पेलोड का भंडारण।
रजत (स्वच्छ):
  • सामान्यीकृत प्रकार, संदर्भ पुस्तकें, deduplication '(event_id, event_time)' द्वारा।
  • एफके सत्यापन, मुद्रा मानकीकरण/समय क्षेत्र, संवर्धन।
सोना (सेवा):
  • विकृत शोकेस (GGR, RG स्कोरिंग, LTV, cohort टेबल)।
  • अपडेट करने के लिए SLA, BI और रिपोर्टिंग के लिए समुच्चय।

7) डेटा क्वालिटी

नियम: सर्किट सत्यापन, सीमा, विशिष्टता, पूर्णता, संदर्भ अखंडता।

प्रोफाइलिंग: वितरण, कार्डिनैलिटी, संकेतों का "बहाव"।

निगरानी: p50/p95 पाइपलाइन देरी, ड्रॉप-रेट, त्रुटि बजट।

गिरावट नीति: स्वचालित फॉलबैक (अंतिम स्नैपशॉट), अलर्ट और मेट्रिक्स के लिए टी-परीक्षण।

डीक्यू अनुबंध (YAML) का उदाहरण:
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) गोपनीयता और अनुपालन

पीआईआई न्यूनतम और मास्किंग: स्टोर छद्म-आईडी, अलग-अलग लुक-अप मैपिंग।

क्षेत्रीयकरण: भू-स्थानीय बाल्टी/कैटलॉग (ईईए/यूके/बीआर), "डेटा रेजिडेंसी"।

कानूनी संचालन: DSAR/RTBF (गणना योग्य अनुमान और चयनात्मक संपादन), कानूनी पकड़, अपरिवर्तनीय रिपोर्ट अभिलेखागार।

एक्सेस लॉगिंग: ऑडिट "सेंसिटिव" टेबल, ब्रेक-ग्लास और जेआईटी एक्सेस के बारे में पढ़ ता है।

9) अवलोकन और प्रबंधन

लाइन- स्वचालित रूप से स्रोत से स्टोरफ्रंट तक निर्भरताओं का पता लगाता है।

पाइपलाइन मैट्रिक्स: थ्रूपुट, लैग, विफलता-दर, लागत/जीबी, लागत/क्वेरी।

ट्रेस (ओटीएल): अनुप्रयोगों से 'ट्रेस _ आईडी' को घटनाओं में फेंक दिया जाता है - हम एक एंड-टू-एंड अनुरोध पथ का निर्माण करते हैं।

अलर्ट: एसएलओ बजट, ताजगी/मात्रा/कार्डिनैलिटी विसंगतियाँ।

10) पहुंच और सुरक्षा मॉडल

डेटा श्रेणी: सार्वजनिक/आंतरिक/गोपनीय/प्रतिबंधित।

नीतियां: पंक्ति/स्तंभ-स्तरीय सुरक्षा; गतिशील मास्किंग (पैन/IBAN/ईमेल)।

मुख्य प्रबंधन: KMS/CMK, at-rest/in-transit एन्क्रिप्शन, रोटेशन।

कर्तव्यों का अलगाव: प्रोड/विश्लेषक/व्यवस्थापक/समीक्षक की अलग भूमिकाएं।

11) डेटा मेश और उत्पाद दृष्टिकोण

Домены: भुगतान, गेमप्ले, विपणन, जोखिम, अनुपालन।

डेटा उत्पाद: मालिक, ताजगी एसएलए, क्षेत्र शब्दकोश, परीक्षण, संस्करण, खपत मीट्रिक।

डोमेन के बीच अनुबंध: लंबवत, पिछड़े-संगत, उपभोक्ता-संचालित परीक्षण।

12) फिचस्टोर और एमएल धाराएँ

फीचर रजिस्ट्री: सुविधा विवरण, स्रोत, परिवर्तन, एसएलओ।

ऑनलाइन/ऑफ़लाइन स्थिरता: एक परिवर्तन कोड, ऑनलाइन भौतिककरण में देरी ≤ 200-500 एमएस।

बहाव निगरानी: पीएसआई/केएस, ऑटो-अलर्ट और मॉडल रोलबैक, पीआईआई नियंत्रण।

प्रयोगों का जर्नल: मेटाडेटा, संस्करण, प्रजनन योग्यता, मॉडल मानचित्र।

13) फिनमॉडल और लागत अनुकूलन

लगातार विधेय द्वारा विभाजन और जेड-ऑर्डर/क्लस्टर।

अप्रयुक्त तालिकाओं, VECUUM के लिए शीत भंडारण और टीटीएल।

केवल स्थिर क्वेरी पैटर्न के लिए भौतिक दृश्य।

भारी नौकरियों के लिए कोटा और बजट; टीम द्वारा चार्जबैक।

14) क्षेत्रीय और बहु-किरायेदार टोपोलॉजी

बहु-क्षेत्र सक्रिय-सक्रिय: विषयों और तालिकाओं की प्रतिकृति, स्वतंत्र पाइपलाइन परिधि।

फेलओवर/डीआर: आरपीओ/आरटीओ लक्ष्य, ऑर्केस्ट्रेटर मेटाडेटा स्नैपशॉट, रिकवरी जांच।

बहु-किरायेदारी: निर्देशिका/कुंजी/कोटा अलगाव, tenant_id मार्किंग।

15) प्रक्रियाएं और आरएसीआई (संक्षेप में)

आर: डेटा प्लेटफ़ॉर्म (निगलना, भंडारण, ऑर्केस्ट्रेशन), डेटा इंजीनियरिंग (परिवर्तन)।

A: डेटा के प्रमुख/मुख्य डेटा अधिकारी।

सी: अनुपालन/कानूनी/डीपीओ, वास्तुकला, एसआरई।

I: BI/Analytics, उत्पाद, विपणन, वित्त।

16) प्रवाह के लिए एसएलओ/एसएलआई

ताजगी: p95 देरी सिल्वर ≤ 15 मिनट, गोल्ड (दैनिक) तैयार ≤ 06:00 लॉक। समय।

पूर्णता: ≥ 99। प्रति टी विंडो घटनाओं का 5%।

वैधता: DQ जाँच की त्रुटि दर <0. मात्रा का 5%।

उपलब्धता की सेवा: ≥ 99। BI/फीचर API के लिए 9%।

17) तालिका और विभाजन टेम्पलेट

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) ऑर्केस्ट्रेशन और डेवएक्स

Infra-as-Code: पाइपलाइन रिपॉजिटरी, परीक्षण, समीक्षा, GitOps।

डेटा अनुबंध सीआई: सर्किट लिंटर्स, तैनाती से पहले डीक्यू परीक्षण।

बैकफिल फ्रेमवर्क: R/W और idempotency बाधाओं के साथ सुरक्षित रेट्रो प्रक्रियाएं।

कैटलॉग और टेम्पलेट: कुकी-कटर जनरेटर, सर्वश्रेष्ठ-प्रथाएं।

19) कार्यान्वयन रोडमैप

एमवीपी (4-6 सप्ताह):

1. इवेंट बस + 2-3 प्रमुख स्रोतों (OLTP CDC, API गेटवे) का सबसे निगरानी।

2. लेकहाउस कांस्य/रजत, एसीआईडी प्रारूप, कैटलॉग और बुनियादी डीक्यू नियम।

3. 1-2 गोल्ड केस (दैनिक जीजीआर और रूपांतरण फ़नल)।

4. लैग/पूर्णता मेट्रिक्स, बुनियादी वंश, आरबीएसी और पीआईआई मास्किंग।

चरण 2 (6-12 सप्ताह):
  • स्ट्रीमिंग इकाइयाँ (p95 विलंबता ≤ 5 मिनट), फीचर स्टोर, आरजी/एएमएल शोकेस।
  • मैट्रिक्स की शब्दार्थ परत, रिपोर्टिंग के लिए एसएलए; लागत-डैशबोर्ड।
  • क्षेत्रीयकरण (ईईए/यूके), डीएसएआर/आरटीबीएफ प्रक्रियाएं, कलाकृतियों के लिए कानूनी पकड़।
चरण 3 (12 + सप्ताह):
  • डेटा मेष: उत्पाद डोमेन, उपभोक्ता-संचालित अनुबंध।
  • बहाव निगरानी, ऑनलाइन/ऑफलाइन ऑटो-बातचीत के साथ एमएल संचालन।
  • स्कीमा परिवर्तन (प्रभाव विश्लेषण) और लागत द्वारा "क्या-यदि" का स्वचालित सिमुलेशन।

20) बार-बार गलतियाँ और उनसे कैसे बचें

स्कीमा के बिना कच्चे पेलोड: स्कीमा-प्रथम, रजिस्टर और सीआई सत्यापन लागू करें।

सिल्वर में कोई डीडुप्लिकेशन - इवेंट कुंजियाँ और आइडेम्पोटेंट सिंक नहीं।

पीआईआई को एनालिटिक्स के साथ मिलाएं - अलग मैपिंग और मास्क फ़ील्ड।

मालिक के बिना सोना: मालिक, एसएलओ और खपत मैट्रिक्स असाइन करें।

कोई पुनर्संसाधन रणनीति नहीं है: समय-यात्रा, तर्क संस्करण, "डबल गिनती" नियंत्रण।

असहनीय मूल्य: बैच, संपीड़न, टीटीएल, मूल्य की अवलोकन।

21) शब्दावली (संक्षिप्त)

सीडीसी - कैप्चर OLTP से परिवर्तन।

आउटबॉक्स - हम डोमेन घटनाओं को लेन-देन से प्रकाशित करते हैं।

वाटरमार्क - खिड़कियों के लिए प्रवाह पूर्णता का मूल्यांकन।

लेकहाउस - डेटा लेक + ACID टेबल।

डेटा उत्पाद - मालिक और एसएलओ के साथ डाटा की उत्पाद इकाई।

फीचर स्टोर - एमएल सुविधाओं का सुसंगत वितरण।

22) नीचे की रेखा

डेटा प्रवाह वास्तुकला व्यवस्था की एक प्रबंधनीय प्रणाली है: स्पष्ट अनुबंध, अवलोकन, सुरक्षा और नियंत्रण में लागत। वर्णित पैटर्न (स्कीमा-फर्स्ट, कांस्य/रजत/सोना, सीडीसी + आउटबॉक्स, डीक्यू और वंश, गोपनीयता-दर-डिजाइन) के बाद, मंच विश्वसनीय रूप से व्यापार, अनुपालन और एमएल की आपूर्ति करता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।