डेटा गोदाम
1) iGaming में DWH का उद्देश्य और भूमिका
DWH रिपोर्टिंग, एनालिटिक्स, अनुपालन और ML के लिए केंद्रीय डेटा समेकन और सेवारत परत है। यह प्रदान करता है:- सामान्य मीट्रिक परिभाषाएँ (GGR/NGR, ARPPU, प्रतिधारण, मंथन)।
- नियामकों और आंतरिक हितधारकों के लिए प्रजनन योग्य रिपोर्ट।
- BI/ऑपरेटिंग पैनल और मॉडल के लिए स्रोतों के लिए तेजी से स्टोरफ्रंट।
- प्लेटफ़ॉर्म-स्तर की गुणवत्ता नियंत्रण, वंश और सुरक्षा।
2) वास्तुशिल्प विकल्प
2. 1 क्लासिक DWH
ETL → DWH → BI।
पेशेवरों: प्रबंधनीय मॉडल, मजबूत स्थिरता।
विपक्ष: महंगे डाउनलोड, जटिल बैकफिल, सीमित लचीलापन।
2. 2 लेकहाउस DWH
ACID टेबल (डेल्टा/आइसबर्ग/हुडी) + SQL/MPP इंजन पर कांस्य/रजत/गोल्ड।
पेशेवरों: एकीकृत भंडारण, समय-यात्रा, सरल पुनर्प्रसंस्करण।
विपक्ष: परतों और डीक्यू, परिपक्व ऑर्केस्ट्रेशन के अनुशासन की आवश्यकता है।
2. 3 हाइब्रिड
हाई-स्पीड रीडिंग के लिए लेकहाउस "सत्य का स्रोत" (कांस्य/रजत), एमपीपी में डीडब्ल्यूएच-मार्च (क्लिकहाउस/पिनोट/ड्र्यूड/क्लाउड डीडब्ल्यूएच)।
पेशेवरों: लागत और प्रदर्शन का संतुलन, लचीला स्टोरफ्रंट।
विपक्ष: सर्किट और स्केटिंग के लिए दोहरे समर्थन, तुल्यकालन की आवश्यकता है।
सिफारिश: iGaming के लिए - लेकहाउस + DWH-मार्च (हाइब्रिड)। कांस्य/रजत - मानकीकरण, गोल्ड/रियल-टाइम मार्ट - रीडिंग लोड परोसें।
3) डेटा मॉडलिंग
3. 1 स्टार और स्नोफ्लेक
तथ्य तालिकाएं: संकीर्ण, घटना-चालित: 'तथ्य _ शर्त', 'तथ्य _ भुगतान', 'तथ्य _ भुगतान'।
आयाम: 'dim _ user' (SCD), 'dim _ games', 'dim _ providers', 'dim _ markes'।
सिल्वर (सामान्यीकरण), स्टार - इन गोल्ड (रीडिंग) में स्नोफ्लेक उपयुक्त है।
3. 2 डेटा वॉल्ट 2। 0 (एकीकरण कोर)
हब (व्यवसाय कुंजी), लिंक (संबंध), उपग्रह (संदर्भ/इतिहास)।
लंबे समय तक रहने वाले प्रदाता/पीएसपी एकीकरण के लिए रजत में आवेदन करें।
3. 3 SCD I/II/III
आरजी/केवाईसी/चैनलों और गेम विशेषताओं (आरटीपी/अस्थिरता) के लिए एससीडी II।
सख्त अंतराल 'वैध _ for/valid _ to', समय में जुड़ें सही.
4) लोड: ईटीएल/ईएलटी, सीडीसी और वेतन वृद्धि
ईएलटी दृष्टिकोण: डीडब्ल्यूएच में सिल्वर → परिवर्तन में लोड करना।
सीडीसी: ओएलटीपी से डेबेजियम/लॉग प्रतिकृति; मेरज़ीपहचाने जाने वाले हैं।
वृद्धि: समय पर पानी ('अद्यतन _ at> max_loaded_ts') और/या हैश डेल्टा।
बैकफिल/रिप्रोसेसिंग: टाइम-ट्रैवल, रेंज, कोटा, ड्राई-रन तुलना।
MERGE (उदाहरण):sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) शब्दार्थ परत और मैट्रिक्स
मेट्रिक्स स्टोर/सिमेंटिक लेयर: समान सूत्र GGR/NGR/रूपांतरण/LTV।
प्रजनन क्षमता के लिए मैट्रिक्स और "के रूप में" गणना।
कन्वेंशन मीट्रिक नाम, इकाइयाँ, मुद्रा (आधार EUR), और 'fx _ source' हैं।
6) स्टोरफ्रंट और सेवा
गोल्ड शोकेस: denormalized, SLA तैयार (उदाहरण के लिए, 06:00 बजे तक लॉक।) .
ऑपरेशनल मार्ट्स: 1-5 मिनट के पैनलों के लिए क्लिकहाउस/पिनोट/ड्र्यूड।
निर्यात: CSV/JSON/PDF + हैश; नियामकों के लिए अपरिवर्तनीय पैकेट (WORM)।
जीजीआर डेली उदाहरण:sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) डेटा गुणवत्ता (डीक्यू) और अनुबंध
स्कीमा-पहला: JSON/एवरो रजिस्ट्री + संगतता परीक्षण (उपभोक्ता-चालित)।
DQ- как - код: पूर्णता/वैधता/विशिष्टता/FK/रेंज/टेम्पोरल।
प्रतिक्रिया नीतियां: महत्वपूर्ण → विफल + डीएलक्यू; प्रमुख/मामूली → टैग और रिपोर्ट।
डीक्यू अवलोकन: ताजगी/पूर्णता/वैधता डैशबोर्ड, खोए हुए रिकॉर्ड फ़नल।
8) सुरक्षा, गोपनीयता और निवास
पीआईआई कम से कम: छद्म-आईडी के माध्यम से उपयोगकर्ता; मैपिंग अलग से।
आरएलएस/सीएलएस: भूमिका और अधिकार क्षेत्र द्वारा लाइन-बाय-लाइन/पोस्ट-टेबल एक्सेस।
एन्क्रिप्शन: टीएलएस इन-ट्रांजिट; एट-रेस्ट - रोटेशन के साथ केएमएस/सीएमके।
डेटा रेजीडेंसी: EEA/UK/BR के लिए अलग निर्देशिका और कुंजी; बिना कारण के क्रॉस-क्षेत्रीय शामिल होने
DSAR/RTBF: गणना योग्य अनुमान और चयनात्मक संपादन; रिपोर्टिंग कलाकृतियों पर कानूनी पकड़।
9) प्रदर्शन और लागत (लागत इंजीनियरिंग)
विभाजन: तिथि/बाजार/किरायेदार द्वारा; क्लस्टरिंग/जेड-ऑर्डर बाय 'मार्केट', 'प्रदाता _ आईडी', 'गेम _ आईडी', 'user _ seudo _ id'।
प्रारूप: Parquet + सांख्यिकी और संपीड़न; शेड्यूल पर ऑप्टिमाइज ़/वैक्यूम।
भौतिककरण: स्थिर समुच्चय और सारांश तालिकाएं; "वसा" मक्खी पर शामिल होने से बचें।
कोटा/चार्जबैक: भारी अनुरोध/रिप्ले के लिए बजट; रिपोर्ट लागत/क्वेरी, लागत/जीबी।
स्तरीय भंडारण: गर्म/गर्म/ठंडा; स्पष्ट वसूली SLAs।
10) अवलोकन और प्रबंधन
पाइपलाइन मैट्रिक्स: अवधि, वॉल्यूम, रिट्रे, लैग्स, फॉल्ट टॉलरेंस।
DWH मैट्रिक्स: प्रतिक्रिया समय/प्रतिस्पर्धा/कैश हिट/मूल्य।
वंश: स्रोतों से रिपोर्ट तक ग्राफ; परिवर्तनों पर प्रभाव विश्लेषण
SLO: फ्रेशनेस सिल्वर p95 ≤ 15 мин; स्वर्ण - 06:00 बजे तक तैयार; वैधता ≥ 99। 9%; पूर्णता ≥ 99। 5%; उपलब्धता ≥ 99। 9%.
11) बहु-किरायेदारी और डोमेन अलगाव
किरायेदार/बाजार में स्कीमा/डेटाबेस/कैटलॉग द्वारा प्रभाग।
कोटा और संसाधन समूह; "शोर पड़ोसियों" को सीमित करना।
किरायेदारों, मानकीकृत संविदाओं के बीच निर्यात/आयात नीतियां।
12) डेटा रजिस्टर और प्रलेखन
डेटा कैटलॉग: मालिक, एसएलए, स्कीमा, उदाहरण, डीक्यू नियम, वंश।
मेट्रिक्स/डैशबोर्ड: सूत्रों के साथ कार्ड और जिम्मेदार।
लॉग बदलें: तर्क, प्रवासन, प्रभाव के संस्करण।
13) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): डेटा इंजीनियरिंग (मॉडल सिल्वर/गोल्ड, डीएजी 'i), डेटा प्लेटफॉर्म (इन्फ्रा, रजिस्ट्री, डीक्यू)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वित्त (एफएक्स/जीजीआर), जोखिम (आरजी/एएमएल), एसआरई (SLO/стоимость)।
I (सूचित): BI, उत्पाद, विपणन, संचालन।
14) कार्यान्वयन रोडमैप
एमवीपी (4-6 सप्ताह):1. लेकहाउस कांस्य/रजत (ACID टेबल), भुगतान/गेमप्ले के लिए सीडीसी/वेतन वृद्धि।
2. पहला गोल्ड शोकेस (जीजीआर डेली, रूपांतरण), एसएलए 06:00 बजे तक।
3. DQ-लाइक-कोड (10-15 नियम) + ताजगी/पूर्णता डैशबोर्ड।
4. मेट्रिक्स की डेटा कैटलॉग और बेस सिमेंटिक परत।
चरण 2 (6-12 सप्ताह):- SCD II для उपयोगकर्ता/गेम/प्रदाता; डोमेन विस्तार।
- रियल-टाइम/पास-रियल-टाइम पैनल के लिए ऑनलाइन मार्च (क्लिकहाउस/पिनोट)।
- वंश/प्रभाव विश्लेषण, DSAR/RTBF प्रक्रियाएं, क्षेत्रीयकरण (EEA/UK)।
- परिवर्तन (ड्राई-रन), रीप्ले और मेट्रिक्स की तुलना का ऑटो-सिमुलेशन।
- चार्जबैक/कोटा, लागत-डैशबोर्ड; डीआर अभ्यास और समय-यात्रा वसूली।
- शोकेस प्रलेखन और मैट्रिक्स कार्ड की ऑटो-पीढ़ी।
15) SQL टेम्पलेट के उदाहरण
वास्तविक दरें (रजत, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
एससीडी II से कनेक्शन (शर्त के समय आरजी स्थिति प्राप्त करें):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
बाजार द्वारा पूर्णता नियंत्रण:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) प्री-सेल चेकलिस्ट
- रजिस्ट्री में योजनाएं और अनुबंध, संगतता परीक्षण हरे रंग के हैं।
- सीडीसी/वेतन वृद्धि और MERGE प्रक्रियाएं निष्क्रिय हैं।
- गोल्ड शोकेस में एसएलए हैं, मीट्रिक सूत्र तय हैं।
- डीक्यू नियम सक्रिय हैं (महत्वपूर्ण → विफल + डीएलक्यू), ताजगी/पूर्णता डैशबोर्ड।
- RBAC/ABAC, एन्क्रिप्शन, क्षेत्र द्वारा निवास, एक्सेस लॉग।
- वंश/प्रभाव सक्षम; समय-यात्रा/बैकअप/डीआर जाँच की।
- नियंत्रण में लागत: पार्टियां, क्लस्टरिंग, भौतिककरण, कोटा।
17) एंटी-पैटर्न और जोखिम
"परतों के बिना एक वसा DWH": कच्चे और रिपोर्ट किए गए डेटा - अराजकता और महंगे सुधार।
पूर्ण रूप से रोजाना लोड करें: वेतन वृद्धि/सीडीसी का उपयोग करें।
मालिक और सूत्रों के बिना सोना: सत्य के एकल संस्करण की कमी - विवाद और प्रतिगमन।
विश्लेषणात्मक परतों में पीआईआई: मैपिंग को अलग रखें, सीएलएस/आरएलएस।
कोई डीक्यू/वंश नहीं: नियामकों/ऑडिट के लिए कोई सबूत नहीं।
असहनीय लागत: कोई बैच/अनुकूलन/कोटा नहीं।
18) शब्दावली (संक्षिप्त)
DWH समेकन और एनालिटिक्स के लिए एक डेटा गोदाम है।
लेकहाउस - डेटा लेक + ACID टेबल और SQL इंजन।
सीडीसी - कैप्चर OLTP से परिवर्तन।
एससीडी - धीरे-धीरे बदलते माप (I/II/III)।
गोल्ड शोकेस - रेडी-टू-उपभोग रिपोर्ट शीट/प्रस्तुति।
शब्दार्थ परत - मैट्रिक्स और विशेषताओं की एक समान परिभाषा।
19) नीचे की रेखा
IGaming के लिए आधुनिक DWH एक "बड़ीमेज" नहीं है, लेकिन एक प्रबंधनीय मंच है: कांस्य/रजत/गोल्ड परतें, सख्त अनुबंध और DQ, वर्दी मैट्रिक्स और वंश, गोपनीयता और निवास, प्रदर्शन और दक्षता। लेकहाउस + डीडब्ल्यूएच-मार्च हाइब्रिड का निर्माण करके, आपके पास ऑडिट, स्केल और नए बाजारों के लिए तैयार करने का तेज और सत्यापित निर्णय होगा।