डेटा संवर्धन
1) उद्देश्य और व्यवसाय मूल्य
संवर्धन संदर्भ और संकेतों को जोड़ कर "कच्चे" घटनाओं को उपयोगी तथ्यों में बदल देता है:- वित्त/रिपोर्टिंग: मात्रा का एफएक्स-सामान्यीकरण, बाजारों/कर दरों के लिए बाध्यकारी, जीजीआर/एनजीआर की गणना।
- अनुपालन/एएमएल/आरजी: जोखिम स्कोर, प्रतिबंध/पीईपी टैग, आरजी सीमा, व्यवहार संबंधी विशेषताएं।
- विपणन/उत्पाद: यातायात स्रोत, खंड, मिशन/quests, निजीकरण।
- SRE/ऑपरेशंस: ट्रैफिक, क्लाइंट/डिवाइस टाइप, फीचर फ्लैग और रिलीज के लिए जियो/ASN।
प्रमुख परिणाम मॉडल की सटीकता, रिपोर्ट की गुणवत्ता और निर्णय लेने की गति में सुधार है।
2) संवर्धन स्रोत (उदाहरण कैटलॉग)
संदर्भ/कैटलॉग: खेल, प्रदाता, बाजार/न्यायालय, मुद्राएं, कर तालिका, छुट्टी कैलेंडर।
KYC/KYB/RG: सत्यापन स्तर, स्थिति, आत्म-बहिष्करण, सीमा, आयु समूह।
एएमएल/प्रतिबंध/पीईपी: स्क्रीनिंग हिट, सूची, जोखिम स्तर।
नेटवर्क और उपकरण: IP→geo/ASN, डिवाइस/ओएस/ब्राउज़र, डिवाइस फिंगरप्रिंट।
भुगतान प्रदाता (PSP): बिन टेबल, विधियाँ, MCC, जोखिम टैग।
FX/समय: घटना तिथि पर विनिमय दरें, स्थानीय समय क्षेत्र/DST।
सामग्री और विपणन: स्रोत/अभियान/यूटीएम, सहयोगी, खंड।
मॉडल और हेयूरिस्टिक्स: पूर्व-प्रशिक्षित स्कोरिंग, एम्बेडिंग, स्पष्ट मानचित्रण।
3) संवर्धन के प्रकार
लुकअप-जोड़: कुंजी द्वारा बिंदु मानचित्रण (game_id, BIN, ip_range, user_pseudo_id)।
आयाम संलग्न: तथ्यों के साथ आयाम (मंद।) संलग्न करना।
व्युत्पन्न क्षेत्र: गणना किए गए स्तंभ (amount_base, local_time, tax_rate)।
एकत्रीकरण/वेग: खिड़कियों के लिए काउंटर (एन दरें/मिनट, जमा की राशि/घंटा)।
जोखिम/व्यवहार संबंधी विशेषताएं: "अंतिम घटना के बाद से समय", शेयर-ऑफ-वॉलेट, रात की गतिविधि।
भू/एएसएन/उपकरण: देश कोड, क्षेत्र, ऑपरेटर, उपकरण/ब्राउज़र प्रकार।
सिमेंटिक मैपिंग: प्रदाता/खेल वर्गीकरण, खिलाड़ी समूह।
ऑनलाइन/ऑफलाइन मॉडलिंग के लिए एमएल फीचर्स (फीचर स्टोर)
4) कहां समृद्ध करें: बैच बनाम स्ट्रीम
स्ट्रीम (वास्तविक समय): एंटीफ्राड, आरजी ट्रिगर, एसआरई अलर्ट - p95 देरी ≤ 2-5 एस; कैश (Redis/Scylla) की तलाश, समय के साथ प्रदाताओं को अतुल्यकालिक अनुरोध।
बैच (माइक्रो-बैच/दैनिक): गोल्ड शोकेस (जीजीआर/आरजी/एएमएल), सामंजस्य, रिपोर्ट - स्थिरता और पूर्णता विलंबता से अधिक महत्वपूर्ण हैं।
हाइब्रिड: तेजी से ऑनलाइन सुविधा + रात को फिर से संवर्धन (सुलह/सटीकता)।
5) वास्तुशिल्प संदर्भ
1. कांस्य - कच्ची घटनाएँ (केवल जोड़ें)।
2. सिल्वर (स्वच्छ/अनुरूप) - सामान्यीकरण, कुंजी, प्राथमिक लुकअप 'और (fx, geo, dim।)।
3. संवर्धन परत - विस्तारित विशेषताएं, विंडो समुच्चय, जोखिम लेबल।
4. फीचर स्टोर - विशेषता रजिस्टर (ऑनलाइन/ऑफ़लाइन स्थिरता)।
5. द्वितीय/नियामक/मॉडल के लिए स्वर्ण - शोकेस; अपरिवर्तनीय कलाकृतियाँ।
6. सेवाएं - एपीआई/ग्राफक्यूएल, रिपोर्ट किए गए निर्यात, वास्तविक समय अलर्ट।
घटक: काफ्का/रेडपांडा, फ्लिंक/स्पार्क/बीम, रेडिस/स्काइला (लुकअप), क्लिकहाउस/पिनोट (लाइव रीडिंग), लेकहाउस (डेल्टा/आइसबर्ग/हुडी)।
6) संविदा और योजनाएं
स्कीमा-प्रथम: 'ईवेंट _ टाइम', 'स्कीमा _ वर्जन', स्थिर कुंजी (user_pseudo_id, game_id, transaction_id)।
संवर्धन चिह्न: 'संवर्धन। संस्करण ',' संवर्धन। स्रोत ',' fx _ source ',' geo _ source ',' मॉडल _ version '।
वर्शनिंग: नई सुविधाओं को शून्य के रूप में जोड़ा जाता है; ब्रेकिंग परिवर्तन - '/v2 'और डबल प्रविष्टि के माध्यम से।
7) संवर्धन उदाहरण (SQL/स्यूडोकोड)
7. 1 एफएक्स सामान्यीकरण और स्थानीय समय
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 जियो/एएसएन आईपी द्वारा (स्यूडोकोड)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. जमा गति के 3 विंडो संकेत (धारा)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. आरजी सीमा के साथ 4 इंटरफेस
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) संवर्धन की गुणवत्ता (डीक्यू)
न्यूनतम नियम:- FX: 'fx _ rate _ used' NULL नहीं, 'fx _ source' व्हाइटलिस्ट से, 'mate _ base ≥ 0' की गणना।
- जियो/एएसएन: निर्देशिका में सफल लुकअप ≥ 98% (बाजार द्वारा), 'देश' की हिस्सेदारी।
- RG/AML लेबल: 'वैध _ to/valid _ to' (SCD II) प्रतिच्छेद नहीं करते हैं; इतिहास में "छेद" की अनुपस्थिति।
- समुच्चय/विंडो: विंडो की शुद्धता (कोई दोहरी गिनती नहीं), पूर्णता ≥ 99। 5%.
- मॉडल संस्करण: 'मॉडल _ संस्करण' वर्तमान, सुविधा बहाव नियंत्रण।
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) गोपनीयता और अनुपालन
पीआईआई कम से कम: छद्म-आईडी, वास्तविक पहचानकर्ताओं द्वारा समृद्ध - एक अलग लूप में।
भू-स्थानीयकरण और निवास: क्षेत्र द्वारा मार्ग (ईईए/यूके/बीआर), अलग एन्क्रिप्शन कुंजियाँ।
DSAR/RTBF: समृद्ध अनुमानों को "छुपाव "/पुनर्विकास का समर्थन करना चाहिए; अपवादों के लिए कानूनी आधार रखें।
कानूनी पकड़: रिपोर्टेबल कलाकृतियों/मामलों के लिए फ्रीज विलोपन।
10) अवलोकन और वंश
वंशावली: कच्ची घटना से → लुकअप/एग्रीगेट्स → डिस्प्ले/मॉडल; स्रोत संस्करण ('fx _ source', 'geo _ source', 'bin _ source') फिक्स करें।
SLI/SLO: ताजगी p95 (रजत) ≤ 15 мин; सफल जियो-लुकअप ≥ 98%; पूर्ण प्रमुख विशेषताओं के साथ रिकॉर्ड का अनुपात ≥ 99% विलंबता समृद्ध धारा p95 ≤ 2-5 एस।
डैशबोर्ड: स्रोतों द्वारा गर्मी मानचित्र पूर्णता, संदर्भ पुस्तकों/मॉडल के संस्करणों का नक्शा, "महंगे" शामिल होने की निगरानी, संकेतों का बहाव।
11) लागत और प्रदर्शन
कैश/भौतिककरण: लगातार देखने 'और रेडिस/स्काइला में; आवधिक स्नैपशॉट।
कॉम्पैक्ट संकेत: स्टोर एग्रीगेट्स ("कच्ची" सूची नहीं); पार्केट/स्तंभ प्रारूप का उपयोग करें।
विभाजन: तिथि/बाजार/किरायेदार द्वारा; अक्सर फ़िल्टर किए गए फ़ील्ड द्वारा
अनुकूली आवृत्ति: भारी समृद्ध-नौकरियां - रात में; realtime - केवल महत्वपूर्ण।
चार्जबैक: लागत/क्वेरी और लागत/टीम/सुविधा द्वारा जीबी लेखांकन।
12) पैटर्न और विरोधी पैटर्न
पैटर्न:- आरजी/केवाईसी/प्रदाताओं के लिए आयाम लुकअप + एससीडी II।
- टाइमआउट और फॉलबैक के साथ Async संवर्धन (लेबल "अज्ञात" + दोहराएं)।
- ऑनलाइन/ऑफ़लाइन बातचीत और पुनरावृत्ति परीक्षणों के साथ फीचर स्टोर।
- संवर्धन के लिए नियम-ए-कोड (दहलीज/श्रेणीबद्ध मानचित्र)।
- कैश के बिना गर्म पथ में बाहरी एपीआई के लिए कठोर बंधन।
- अनलेबल स्रोत संस्करण ('fx _ source', 'geo _ source').
- सिल्वर (लागत/जटिलता विस्फोट) में "सब कुछ के साथ सभी"।
- विश्लेषणात्मक परतों में पीआईआई का परिचय।
13) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): डेटा इंजीनियरिंग (पाइपलाइनें समृद्ध/स्ट्रीम), डोमेन ओनर्स (फीचर शब्दार्थ), एमएलओपी (फीचर स्टोर)।
ए (जवाबदेह): डेटा के प्रमुख/मुख्य डेटा अधिकारी।
सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वित्त (FX/налоги), जोखिम (आरजी/एएमएल), एसआरई।
I (सूचित): BI/उत्पाद/विपणन/संचालन।
14) कार्यान्वयन रोडमैप
एमवीपी (2-4 सप्ताह):1. संवर्धन स्रोत कैटलॉग (fx, geo, बाजार, RG/KYC)।
2. सिल्वर-नॉर्मलाइजेशन + बेसिक लुकअप 'और (fx/geo/dim।) .
3. पहले समुच्चय वेग (जमा/दरें) और समृद्ध हैं। v1 टेबल।
4. डैशबोर्ड पूर्णता/ताजगी, स्रोत संस्करण।
चरण 2 (4-8 सप्ताह):- प्रतिबंधों/पीईपी/बीसीएल, पीएसपी बिन टेबल, डिवाइस फिंगरप्रिंट का कनेक्शन।
- फीचर स्टोर (मुख्य सुविधाएँ) + ऑनलाइन कैश, रियलटाइम संवर्धन फ्लिंक।
- समृद्ध परत, वंश और शुष्क-संचालित सिमुलेशन के लिए डीक्यू नियम।
- निजीकरण (मिशन/quests) और RG/AML डिटेक्टर ऑनलाइन।
- मूल्य प्रबंधन (कोटा, भौतिककरण, जेड-ऑर्डर), बहु-क्षेत्र।
- फ़ीचर और कैटलॉग प्रलेखन की स्वचालित पीढ़ी
15) बिक्री से पहले गुणवत्ता जांच सूची
- सुसंगत कुंजी और स्कीमा, स्रोत संस्करण हस्ताक्षरित।
- fx/geo/RG/प्रतिबंध/विंडो पर DQ नियम; अलर्ट और एसएलओ।
- बाहरी लुकअप के लिए कैश/टाइमआउट और फॉलबैक।
- वंश और लागत/प्रदर्शन डैशबोर्ड।
- समृद्ध तालिकाओं के लिए DSAR/RTBF/कानूनी पकड़ प्रक्रियाएं।
- विशेषताओं का प्रलेखन (मालिक, सूत्र, एसएलओ, प्रभाव)।
16) बार-बार गलतियाँ और उनसे कैसे बचें
अनटैग किए गए संदर्भ/मॉडल संस्करण: हमेशा '_ source' और 'मॉडल _ version' को ठीक करें।
एफएक्स की गणना "रेट्रोएक्टिव": घटना के समय दर का उपयोग करें; FX स्रोत संग्रहीत करें।
PII सम्मिश्रण: टोकनाइज़करें और मैपिंग को अलग करें।
इकाइयों में दोहरी गिनती: विंडो और डीडअप की जांच करें।
बिना कैश के तुल्यकालिक बाहरी कॉल: async + cache/retrai दर्ज करें।
सुविधाओं की कोई पुनरावृत्ति नहीं है: एक एकल ऑनलाइन/ऑफ़लाइन परिवर्तन कोड, अनुपालन परीक्षण।
17) शब्दावली (संक्षिप्त)
लुकअप/आयाम संलग्न - संदर्भ पुस्तक को कुंजी द्वारा तथ्य के साथ संलग्न करें।
फीचर स्टोर - विशेषता रजिस्टर और एमएल के लिए सेवारत।
एससीडी II - वैधता अंतराल के साथ माप इतिहास।
एफएक्स - विनिमय दरें और राशियों का सामान्यीकरण।
एएसएन - स्वायत्त नेटवर्क प्रणाली; धोखाधड़ी और भू-विश्लेषिकी के लिए उपयोगी।
18) नीचे की रेखा
संवर्धन घटनाओं को ज्ञान में बदलने का अनुशासन है: सुसंगत कुंजी और योजनाएं, नियंत्रित लुकअप और समुच्चय, वर्गीकृत स्रोत, डिफ़ॉल्ट गोपनीयता, डीक्यू और अवलोकन। वर्णित पैटर्न का पालन करके, आपको रिपोर्टिंग, निजीकरण और वास्तविक समय के जोखिम डिटेक्टरों के लिए तैयार प्रजनन, किफायती और अनुपालन शोकेस और संकेत प्राप्त होंगे।