GH GambleHub

स्ट्रीम बनाम बैच विश्लेषण

1) संक्षिप्त सार

स्ट्रीम - सेकंड में घटनाओं का निरंतर प्रसंस्करण: एंटी-फ्रॉड/एएमएल, आरजी ट्रिगर, एसएलए अलर्ट, परिचालन पैनल।

बैच - आवधिक पुनर्गणना पूर्ण प्रजनन योग्यता के साथ: नियामक रिपोर्टिंग (जीजीआर/एनजीआर), वित्तीय दस्तावेज, एमएल डेटासेट।

लैंडमार्क: स्ट्रीम p95 e2e 0। 5-5 एस, बैच डी + 1 से 06:00 (लॉक।) .

2) चयन मैट्रिक्स (टीएल); डीआर)

मापदंडस्ट्रीमबैच
एसएलए प्रतिक्रियाएँसेकंड/मिनटघंटे/दिन
पूर्णताउच्च, लेकिन देर से सुधार संभव हैंबहुत उच्च, नियंत्रित D + 1
प्रजनन क्षमता "के रूप में"कठिन (रीप्ले)आसान (समय-यात्रा/स्नैपशॉट)
प्रति इकाई लागतअधिक महंगा ऑनलाइन तरीकाप्रति मात्रा सस्ता
विशिष्ट कार्यएएमएल/आरजी अलर्ट, एसआरई, वास्तविक समय के शोकेसरिपोर्ट, सुलह, एमएल ऑफ-लाइन
ऐतिहासिकता (SCD)प्रतिबंधित रूप सेपूरी तरह से
नियामक/WORMसोने की समीक्षा के मामूल रूप से (गोल्ड/डी + 1)

80/20 नियम: कुछ भी जिसके लिए प्रतिक्रिया की आवश्यकता नहीं होती है <5 मिनट - बैच में; बाकी बैच नाइट सत्यापन के साथ स्ट्रीम में है।

3) वास्तुकला

3. 1 लैम्ब्डा

समेकन के लिए ऑनलाइन + बैच के लिए स्ट्रीम। प्लस: लचीलापन। माइनस: दो लॉजिक्स।

3. 2 कप्पा

सब कुछ धाराओं की तरह है; लॉग के माध्यम से बैच = "रीप्ले"। प्लस: एक एकल कोड। माइनस: रिप्ले/लागत की जटिलता।

3. 3 लेकहाउस-हाइब्रिड (अनुशंसित)

स्ट्रीम → ऑनलाइन ओएलएपी मार्ट्स (मिनट) और कांस्य/रजत; बैच गोल्ड (D + 1) को फिर से जोड़ ता है और रिपोर्ट प्रकाशित करता है।

4) डेटा और समय

स्ट्रीम

विंडोज़: टंबलिंग/होपिंग/सत्र।

वाटरमार्क: 2-5 मिनट; देर से डेटा चिह्नित और मंद है।

स्टेटफुल: सीईपी, डेडअप, टीटीएल।

बैच

वृद्धि/सीडीसी: 'अद्यतन _ at', लॉग प्रतिकृति।

SCD I/II/III: विशेषता इतिहास।

स्नैपशॉट्स: "के रूप में" के लिए दिन/महीने की परतें।

5) आईगेमिंग में आवेदन पैटर्न

AML/Antifraud: स्ट्रीम (वेग/संरचना) + बैच सामंजस्य और मामले।

जिम्मेदार गेमिंग: सीमा/आत्म-बहिष्करण का स्ट्रीम नियंत्रण; बैच रिपोर्टिंग रजिस्टर।

संचालन/एसआरई: स्ट्रीम अलर्ट एसएलए; घटनाओं और रुझानों का बैच पोस्ट-विश्लेषण।

उत्पाद/विपणन: स्ट्रीम निजीकरण/मिशन; बैच cohorts/LTV।

वित्त/रिपोर्ट: बैच (गोल्ड डी + 1, वर्म पैकेज), स्ट्रीम - परिचालन पैनल।

6) डीक्यू, प्रजनन योग्यता, रीप्ले

स्ट्रीम डीक्यू: योजनाओं का सत्यापन, डीडअप '(event_id, स्रोत)', विंडो की पूर्णता, देर से अनुपात, डुप-रेट; महत्वपूर्ण DLQ →।

बैच डीक्यू: विशिष्टता/एफके/रेंज/टेम्पोरल, ओएलटीपी/प्रदाताओं के साथ सामंजस्य; महत्वपूर्ण → असफल नौकरी + रिपोर्ट।

प्रजनन योग्यता:
  • स्ट्रीम: रेंज + नियतात्मक परिवर्तन द्वारा प्रतिकृति विषय।
  • बैच: समय-यात्रा/तर्क संस्करण ('तर्क _ संस्करण') + गोल्ड स्नैपशॉट।

7) गोपनीयता और निवास

स्ट्रीम: छद्म नामकरण, ऑनलाइन मास्किंग, क्षेत्रीय पाइपलाइनें (EEA/UK/BR), बाहरी PII-लुकअप के लिए टाइमआउट।

बैच: पीआईआई मैपिंग अलगाव, आरएलएस/सीएलएस, डीएसएआर/आरटीबीएफ, लीगल होल्ड, वर्म अभिलेखागार।

8) लागत-इंजीनियरिंग

स्ट्रीम: "हॉट" कीज़ (नमकीन) से बचें, एसिनक लुकअप को सीमित करें, टीटीएल राज्यों, पूर्ववर्ती।

बैच: विभाजन/क्लस्टरिंग, छोटी फाइलें संपीड़न, स्थिर समुच्चय का भौतिककरण, कोटा/लॉन्च विंडो।

9) उदाहरण

9. 1 स्ट्रीम - फ्लिंक एसक्यूएल (10-मिनट जमा वेग)

sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

9. 2 स्ट्रीम - सीईपी (एएमएल छद्म कोड)

python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())

9. 3 बैच - MERGE (सिल्वर वेतन वृद्धि)

sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

9. 4 बैच - गोल्ड जीजीआर (डी + 1)

sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;

10) मेट्रिक्स और एसएलओ

स्ट्रीम (स्थल)

p95 ingest→alert ≤ 2-5 c पूर्णता окна ≥ 99। 5%

स्कीमा-त्रुटियों ≤ 0। 1%

देर से अनुपात ≤ 1%

उपलब्धता ≥ 99। 9%

बैच (स्थल)

सोना। रोजाना 06: 00 बजे तक तैयार है।

पूर्णता ≥ 99। 5%

वैधता ≥ 99। 9%

MTTR DQ घटना ≤ 24-48 घंटे

11) परीक्षण और रिलीज

अनुबंध/योजनाएं: उपभोक्ता-चालित परीक्षण; बैक-कॉम्पैट सीआई।

स्ट्रीम: कैनरी नियम, डार्क लॉन्च, रीप्ले सिम्युलेटर।

बैच: नमूनों पर सूखी दौड़, मैट्रिक्स की तुलना, सुलह।

12) एंटी-पैटर्न

डुप्लिकेट तर्क: सूत्र संरेखण के बिना विभिन्न स्ट्रीम और बैच गणना।

कैश/टाइमआउट के बिना स्ट्रीम हॉट पथ में तुल्यकालिक बाहरी एपीआई।

वेतन वृद्धि के बजाय पूर्ण पुनः लोड "बस मामले में"।

कोई वॉटरमार्क/लेट पॉलिसी नहीं।

विश्लेषणात्मक परतों में पीआईआई; कोई सीएलएस/आरएलएस नहीं।

सोना दिखाता है कि "उत्परिवर्ती" पूर्वव्यापी रूप से।

13) अनुशंसित हाइब्रिड (प्लेबुक)

1. स्ट्रीम-लूप: इनगेस्ट → बस → फ्लिंक/बीम (वॉटरमार्क, डेडअप, सीईपी) →

OLAP (क्लिकहाउस/पिनोट) 1-5 मिनट के पैनल + कांस्य/रजत (संलग्न) के लिए।

2. बैच लूप: वृद्धि/सीडीसी → सिल्वर सामान्यीकरण/एससीडी → गोल्ड डेली डिस्प्ले/रिपोर्ट (WORM)।

3. मिलान: मेट्रिक्स की एक एकल शब्दार्थ परत; रात - सुलह; विसंगतियाँ> सीमा - टिकट।

14) आरएसीआई

आर (जिम्मेदार): स्ट्रीमिंग प्लेटफ़ॉर्म (स्ट्रीम-जानकारी), डेटा इंजीनियरिंग (बैच मॉडल), डोमेन एनालिटिक्स (मैट्रिक्स/नियम), एमएलओपी (सुविधाएँ/फ़ीचर स्टोर)।

ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।

सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वित्त (एफएक्स/जीजीआर), जोखिम (आरजी/एएमएल), एसआरई (SLO/стоимость)।

I (सूचित): BI/उत्पाद/विपणन/संचालन।

15) रोडमैप

एमवीपी (2-4 सप्ताह):

1. काफ्का/रेडपांडा + 2 महत्वपूर्ण विषय ('भुगतान', 'उत्साह')।

2. फ्लिंक नौकरी: वॉटरमार्क + डीडअप + 1 सीईपी नियम (एएमएल या आरजी)।

3. OLAP शोकेस 1-5 मिनट + डैशबोर्ड लैग/लेट/डप।

4. लेकहाउस सिल्वर (ACID), पहला गोल्ड। ggr_daily (D + 1 06:00 बजे तक)।

चरण 2 (4-8 सप्ताह):
  • डोमेन, एससीडी II, सिमेंटिक मेट्रिक्स परत द्वारा वृद्धि/सीडीसी।
  • स्ट्रीमिंग डीक्यू और रात - सुलह।
  • क्षेत्रीयकरण (EEA/UK/BR), DSAR/RTBF, कानूनी पकड़।
चरण 3 (8-12 सप्ताह):
  • रीप्ले सिम्युलेटर, कैनरी/ए-बी नियमों/मैट्रिक्स की रिलीज़।
  • लागत-डैशबोर्ड और कोटा; स्तरीय भंडारण; डीआर शिक्षा।
  • शोकेस/मैट्रिक्स प्रलेखन और वंश की ऑटो-पीढ़ी।

16) कार्यान्वयन चेकलिस्ट

  • रजिस्ट्री में योजनाएं/अनुबंध; बैक-कॉम्पैट परीक्षण हरे रंग के होते हैं।
  • स्ट्रीम: वॉटरमार्क/अनुमत-विलंबता, дедуп, DLQ; OLAP पैनल प्रोड में।
  • बैच: वेतन वृद्धि/सीडीसी, एससीडी II, वर्म निर्यात के साथ गोल्ड डी + 1।
  • मेट्रिक्स की एकल शब्दार्थ परत; रात - सुलह।
  • ताजगी/पूर्णता/वैधता डीक्यू बोर्ड; अलर्ट लैग/लेट/डुप।
  • RBAC/ABAC, एन्क्रिप्शन, रेजिडेंसी; DSAR/RTBF/कानूनी पकड़।
  • नियंत्रण में लागत (लागत/जीबी, लागत/क्वेरी, राज्य का आकार, रिप्ले कोटा-आवंटित हैं)।

17) नीचे की रेखा

स्ट्रीम और बैच प्रतियोगी नहीं हैं, लेकिन एक ही ड्राइव के दो गियर हैं। स्ट्रीम प्रतिक्रिया देती है "यहाँ और अब", बैच - सत्यापित सत्य "सुबह। "हाइब्रिड लेकहाउस दृष्टिकोण, मेट्रिक्स की एक परत और डीक्यू/वंश अनुशासन आपको तेज, प्रजनन योग्य और अनुरूप विश्लेषणात्मक आकृति बनाने की अनुमति देता है जो एसएलए और लागत में इष्टतम हैं।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।