स्ट्रीम बनाम बैच विश्लेषण
1) संक्षिप्त सार
स्ट्रीम - सेकंड में घटनाओं का निरंतर प्रसंस्करण: एंटी-फ्रॉड/एएमएल, आरजी ट्रिगर, एसएलए अलर्ट, परिचालन पैनल।
बैच - आवधिक पुनर्गणना पूर्ण प्रजनन योग्यता के साथ: नियामक रिपोर्टिंग (जीजीआर/एनजीआर), वित्तीय दस्तावेज, एमएल डेटासेट।
लैंडमार्क: स्ट्रीम p95 e2e 0। 5-5 एस, बैच डी + 1 से 06:00 (लॉक।) .
2) चयन मैट्रिक्स (टीएल); डीआर)
80/20 नियम: कुछ भी जिसके लिए प्रतिक्रिया की आवश्यकता नहीं होती है <5 मिनट - बैच में; बाकी बैच नाइट सत्यापन के साथ स्ट्रीम में है।
3) वास्तुकला
3. 1 लैम्ब्डा
समेकन के लिए ऑनलाइन + बैच के लिए स्ट्रीम। प्लस: लचीलापन। माइनस: दो लॉजिक्स।
3. 2 कप्पा
सब कुछ धाराओं की तरह है; लॉग के माध्यम से बैच = "रीप्ले"। प्लस: एक एकल कोड। माइनस: रिप्ले/लागत की जटिलता।
3. 3 लेकहाउस-हाइब्रिड (अनुशंसित)
स्ट्रीम → ऑनलाइन ओएलएपी मार्ट्स (मिनट) और कांस्य/रजत; बैच गोल्ड (D + 1) को फिर से जोड़ ता है और रिपोर्ट प्रकाशित करता है।
4) डेटा और समय
स्ट्रीम
विंडोज़: टंबलिंग/होपिंग/सत्र।
वाटरमार्क: 2-5 मिनट; देर से डेटा चिह्नित और मंद है।
स्टेटफुल: सीईपी, डेडअप, टीटीएल।
बैच
वृद्धि/सीडीसी: 'अद्यतन _ at', लॉग प्रतिकृति।
SCD I/II/III: विशेषता इतिहास।
स्नैपशॉट्स: "के रूप में" के लिए दिन/महीने की परतें।
5) आईगेमिंग में आवेदन पैटर्न
AML/Antifraud: स्ट्रीम (वेग/संरचना) + बैच सामंजस्य और मामले।
जिम्मेदार गेमिंग: सीमा/आत्म-बहिष्करण का स्ट्रीम नियंत्रण; बैच रिपोर्टिंग रजिस्टर।
संचालन/एसआरई: स्ट्रीम अलर्ट एसएलए; घटनाओं और रुझानों का बैच पोस्ट-विश्लेषण।
उत्पाद/विपणन: स्ट्रीम निजीकरण/मिशन; बैच cohorts/LTV।
वित्त/रिपोर्ट: बैच (गोल्ड डी + 1, वर्म पैकेज), स्ट्रीम - परिचालन पैनल।
6) डीक्यू, प्रजनन योग्यता, रीप्ले
स्ट्रीम डीक्यू: योजनाओं का सत्यापन, डीडअप '(event_id, स्रोत)', विंडो की पूर्णता, देर से अनुपात, डुप-रेट; महत्वपूर्ण DLQ →।
बैच डीक्यू: विशिष्टता/एफके/रेंज/टेम्पोरल, ओएलटीपी/प्रदाताओं के साथ सामंजस्य; महत्वपूर्ण → असफल नौकरी + रिपोर्ट।
प्रजनन योग्यता:- स्ट्रीम: रेंज + नियतात्मक परिवर्तन द्वारा प्रतिकृति विषय।
- बैच: समय-यात्रा/तर्क संस्करण ('तर्क _ संस्करण') + गोल्ड स्नैपशॉट।
7) गोपनीयता और निवास
स्ट्रीम: छद्म नामकरण, ऑनलाइन मास्किंग, क्षेत्रीय पाइपलाइनें (EEA/UK/BR), बाहरी PII-लुकअप के लिए टाइमआउट।
बैच: पीआईआई मैपिंग अलगाव, आरएलएस/सीएलएस, डीएसएआर/आरटीबीएफ, लीगल होल्ड, वर्म अभिलेखागार।
8) लागत-इंजीनियरिंग
स्ट्रीम: "हॉट" कीज़ (नमकीन) से बचें, एसिनक लुकअप को सीमित करें, टीटीएल राज्यों, पूर्ववर्ती।
बैच: विभाजन/क्लस्टरिंग, छोटी फाइलें संपीड़न, स्थिर समुच्चय का भौतिककरण, कोटा/लॉन्च विंडो।
9) उदाहरण
9. 1 स्ट्रीम - फ्लिंक एसक्यूएल (10-मिनट जमा वेग)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
9. 2 स्ट्रीम - सीईपी (एएमएल छद्म कोड)
python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())
9. 3 बैच - MERGE (सिल्वर वेतन वृद्धि)
sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
9. 4 बैच - गोल्ड जीजीआर (डी + 1)
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
10) मेट्रिक्स और एसएलओ
स्ट्रीम (स्थल)
p95 ingest→alert ≤ 2-5 c पूर्णता окна ≥ 99। 5%
स्कीमा-त्रुटियों ≤ 0। 1%
देर से अनुपात ≤ 1%
उपलब्धता ≥ 99। 9%
बैच (स्थल)
सोना। रोजाना 06: 00 बजे तक तैयार है।
पूर्णता ≥ 99। 5%
वैधता ≥ 99। 9%
MTTR DQ घटना ≤ 24-48 घंटे
11) परीक्षण और रिलीज
अनुबंध/योजनाएं: उपभोक्ता-चालित परीक्षण; बैक-कॉम्पैट सीआई।
स्ट्रीम: कैनरी नियम, डार्क लॉन्च, रीप्ले सिम्युलेटर।
बैच: नमूनों पर सूखी दौड़, मैट्रिक्स की तुलना, सुलह।
12) एंटी-पैटर्न
डुप्लिकेट तर्क: सूत्र संरेखण के बिना विभिन्न स्ट्रीम और बैच गणना।
कैश/टाइमआउट के बिना स्ट्रीम हॉट पथ में तुल्यकालिक बाहरी एपीआई।
वेतन वृद्धि के बजाय पूर्ण पुनः लोड "बस मामले में"।
कोई वॉटरमार्क/लेट पॉलिसी नहीं।
विश्लेषणात्मक परतों में पीआईआई; कोई सीएलएस/आरएलएस नहीं।
सोना दिखाता है कि "उत्परिवर्ती" पूर्वव्यापी रूप से।
13) अनुशंसित हाइब्रिड (प्लेबुक)
1. स्ट्रीम-लूप: इनगेस्ट → बस → फ्लिंक/बीम (वॉटरमार्क, डेडअप, सीईपी) →
OLAP (क्लिकहाउस/पिनोट) 1-5 मिनट के पैनल + कांस्य/रजत (संलग्न) के लिए।
2. बैच लूप: वृद्धि/सीडीसी → सिल्वर सामान्यीकरण/एससीडी → गोल्ड डेली डिस्प्ले/रिपोर्ट (WORM)।
3. मिलान: मेट्रिक्स की एक एकल शब्दार्थ परत; रात - सुलह; विसंगतियाँ> सीमा - टिकट।
14) आरएसीआई
आर (जिम्मेदार): स्ट्रीमिंग प्लेटफ़ॉर्म (स्ट्रीम-जानकारी), डेटा इंजीनियरिंग (बैच मॉडल), डोमेन एनालिटिक्स (मैट्रिक्स/नियम), एमएलओपी (सुविधाएँ/फ़ीचर स्टोर)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वित्त (एफएक्स/जीजीआर), जोखिम (आरजी/एएमएल), एसआरई (SLO/стоимость)।
I (सूचित): BI/उत्पाद/विपणन/संचालन।
15) रोडमैप
एमवीपी (2-4 सप्ताह):1. काफ्का/रेडपांडा + 2 महत्वपूर्ण विषय ('भुगतान', 'उत्साह')।
2. फ्लिंक नौकरी: वॉटरमार्क + डीडअप + 1 सीईपी नियम (एएमएल या आरजी)।
3. OLAP शोकेस 1-5 मिनट + डैशबोर्ड लैग/लेट/डप।
4. लेकहाउस सिल्वर (ACID), पहला गोल्ड। ggr_daily (D + 1 06:00 बजे तक)।
चरण 2 (4-8 सप्ताह):- डोमेन, एससीडी II, सिमेंटिक मेट्रिक्स परत द्वारा वृद्धि/सीडीसी।
- स्ट्रीमिंग डीक्यू और रात - सुलह।
- क्षेत्रीयकरण (EEA/UK/BR), DSAR/RTBF, कानूनी पकड़।
- रीप्ले सिम्युलेटर, कैनरी/ए-बी नियमों/मैट्रिक्स की रिलीज़।
- लागत-डैशबोर्ड और कोटा; स्तरीय भंडारण; डीआर शिक्षा।
- शोकेस/मैट्रिक्स प्रलेखन और वंश की ऑटो-पीढ़ी।
16) कार्यान्वयन चेकलिस्ट
- रजिस्ट्री में योजनाएं/अनुबंध; बैक-कॉम्पैट परीक्षण हरे रंग के होते हैं।
- स्ट्रीम: वॉटरमार्क/अनुमत-विलंबता, дедуп, DLQ; OLAP पैनल प्रोड में।
- बैच: वेतन वृद्धि/सीडीसी, एससीडी II, वर्म निर्यात के साथ गोल्ड डी + 1।
- मेट्रिक्स की एकल शब्दार्थ परत; रात - सुलह।
- ताजगी/पूर्णता/वैधता डीक्यू बोर्ड; अलर्ट लैग/लेट/डुप।
- RBAC/ABAC, एन्क्रिप्शन, रेजिडेंसी; DSAR/RTBF/कानूनी पकड़।
- नियंत्रण में लागत (लागत/जीबी, लागत/क्वेरी, राज्य का आकार, रिप्ले कोटा-आवंटित हैं)।
17) नीचे की रेखा
स्ट्रीम और बैच प्रतियोगी नहीं हैं, लेकिन एक ही ड्राइव के दो गियर हैं। स्ट्रीम प्रतिक्रिया देती है "यहाँ और अब", बैच - सत्यापित सत्य "सुबह। "हाइब्रिड लेकहाउस दृष्टिकोण, मेट्रिक्स की एक परत और डीक्यू/वंश अनुशासन आपको तेज, प्रजनन योग्य और अनुरूप विश्लेषणात्मक आकृति बनाने की अनुमति देता है जो एसएलए और लागत में इष्टतम हैं।