रियल-टाइम एनालिटिक्स
1) उद्देश्य और व्यवसाय मूल्य
रियल-टाइम एनालिटिक्स (आरटीए) सेकंड में प्रतिक्रियाएं प्रदान करता है, घंटे नहीं:- एएमएल/एंटीफ्राड: संरचना जमा, वेग हमले, जोखिम लेनदेन।
- जिम्मेदार गेमिंग (आरजी): सीमा से अधिक, जोखिम पैटर्न, आत्म-बहिष्करण।
- एसआरई/संचालन: एसएलए गिरावट का शुरुआती पता लगाना, त्रुटि फटना, क्लस्टर ओवरहीटिंग।
- उत्पाद और विपणन: निजीकरण ट्रिगर, मिशन/quests, वास्तविक समय विभाजन।
- ऑपरेशनल रिपोर्टिंग: पास-रियल-टाइम जीजीआर/एनजीआर, हॉल/प्रदाताओं के डैशबोर्ड।
लक्ष्य: p95 एंड-टू-एंड 0। 5-5 с, पूर्णता ≥ 99। 5%, उपलब्धता ≥ 99। 9%.
2) संदर्भ वास्तुकला
1. इनजेस्ट/एज - '/इवेंट/बैच '(HTTP/2/3), gRPC, Otel कलेक्टर; योजनाओं का सत्यापन, एंटी-डुप्लिकेट, जियो-रूटिंग।
2. इवेंट बस - काफ्का/रेडपांडा ('उपयोगकर्ता _ आईडी/किरायेदार/बाजार', डीएलक्यू, प्रतिधारण 3-7 दिनों की भागीदारी)।
3. स्ट्रीम प्रोसेसिंग - फ्लिंक/स्पार्क स्ट्रीमिंग/बीम: स्टेटफुल ऑपरेटर, सीईपी, वॉटरमार्क, अनुमति विलंबता, डेडअप।
4. ऑनलाइन संवर्धन - Redis/Scylla/ClickHouse लुकअप (RG सीमा, KYC, BIN→MCC, IP→Geo/ASN), टाइमआउट और फॉलबैक के साथ अतुल्यकालिक कॉल।
5. सेवारत - क्लिकहाउस/पिनोट/ड्र्यूड (परिचालन शोकेस 1-5 मिनट), फीचर स्टोर (ऑनलाइन संकेत), वेबहुक/टिकटिंग/एसओएआर।
6. लेकहाउस - दीर्घकालिक समेकन, पुनरावृत्ति और सामंजस्य के लिए कांस्य/रजत/स्वर्ण।
7. अवलोकन - पाइपलाइन मैट्रिक्स, ट्रेसिंग (ओटीएल), लॉग, वंश और लागत-डैशबोर्ड।
3) सिग्नल और टैक्सोनॉमी
भुगतान: 'भुगतान। जमा/निकासी/चार्जबैक '।
गेमिंग: 'खेल। शर्त/भुगतान ', सत्र।
प्रमाणीकरण और व्यवहार: 'प्रामाणिक. लॉगिन/असफलता', उपकरण-स्विच, वेग.
ऑपरेटिंग: विलंबता, त्रुटि-दर, चूल्हा पुनरारंभ, संतृप्ति।
अनुपालन: स्वीकृति स्क्रीनिंग, आरजी फ्लैग्स, डीएसएआर इवेंट्स।
प्रत्येक प्रकार में एक डोमेन मालिक, एक स्कीमा, एक ताजगी एसएलओ और एक देर से डेटा नीति होती है।
4) विंडोज, वॉटरमार्क और लेट डेटा
विंडोज़: टंबलिंग (तय), होपिंग, सत्र।
वाटरमार्क: "समय से ज्ञान" सीमा (आमतौर पर 2-5 मिनट)।
बेलेटेड इवेंट्स: समायोजन का अतिरिक्त मुद्दा, फ्लैग 'लेट = ट्रू', डीएलक्यू एक मजबूत देरी के साथ।
फ्लिंक एसक्यूएल उदाहरण (10-मिनट जमा वेग):sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream.payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
5) सीईपी और स्टेटफुल एग्रीगेशन
कुंजी: 'उपयोगकर्ता _ id', 'युक्ति _ id', 'भुगतान। account_id'।
स्थिति: स्लाइडिंग काउंटर/रकम, डीडुप्लिकेशन के लिए खिलने वाले फिल्टर, टीटीएल।
सीईपी पैटर्न: संरचना (<दहलीज, times, प्रति टी विंडो), डिवाइस-स्विच, आरजी-थकान।
सीईपी छद्म कोड:python if cnt_deposits(last=10MIN) >= 3 and sum_deposits(last=10MIN) > THRESH and all(d.amount < REPORTING_THRESHOLD):
emit_alert("AML_STRUCTURING", user_id, snapshot())
6) बिल्कुल एक बार, आदेश और पहचान
प्रोसेसिंग (TTL 24-72 h) पर 'इवेंट _ id' द्वारा बस + डीडअप में कम से कम एक बार डिलीवरी।
आदेश: कुंजियों द्वारा विभाजन (स्थानीय अनुक्रम गारंटी है)।
सिंक: ट्रांजेक्शनल कमिट्स (2-चरण) या आइडेम्पोटेंट अपसर्ट/मर्ज।
आउटबॉक्स/इनबॉक्स: OLTP से डोमेन घटनाओं का लेन-देन प्रकाशन।
7) ऑनलाइन संवर्धन और सुविधा स्टोर
लुकअप: आरजी सीमा, केवाईसी स्टेटस, BIN→MCC, IP→Geo/ASN, बाजार/करों, घटना के समय एफएक्स।
अतुल्यकालिक कॉल: टाइमआउट के साथ प्रतिबंध/एपीपी एपीआई; त्रुटि पर - 'अज्ञात' + रिट्रे/कैश।
फ़ीचर स्टोर: ऑनलाइन/ऑफ़लाइन बातचीत; एक परिवर्तन कोडबेस।
8) रियल-टाइम स्टोरफ्रंट और सर्फिंग
क्लिकहाउस/पिनोट/ड्र्यूड: 1-5 मिनट की देरी के लिए दूसरा/मिनट समुच्चय, भौतिक दृश्य, एसएलए।
API/GraphQL: डैशबोर्ड/विजेट के लिए कम विलंबता।
अलर्ट: समृद्ध संदर्भ (trace_id, अंतिम घटनाओं) के साथ वेबहुक/जीरा/एसओएआर।
क्लिकहाउस उदाहरण (मिनट से जीजीआर मिनट):sql
CREATE MATERIALIZED VIEW mv_ggr_1m
ENGINE = AggregatingMergeTree()
PARTITION BY toDate(event_time)
ORDER BY (toStartOfMinute(event_time), market, provider_id) AS
SELECT toStartOfMinute(event_time) AS ts_min,
market,
provider_id,
sumState(stake_base) AS s_stake,
sumState(payout_base) AS s_payout
FROM stream.game_events
GROUP BY ts_min, market, provider_id;
9) मेट्रिक्स, एसएलआई/एसएलओ और डैशबोर्ड
अनुशंसित SLI/SLO:- p95 ingest→alert ≤ 2 s (महत्वपूर्ण नियम), ≤ 5 s (अन्य)।
- T ≥ 99 विंडो की पूर्णता। 5%; स्कीमा वैधता ≥ 99। 9%; ट्रेस कवरेज ≥ 98%।
- स्ट्रीम सेवा उपलब्धता ≥ 99। 9%; देर से अनुपात ≤ 1%।
- पार्टियों/विषयों द्वारा अंतराल; ऑपरेटरों का व्यस्त समय; राज्य का आकार।
- फ़नल "sobytiye→pravilo→keys", डोमेन द्वारा सटीक/रिकॉल करें।
- हीट कार्ड लेट/पूर्णता; गर्म कुंजी नक्शा।
10) स्ट्रीमिंग डीक्यू (गुणवत्ता)
इनजेस्ट-सत्यापन: स्कीमा/एनम/आकार-सीमा, एंटी-डुप्लिकेट।
स्ट्रीम पर: पूर्णता/डुप-दर/देर-अनुपात, खिड़की शुद्धता (दोहरी गिनती के बिना)।
प्रतिक्रिया नीतियां: महत्वपूर्ण → DLQ + पेजर; प्रमुख/मामूली → टैगिंग + रिपोर्ट।
YAML उदाहरण:yaml stream: payments rules:
- name: schema_valid type: schema severity: critical
- name: currency_whitelist type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: dedup_window type: unique keys: [event_id]
window_minutes: 1440
11) गोपनीयता, सुरक्षा और निवास
PII कम से कम: ID उपनाम, संवेदनशील क्षेत्र मास्किंग, PAN/IBAN टोकन।
डेटा रेजिडेंसी: क्षेत्रीय पाइपलाइनें (ईईए/यूके/बीआर), व्यक्तिगत केएमएस कुंजी।
DSAR/RTBF: डाउनस्ट्रीम स्टोरफ्रंट पर चयनात्मक संपादन; मामलों/रिपोर्टों के लिए कानूनी पकड़।
लेखा परीक्षा: अभिगम/नियम परिवर्तन के अपरिवर्तनीय लॉग, जारी लॉगिंग।
12) अर्थशास्त्र और उत्पादकता
शार्डिंग/कुंजी: "हॉट" कुंजियों (नमकीन/समग्र), पार्टियों का संतुलन से बचें।
स्थिति: टीटीएल, कॉम्पैक्ट स्नैपशॉट, रॉकडीबी/स्टेट बैकेंड ट्यूनिंग।
पूर्व-एकत्रीकरण: शोर विषयों के लिए शुरुआती चरणों में कम करें।
नमूना: केवल गैर-महत्वपूर्ण मैट्रिक्स (लेनदेन/अनुपालन नहीं) के लिए।
चार्जबैक: थीम/जॉब बजट, रीप्ले कोटा और भारी अनुरोध।
13) प्रक्रियाएं और आरएसीआई
R: स्ट्रीमिंग प्लेटफ़ॉर्म (जानकारी/रिलीज़), डोमेन एनालिटिक्स (नियम/सुविधाएँ), MLOps (स्कोरिंग/फ़ीचर स्टोर)।
A: डोमेन द्वारा डेटा/जोखिम/अनुपालन के प्रमुख।
सी: डीपीओ/कानूनी (पीआईआई/प्रतिधारण), एसआरई (एसएलओ/घटनाएं), वास्तुकला।
I: उत्पाद, समर्थन, विपणन, वित्त।
14) कार्यान्वयन रोडमैप
एमवीपी (2-4 सप्ताह):1. काफ्का/रेडपांडा + 2 महत्वपूर्ण विषय (उदाहरण के लिए, 'भुगतान', 'औथ')।
2. वॉटरमार्क, डीडुप्लिकेशन और 1 सीईपी नियम (एएमएल या आरजी) के साथ फ्लिंक नौकरी।
3. क्लिकहाउस/पिनोट (1-5 मिनट), लैग/पूर्णता डैशबोर्ड पर परिचालन शोकेस।
4. हादसा चैनल (वेबहूक/जीरा), बुनियादी एसएलओ और अलर्ट।
चरण 2 (4-8 सप्ताह):- ऑनलाइन संवर्धन (Redis/Scylla), फ़ीचर स्टोर, अतुल्यकालिक लुकअप।
- कोड, कैनरी/ए-बी, स्ट्रीमिंग डीक्यू के रूप में नियम प्रबंधन।
- कन्वेयर, डीएसएआर/आरटीबीएफ प्रक्रियाओं का क्षेत्रीयकरण, मामलों के लिए कानूनी पकड़।
- बहु-क्षेत्र सक्रिय-सक्रिय, रीप्ले और क्या-यदि सिम्युलेटर, ऑटो-थ्रेशोल्ड अंशांकन।
- गोल्ड-स्ट्रीम स्टोरफ्रंट (GGR/RG/AML), पास-रियल-टाइम रिपोर्टिंग।
- कॉस्ट-डैशबोर्ड, चार्जबैक, डीआर-एक्सरसाइज।
15) उदाहरण (टुकड़े)
फ्लिंक सीईपी - उपकरण-स्विच:sql
MATCH_RECOGNIZE (
PARTITION BY user_id
ORDER BY event_time
MEASURES
FIRST(A.device_id) AS d1,
LAST(B.device_id) AS d2,
COUNT() AS cnt
PATTERN (A B+)
DEFINE
B AS B.device_id <> PREV(device_id) AND B.ip_asn <> PREV(ip_asn)
) MR
काफ्का धाराएँ - पहचान फ़िल्टर:
java if (seenStore.putIfAbsent(eventId, now()) == null) {
context.forward(event);
}
16) प्री-सेल चेकलिस्ट
- रजिस्ट्री में योजनाएं/अनुबंध, बैक-कॉम्पैट परीक्षण हरे रंग के हैं।
- वॉटरमार्क/अनुमत विलंबता, डीडअप और डीएलक्यू शामिल हैं।
- कॉन्फ़िगर SLO और अलर्ट (lag/let/dup/state size)।
- कैश और टाइमआउट के साथ संवर्धन; फॉलबैक "अज्ञात"।
- नियम/मॉडल पर RBAC/दोहरे नियंत्रण; लॉग सक्षम बदलें।
- नियमों/दुकान खिड़कियों का प्रलेखन; रनबुक 'और रीप्ले/रोलबैक।
17) बार-बार गलतियाँ और उनसे कैसे बचें
घटना-समय को अनदेखा करें: वॉटरमार्क के बिना, मेट्रिक्स "फ्लोट"।
कोई कमी नहीं: झूठी अलर्ट, दोहरी गिनती।
गर्म कुंजियाँ: पार्टियों का विरूपण - नमकीन/पुनर्वास।
हॉट पथ में तुल्यकालिक फ्रंट-एंड एपीआई: केवल एसिंक + कैश।
अप्रबंधित लागत: पूर्व निर्धारण, टीटीएल राज्य, कोटा, लागत निगरानी।
कोई सिम्युलेटर नहीं: रीप्ले के बिना रोलआउट - रिग्रेशन।
18) नीचे की रेखा
रियल-टाइम एनालिटिक्स "फास्ट बीआई" नहीं है, लेकिन अनुबंध, स्टेटफुल लॉजिक, सीईपी, वॉटरमार्क, ऑनलाइन संवर्धन और सख्त एसएलओ के साथ एक प्रबंधित सर्किट है। इन प्रथाओं का पालन करके, मंच सेकंड के भीतर सटीक संकेत और निर्णय प्राप्त करता है, एक नियंत्रित लागत पर अनुपालन, उत्पाद परिदृश्य और परिचालन लचीलापन बनाए रखता है।