डेटा सत्यापन
1) आईगेमिंग प्लेटफॉर्म को इसकी आवश्यकता क्यों है?
रिपोर्ट और केपीआई पर भरोसा करें: जीजीआर/नेट, रूपांतरण, प्रतिधारण, आरजी संकेत।
एमएल/स्कोरिंग विश्वसनीयता: विरोधी धोखाधड़ी/सिफारिशों/आरजी के लिए सही सुविधाएँ।
रियल-टाइम ऑपरेशन: भुगतान/यूएक्स प्रभावित होने से पहले बहाव/घटनाओं के नुकसान पर अलर्ट।
अनुपालन: कोई पीआईआई/रहस्य जहां वे नहीं होना चाहिए; उत्तरदायी ट्रेसबिलिटी।
2) कहां मान्य करें: नियंत्रण स्तर
1. इंजेक्शन (बैच/स्ट्रीम): योजना, प्रकार, आवश्यक क्षेत्र, पहचान/dedup।
2. स्ट्रीम प्रोसेसिंग: विंडोज/वॉटरमार्क, ऑर्डर, चूक/देरी, बिल्कुल एक बार।
3. ईटीएल/ईएलटी और परिवर्तन: लिंक/खुशी, कुल, व्यापार संतुलन।
4. DWH/storefronts (गोल्ड): तालिकाओं, ताजगी, कुंजियों की विशिष्टता के बीच स्थिरता।
5. फ़ीचर स्टोर/ऑनलाइन: फ़ीचर रेंज, offlayn↔onlayn स्थिरता।
6. BI/API: गिनती और फिल्टर, विलंबता/ताजगी पर SLA, k-गुमनामी।
3) चेक के प्रकार (कैटलॉग)
योजनाबद्ध: प्रकार/nullable/enum/regex/JSON-share; रोकने के लिए असंगत परिवर्तन।
डोमेन: ≥0 मात्रा, ∈ मुद्रा {EUR, USD, TRY, BRL}, ≤ सीमा दर, strana∈litsenzii।
पहचान/कुंजी: प्राथमिक कुंजी अद्वितीय है, विदेशी कुंजी "लटका हुआ" नहीं है।
क्षेत्र की गुणवत्ता: पूर्णता, लंबाई, प्रारूप (IBAN, BIN, ई-मेल टोकन)।
सांख्यिकी/आधारभूत: आवृत्तियाँ, वितरण, मात्रा गलियारे।
विसंगतियाँ: वॉल्यूम/अंश स्पाइक्स, शून्य/डुप्लिकेट, स्कीमा बहाव।
ताजगी: अधिकतम (ts) एक्स से अधिक पुराना नहीं; लैग ingest→gold ≤ टी।
स्थिरता: भागों का योग = सारांश; मल्टी-टेबल मेल।
गोपनीयता/सुरक्षा: अनुमत क्षेत्रों के बाहर शून्य-पीआईआई; टोकन/मास्क।
नियामक: आरजी/एएमएल क्षेत्र मौजूद और प्रशंसनीय हैं।
4) डेटा अनुबंध
अनुबंध स्रोत और उपभोक्ताओं के बीच योजना + गुणवत्ता नियम + एसएलओ को ठीक करता है।
न्यूनतम अनुबंध (टुकड़ा):yaml dataset: payments_ingest_v2 owner: team-payments schema:
id: {type: string, pattern: "^[a-f0-9]{32}$", unique: true}
ts: {type: timestamp, timezone: "UTC", nullable: false}
amount: {type: decimal(18,2), min: 0. 00}
currency: {type: string, enum: ["EUR","USD","TRY","BRL"]}
psp: {type: string, required: true}
quality:
freshness_max: "PT5M"
completeness_min: 0. 995 duplicate_rate_max: 0. 001 pii_allowed: false slo:
p95_ingest_latency_ms: 30000 success_rate: 0. 995
अनुबंध परिवर्तन - सेवर और प्रवासन के माध्यम से: 'मेजर' टूट जाता है, 'MINTER' एक क्षेत्र जोड़ ता है, 'PATCH' विवरण को सही करता है।
5) उम्मीदें और नीतियां
उम्मीदें - पाइपलाइनों (बैच/स्ट्रीम) में निष्पादित घोषणात्मक जांच।
उम्मीदों के उदाहरण (YAML):yaml expectations:
- name: unique_primary_key check: "unique(id)"
severity: "error"
- name: amount_non_negative check: "amount >= 0"
severity: "error"
- name: currency_enum check: "currency in ['EUR','USD','TRY','BRL']"
severity: "error"
- name: ts_fresh_enough check: "now() - max(ts) <= interval '5 minutes'"
severity: "warn"
- name: pii_absent check: "no_plain_pii(columns: ['email','card','iban'])"
severity: "error"
प्रतिक्रिया नीति:
- 'Err' → पार्टी/बैच संगरोध, अलर्ट + टिकट; डाउनस्ट्रीम ब्लॉक
- 'वर्न' → गुजरता है, लेकिन एक पार्सिंग कार्य बनाता है; गुणवत्ता अंकन।
- 'info' → केवल निगरानी।
6) स्ट्रीमिंग: चेक की विशिष्टताएं
वाटरमार्क/देर से डेटा: चलो देर से '≤ 120s', अन्यथा - संगरोध; परिमित खिड़कियों के साथ क्षतिपूर्ति।
पहचान: ईवेंट कुंजी + हैश पेलोड → ब्रोकर/थ्रेड पर गतिरोध।
बिल्कुल एक बार: महत्वपूर्ण प्रवाह (भुगतान/दौर) के लिए ट्रांजेक्शनल सिंग (+ आइडेम्पोटेंट सिंक)।
वॉल्यूम काउंटर: प्रति खिड़की "अपेक्षित" बनाम "प्राप्त विसंगति → अलर्ट।
फ्लिंक नियम पैटर्न (छद्म):scala val deduped = stream
.keyBy(_.id)
.process(new DeduplicateWithin(Time. minutes(10)))
val validated = deduped
.filter(_.amount >= 0)
.filter(_.currency in Set("EUR","USD","TRY","BRL"))
emitToQuarantineIfLate(validated, allowedLateness = 120. seconds)
7) DWH/SQL: अपरिवर्तनीय और सामंजस्य
SQL जाँच (उदाहरण):sql
-- uniqueness
SELECT id, COUNT() c FROM gold. payments GROUP BY 1 HAVING c>1;
-- freshness
SELECT NOW() - MAX(ts) AS lag FROM gold. payments;
-- reconciliation of totals
SELECT
SUM(amount) AS by_rows,
(SELECT total_amount FROM gold. payments_summary WHERE date=CURRENT_DATE) AS by_summary
FROM gold. payments
WHERE date = CURRENT_DATE;
विंडो मिलान: दैनिक 'विवरण → सारांश' सामंजस्य, विसंगति रिपोर्ट, स्वचालित टिकट।
8) गोपनीयता और सुरक्षा
डिफ़ॉल्ट PII संस्करण: इनपुट मास्क/टोकन; हम लॉग में "कच्चे" ई-मेल/कार्ड/फोन को प्रतिबंधित करते हैं।
अनुमति नीति: पीआईआई के साथ तालिकाएं - अलग परत/निर्देशिका, भूमिकाओं द्वारा अभिगम (आरबीएसी/एबीएसी)।
रिपोर्टों की के-गुमनामी: स्लाइस में न्यूनतम एन पंक्तियाँ।
लीक डिटेक्टर: पीआईआई पैटर्न के लिए नियमित जांच, "रहस्य" (कुंजी/टोकन)।
न्यायालय: भू/किरायेदार-अलगाव (देश/ब्रांड/लाइसेंस), अलग कुंजी।
9) गुणवत्ता और एसएलओ मैट्रिक्स
गुणवत्ता माप (D):- ताजगी - अंतराल अधिकतम (ts)।
- पूर्णता - गैर-खाली/अपेक्षित रिकॉर्ड का अनुपात।
- विशिष्टता - डुप्लिकेट कुंजी।
- संगति - अपरिवर्तनीय और संतुलन (अंतर-तालिका)।
- बाहरी डोमेन स्रोत/नियमों के साथ सटीकता - सत्यापन।
- वैधता - मिलान/enum/regex प्रकार।
- 'ताजगी payments_gold ≤ 5 мин' (p95)।
- 'पूर्णता game_rounds ≥ 99। 7 %/दिन '।
- 'डुप्लिकेट _ रेट ≤ 0। 1‰`.
- 'PII _ leak = 0'।
10) अलर्ट, टिकट और रनबुक
रूटिंग: सुस्त/PagerDuty → डोमेन मालिक; स्वचालित रूप से नमूने और diff लागू करें।
समूहीकरण: प्रति सेट एक घटना "लेबल: डेटासेट = भुगतान, ब्रांड = टीआर"।
रनबुक (उदाहरण "ताजगी उल्लंघन: payments_gold"):1. निगरानी लॉग और ब्रोकर कतार की जाँच करें।
2. पीएसपी द्वारा "अपेक्षित बनाम प्राप्त" की तुलना करें।
3. Retrai/स्विच PSP रूट सक्षम करें।
4. एनोटेट कारण; पीठ का पुनः आरंभ; पोस्टमार्टम।
11) वर्शनिंग, परीक्षण और छूट प्रक्रिया
गुणवत्ता नियमों का निर्धारण: 'गुणवत्ता @ MAJER माइनर। PATCH '।
परिवर्तनों की इकाई परीक्षण (SQL/DBT/अजगर) और स्रोतों के लिए अनुबंध परीक्षण।
गोल्डन सेट: विसंगतियों/लीक के ज्ञात मामले प्रतिगमन में अनिवार्य हैं।
छूट: नियम का उल्लंघन करने के लिए अल्पकालिक अनुमति (विवरण, मालिक, शब्द, प्रतिपूरक उपाय)।
12) कैटलॉग/कलाकृतियाँ (तैयार-निर्मित टेम्पलेट)
12. 1 डाटासेट पासपोर्ट
yaml dataset: gold. game_rounds owner: team-games steward: data-governance contracts: ["games_rounds_v3"]
quality_slo:
freshness_p95: "PT10M"
completeness_min: 0. 997 uniqueness_max_dup: 0. 0005 alerts:
channels: ["#dq-incidents","#games-ops"]
severity_map: {error: "P1", warn: "P2"}
12. 2 संगरोध नीति
yaml quarantine:
storage: "s3://quarantine/payments/"
retention: "P30D"
access: ["team-payments","data-governance"]
auto_reprocess:
cron: "/15 "
max_attempts: 3
12. 3 उम्मीद для फीचर स्टोर
yaml featureset: fs_payments_online_v1 checks:
- name: feature_freshness check: "now() - max(feature_ts) <= interval '60 seconds'"
severity: "error"
- name: range_amount_avg check: "amount_avg in [0, 2000]"
severity: "warn"
- name: enum_device check: "device in ['ios','android','web']"
severity: "error"
13) iGaming की बारीकियां: तैयार मामले
भुगतान/पीएसपी: पीएसपी रिपोर्ट में जमा/निकासी का सामंजस्य; लापता स्टेटस - कसाई संगरोध; वृद्धि 'dinct _ rate' के लिए अलर्ट।
खेल प्रदाता: प्रदाता A, स्थिति बैनर के परिवर्तन ब्लॉक से 'राउंड _ per _ min' बनाम बेसलाइन + स्कीमा बहाव छोड़ दें।
आरजी/एएमएल: अनिवार्य क्षेत्र (सीमा, आत्म-बहिष्करण, केवाईसी स्टेटस); भुगतान ब्लॉक पर अतिदेय KYC → झंडा, अनुपालन में टिकट।
विपणन/सीआरएम: अभियान मापदंडों, यूटीएम, इवेंट डेडअप की वैधता; स्टोरफ्रंट में के-गुमनामी।
14) कार्यान्वयन रोडमैप
0-30 दिन (एमवीपी)
1. मुख्य सेट के लिए अनुबंध शामिल करें: भुगतान, game_rounds, उपयोगकर्ता, सुविधाएँ।
2. उम्मीदों की सूची (10-15 बुनियादी) + संगरोध + अलर्ट।
3. डैशबोर्ड ताजगी/पूर्णता/विशिष्टता; घटना की रिपोर्ट।
4. Runbook'и для 'ताजगी', 'डुप्लिकेट्स', 'स्कीमा बहाव'।
30-90 दिन
1. अंतर सामंजस्य और संतुलन; छूट प्रक्रिया और सेवर नियम।
2. स्ट्रीम सत्यापन (देर से डेटा, गतिरोध, वॉटरमार्क); पीआईआई डिटेक्टर।
3. सीआई/सीडी के साथ एकीकरण: स्रोतों और परिवर्तनों का अनुबंध-परीक्षण।
4. डोमेन कमांड OKR में गुणवत्ता SLO।
3-6 महीने
1. AIOps दहलीज संकेत; कारणों का ऑटो-स्थानीयकरण।
2. क्रॉस-ब्रांड/जियो गुणवत्ता नीति और अनुपालन रिपोर्ट।
3. पोस्टमार्टम P1 घटनाओं - सुनहरे सेट और नियमों की पुनर्पूर्ति।
4. प्रवाह चेतावनी और विसंगति विश्लेषण (एकल लूप) के साथ संबंध।
15) RACI
डेटा गवर्नेंस (ए/आर): मानक, अनुबंध, नियम ऑडिटिंग।
डोमेन ओनर्स (आर): डोमेन अपेक्षाएं और अपरिवर्तनीय।
डेटा प्लेटफ़ॉर्म (आर): अपेक्षाएं ढांचा, संगरोध, अलर्ट, निगरानी।
सुरक्षा/डीपीओ (ए/आर): गोपनीयता/पीआईआई/के-गुमनामी, भू/किरायेदार-अलगाव।
SRE/ऑब्जर्वेबिलिटी (C): घटना मार्ग, SLO/SLI।
उत्पाद/वित्त (सी): व्यावसायिक संतुलन, घटना प्राथमिकताएं।
16) एंटी-पैटर्न
सत्यापन "केवल DWH में" - देर से, महंगा, दर्दनाक।
कोई संगरोध नहीं - "गंदगी" गोल्ड/एमएल में जाती है और विश्वास तोड़ ती है।
मौसमी/घंटे/बाजारों के बिना हार्ड थ्रेसहोल्ड - अलर्ट तूफान।
मालिक और सेवर नियमों की कमी - अपवादों की अराजकता।
PII और "आम चैनल के लिए स्क्रीनशॉट" के साथ लॉग।
एक स्थायी सर्किट के बजाय एक बार "सैनिटरी दिन"।
17) संबंधित अनुभाग
डेटाऑप्स प्रैक्टिस, डेटा ऑडिटिंग और वर्शनिंग, डेटा ओरिजिन एंड पाथ, डेटा स्ट्रीम अलर्ट, विसंगति और सहसंबंध विश्लेषण, एक्सेस कंट्रोल, डेटा सिक्योरिटी और एन्क्रिप्शन, डेटा रिटेंशन पॉलिसिटीज, एमओपीएस: मॉडल एक्स।
कुल
सत्यापन अंत में एक फिल्टर नहीं है, लेकिन एक एंड-टू-एंड गुणवत्ता अनुबंध है: इंजेक्शन और स्ट्रीम से स्टोरफ्रंट और ऑनलाइन सुविधा तक। स्पष्ट उम्मीदें, संगरोध, अलर्ट और एसएलओ डेटा को एक विश्वसनीय संपत्ति में बदल देते हैं: रिपोर्ट सही हैं, मॉडल स्थिर हैं, भुगतान सुरक्षित हैं, अनुपालन शांत है।