डेटा गुणवत्ता नियंत्रण
1) उद्देश्य और सिद्धांत
क्यों: विश्वसनीय रिपोर्ट (जीजीआर/कर), धोखाधड़ी विरोधी और आरजी मॉडल, अनुपालन अपलोड, उत्पाद और निजीकरण।
सिद्धांत:- स्कीमा-प्रथम और अनुबंध: अनुबंध डेटा प्रकाशित करने के लिए सभी स्रोतों की आवश्यकता होती है।
- DQ-as-code: भंडार, संस्करण, परीक्षण और समीक्षाओं में नियम।
- अवलोकन-दर-डिफ़ॉल्ट: मेट्रिक्स/लॉगिंग/वंश।
- गोपनीयता-दर-डिजाइन: पीआईआई न्यूनतम, मास्किंग और आरएलएस/सीएलएस।
- लागत-जागरूक: महत्वपूर्ण नियमों का प्राथमिकता, स्मार्ट नमूने।
2) गुणवत्ता माप का वर्गीकरण
पूर्णता - आवश्यक क्षेत्रों/पंक्तियों का प्रतिशत।
वैधता-मेल प्रकार/रेंज/संदर्भ पुस्तकें।
विशिष्टता: कोई डुप्लिकेट कुंजी/घटनाएँ नहीं।
स्थिरता: संदर्भित अखंडता, व्यापार अपरिवर्तनीय
सटीकता-दृष्टिकोण "सच" स्रोत (सारांश सामंजस्य)।
समयरेखा/ताजगी - सामग्री देरी।
वंश अखंडता: परिवर्तनों की उत्पत्ति/संस्करणों को संरक्षित करना।
गुणवत्ता और आलोचना केपीआई (महत्वपूर्ण/प्रमुख/मामूली) प्रत्येक डोमेन के लिए परिभाषित किए गए हैं।
3) संविदा और योजनाएं (सत्य का स्रोत)
डेटा अनुबंध: JSON Schema/Avro/OpenAPI/AsyncAPI, रजिस्ट्री द्वारा होस्ट किया गया।
स्थिरता: पिछड़े-संगत परिवर्तन - अशक्त जोड़ ना; ब्रेकिंग - नया संस्करण + डबल एंट्री।
traceability: घटनाओं में - 'event _ id', 'trace _ id', 'schema _ version', 'source'.
4) डीक्यू-ए-कोड: कलाकृति संरचना
पाइपलाइनों के साथ गिट में नियमों को संग्रहीत करें:
/dq/
rules/
silver. payments. yaml gold. ggr_daily. yaml checks/
sql/
python/
policies/
severities. yaml notifications/
routes. yaml
नियम: घोषणात्मक YAML/SQL;
गंभीरता: मैपिंग → अलर्ट चैनल/एस्केलेशन स्तर;
सीआई: सर्किट लिंटर, संगतता परीक्षण, ड्राई-रन/सिम्युलेटर।
5) उदाहरण नियम (YAML)
yaml table: silver. payments owner: data-payments slo:
freshness_minutes: 15 completeness_percent: 99. 5 rules:
- name: amount_positive severity: critical type: range column: amount min: 0. 01
- name: currency_in_whitelist severity: major type: in_set column: currency set: [EUR, USD, GBP, TRY, BRL]
- name: unique_tx severity: critical type: unique columns: [transaction_id]
- name: fk_user_exists severity: critical type: foreign_key column: user_pseudo_id ref_table: dim. users ref_column: user_pseudo_id
- name: ts_monotonicity severity: minor type: temporal expression: "ts between date_sub(now(), interval 90 day) and now()"
6) SQL परीक्षण (नमूने)
कुंजियों की विशिष्टता
sql
SELECT transaction_id, COUNT() AS c
FROM silver. payments
GROUP BY transaction_id
HAVING COUNT() > 1;
आवश्यक क्षेत्र पूर्णता
sql
SELECT COUNT() AS nulls
FROM silver. payments
WHERE amount IS NULL OR currency IS NULL OR ts IS NULL;
संदर्भ/स्थिरता
sql
SELECT p. currency
FROM silver. payments p
LEFT JOIN ref. currencies r ON p. currency = r. code
WHERE r. code IS NULL;
7) स्ट्रीमिंग डीक्यू (वास्तविक समय)
इनजेस्ट-सत्यापन: स्कीमा सत्यापन, आकार-सीमा, प्रकार और एनम।
ऑन-स्ट्रीम चेक: डेडअप '(event_id, स्रोत)', अनुमत विलंबता, मुद्रा/राशि वैधता।
सीमाएँ: महत्वपूर्ण त्रुटियाँ - DLQ + अलर्ट; महत्वपूर्ण → टैग नहीं है, लेकिन छोड़ दें ('dq _ flag' ध्वज के साथ)।
मेट्रिक्स: पार्टी द्वारा पूर्णता/लैग/डुप-रेट।
8) त्रुटियों और अपवादों को संभालना
DLQ/संगरोध: बीमार रिकॉर्ड आयोजित किए जाते हैं, सुधार के लिए उपलब्ध हैं।
अपवाद रिकॉर्ड: अपवाद कार्ड (मालिक, तिथि, कारण, क्षेत्र)।
स्वतः फॉलबैक: डिस्प्ले केस का अंतिम सही स्नैपशॉट इस्तेमाल करें.
समापन SLA: महत्वपूर्ण - ≤ 24-48 घंटे; प्रमुख - ≤ 5 कर्मचारी दिन।
9) गोपनीयता और अनुपालन के साथ समन्वय
पीआईआई कम से कम: विश्लेषणात्मक परतों में "कच्चे" पीआईआई की जांच न करें; उपनाम इस्तेमाल करें।
फील्ड मास्किंग के आधार पर आरएलएस/सीएलएस-चेक किए जाते हैं।
क्षेत्रीयकरण: नियम 'अधिकार क्षेत्र' (ईईए/यूके/बीआर) को ध्यान में रखते हैं।
कानूनी पकड़: पकड़ के हिस्से के रूप में अभिलेखागार का कोई पुनर्लेखन नहीं।
10) अवलोकन, SLI/SLO और अलर्ट
अनुशंसित SLI/SLO:- ताजगी p95 (रजत): ≤ 15 मिनट
- पूर्णता (महत्वपूर्ण प्रकार): ≥ 99। 5%.
- वैधता (स्कीमा): ≥ 99। 9%.
- डुप्लिकेट दर: ≤ 0। 1%.
- डीक्यू घटना एमटीटीआर: ≤ 24-48 ч।
अलर्ट: महत्वपूर्ण, एंटी-अलियासिंग, रखरखाव खिड़कियों के लिए पेजर।
11) डैशबोर्ड (न्यूनतम सेट)
डोमेन और बाजार द्वारा ताजगी/पूर्णता गर्मी का नक्शा।
घटना दर और सुधार की लागत से शीर्ष एन तालिकाएं।
डीक्यू फ़नल: निगलना → चांदी → सोना (नुकसान/सुधार)।
महत्वपूर्ण रिपोर्ट (नियामक/जीजीआर/आरजी/एएमएल) के लिए लाइनेज मैप।
"विरासत" स्कीमा और ग्राहकों का नक्शा (एसडीके/स्कीमा संस्करण)।
12) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): डेटा इंजीनियरिंग (तालिकाओं पर नियम), डोमेन मालिक (शब्दार्थ)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/कानूनी/डीपीओ, वास्तुकला, एसआरई।
मैं (सूचित): BI/Продукт/Маркетинг/Финансы/Операции।
नियम जीवनचक्र: प्रस्ताव → समीक्षा → "डार्क रन" → समावेश → निगरानी → पूर्वव्यापी।
13) सुलह और सटीकता
चेकसम/लेनदेन: OLTP/प्रदाताओं (PSP/KYC) के साथ तिजोरी।
दो-लूप तुलना: चयनात्मक सत्यापन के लिए स्वतंत्र पाइपलाइन।
सहिष्णुता मेट्रिक्स द्वारा प्रतिशत थ्रेसहोल्ड हैं (उदा। GGR विचरण ≤ 0। 2%).
दैनिक कार्य: ऑडिट सुलह रिपोर्ट।
14) लागत और प्राथमिकता
महत्वपूर्ण नियम अधिक बार चलाएं (स्ट्रीमिंग/प्रति घंटा), नाबालिग - दैनिक।
भारी तालिकाओं के लिए लाने और भौतिक जांच का उपयोग करें।
ट्रैक लागत/क्वेरी और लागत/जीबी, क्लस्टरिंग/इंडेक्सिंग लागू करें।
टीमों (चार्जबैक) के संदर्भ में डीक्यू के लिए एक बजट आवंटित करें।
15) गोल्ड स्टोरफ्रंट के लिए टेम्पलेट (जीजीआर डेली उदाहरण)
yaml table: gold. ggr_daily owner: fin-analytics slo:
ready_by_local_time: "06:00"
rules:
- name: ggr_not_negative severity: critical type: range column: ggr min: 0. 0
- name: market_known severity: major type: in_set column: market set_ref: ref. markets
- name: fx_source_present severity: major type: not_null column: fx_source
- name: completeness_by_market severity: critical type: completeness partition_keys: [event_date, market]
expected_rows_expression: "ref. expected_activity(event_date, market)"
16) गुणवत्ता की घटनाएं: प्रबंधन और संचार
टिकटिंग: संलग्न चयन और मैट्रिक्स के साथ कार्यों का ऑटो-निर्माण।
कॉम टेम्पलेट: प्रभावित होने पर उत्पाद मालिकों/नियामकों को सूचित करना।
पोस्टमार्टम: रूट कारण (स्कीमा ड्रिफ्ट, अपस्ट्रीम बग, लोड), CAPA एक्शन, "रिग्रेशन रिटर्न" का नियंत्रण।
17) कार्यान्वयन रोडमैप
एमवीपी (2-4 सप्ताह):1. महत्वपूर्ण तालिकाओं की सूची (भुगतान, गेमप्ले, जीजीआर, अनुपालन)।
2. YAML 10-15 कुंजी जाँच + CI सत्यापन के लिए नियम।
3. ताजगी/पूर्णता डैशबोर्ड और महत्वपूर्ण के लिए अलर्ट।
4. DLQ/संगरोध + रनबुक फिक्स।
चरण 2 (4-8 सप्ताह):- नियम विस्तार (एफके/सटीकता), ड्राई-रन सिम्युलेटर, ए/बी समावेशन।
- वंश एकीकरण, अपवाद व्यवस्था और एसएलए।
- "शोर" स्रोतों के लिए निगरानी पर डीक्यू।
- नियमों, लागत मैट्रिक्स द्वारा प्रलेखन का ऑटोजेनेशन।
- "नियंत्रण आकृति" (स्वतंत्र सुलह), साप्ताहिक पूर्वव्यापी।
- नियम-ए-कोड प्लेटफॉर्म एसडीके, मानक डोमेन जांच की एक रजिस्ट्री।
18) प्री-सेल चेकलिस्ट
- रजिस्ट्री में अनुबंध और स्कीमा, संगतता परीक्षण पास होते हैं।
- YAML नियम जमे हुए, गंभीरता/वृद्धि को सौंपा गया।
- डैशबोर्ड और अलर्ट सक्रिय हैं; एसएलओ परिभाषित और सहमत हैं।
- डीएलक्यू/संगरोध उपलब्ध है, रनबुक प्रलेखित हैं।
- अपवाद/सुलह प्रक्रियाएं कानूनी/अनुपालन से सहमत हैं।
- भारी अनुरोधों पर निरीक्षण की लागत और सीमाओं का मापन।
19) बार-बार गलतियाँ और उनसे कैसे बचें
अनुबंध के बिना कच्चे डेटा: स्कीमा-प्रथम और उपभोक्ता-परीक्षण दर्ज करें।
"मैनुअल" चेक: DQ-as-code और CI में अनुवाद करें।
कोई प्राथमिकता नहीं: अलग महत्वपूर्ण/प्रमुख/मामूली और सतर्क चैनल।
कोई DLQ नहीं है: त्रुटियों के साथ काम करने के लिए कुछ भी नहीं है - संगरोध जोड़ें।
लागत की अनदेखी करें: प्रोफ़ाइल प्रश्न, भौतिककरण का उपयोग करें।
कोई पोस्टमार्टम नहीं: त्रुटियां दोहराई जाती हैं - CAPA और प्रतिगमन नियंत्रण दर्ज करें।
20) नीचे की रेखा
डेटा गुणवत्ता नियंत्रण प्रणाली बिखरे हुए चेक का एक सेट नहीं है, लेकिन एक प्रबंधित कार्यक्रम: अनुबंध और योजनाएं, डीक्यू-ए-कोड, अवलोकन और एसएलओ, घटना और सामंजस्य अनुशासन। इस लेख का अनुसरण करके, आपको नियामक रिपोर्टिंग, उत्पाद समाधान और वास्तविक समय के जोखिम डिटेक्टरों के लिए पर्याप्त प्रजनन, सत्यापन और लागत प्रभावी डेटा प्राप्त होगा।