डेटा मार्कअप और मॉडल क्वालिटी
1) उद्देश्य और सिद्धांत
लक्ष्य: प्रजनन योग्य लेबल और बिना ल्यूकेज के मॉडल की औसत दर्जे की गुणवत्ता प्राप्त करना और अनुपालन को ध्यान में रखना।
सिद्धांत:- स्कीमा-प्रथम: औपचारिक ऑन्कोलॉजी, वर्ग शब्दकोश और मानदंड।
- प्वाइंट-इन-टाइम: लेबल निर्णय के समय उपलब्ध जानकारी से बनाए गए हैं।
- गुणवत्ता-के-कोड: निर्देश, परीक्षण, चेकलिस्ट और चयन - भंडार में।
- गोपनीयता-दर-डिजाइन: PII न्यूनतम, DSAR/RTBF, निवास।
- लागत-जागरूक: मार्कअप और अपेक्षित लागत की लागत पर विचार करें।
2) ऑन्कोलॉजी और लेबल योजना
मार्कअप ऑब्जेक्ट, कक्षाएं, अपवाद और सत्य के स्रोतों को परिभाषित करें: उदाहरण (AML/Antifraud):- वस्तु: ट्रांजेक्शन/सत्र।
- Классы: 'कानूनी', 'धोखाधड़ी _ संदिग्ध', 'धोखाधड़ी _ पुष्टि', 'अज्ञात'।
- अपवाद: सबूत के बिना चार्जबैक → 'अज्ञात'।
- स्रोत: केस मैनेजमेंट, चार्जबैक रजिस्ट्रियां, प्रदाता/बैंक।
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) दिशानिर्देश
संरचना:1. कार्य और व्यवसाय संदर्भ का विवरण।
2. सकारात्मक/नकारात्मक उदाहरणों और सीमावर्ती मामलों के साथ वर्ग परिभाषाएं।
3. स्रोत प्राथमिकता नियम (सही> अनुमानित> राय)।
4. 'अज्ञात' और वृद्धि मानदंड।
5. गोपनीयता नीतियां (मास्किंग, आईडी के बजाय टोकन)।
6. FAQ और मार्कअप चेकलिस्ट।
निर्देशों का टुकड़ा (धोखाधड़ी):- 'फ्राड _ पुष्टि': FROUD टैग के साथ सिद्ध चार्जबैक/बंद मामला।
- 'fraud _ निलंबित': जमा करें ≥3
- 'कानूनी': 60 दिनों की खिड़की में कोई झंडे और कोई पुष्टि नहीं है।
- 'अनजान': परस्पर विरोधी विशेषताएं या अपर्याप्त डेटा।
4) लेबल स्रोत और पॉइंट-इन-टाइम नियम
ऑटो लेबल: नियम/मामले, चार्जबैक, स्व-बहिष्करण (आरजी), परिणाम दांव।
ग्राउंड: जांच/नियामक परिणामों का परिणाम।
प्वाइंट-इन-टाइम निर्णय बिंदु (t0) के बाद घटनाओं का उपयोग नहीं करें।
देरी: उदाहरण के लिए, चार्जबैक 45-90 दिनों के बाद दिखाई देता है - लेबल "परिपक्व"।
SQL "कोई भविष्य नहीं" टेम्पलेट:sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) नमूने: स्तरीकरण और संतुलन
दुर्लभ घटनाएं: बाजार/प्रदाता/तिथि द्वारा स्तरीकृत नमूने का उपयोग करें; दुर्लभ वर्गों या फोकल नुकसान की देखरेख।
सत्यापन परतें: सप्ताह/बाजार/किरायेदार द्वारा पकड़े।
प्रतिबंध/पीआईआई: प्रशिक्षण सेट से प्रत्यक्ष आईडी क्षेत्रों को बाहर करें।
नमूना पूर्वाग्रह नियंत्रण:sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) ट्रेसर स्थिरता (आईआरआर)
इंटर-एनोटेशन समझौते को मापते हैं: कोहेन के (2 एनोटेटर )/क्रिपेंडॉर्फ (एन एनोटेटर्स, विभिन्न स्केल प्रकार)।
लैंडमार्क:- κ < 0. 4 - खराब स्थिरता - निर्देशों/उदाहरणों को संशोधित करें।
0. 4–0. 6 - जटिल कार्यों के लिए स्वीकार्य; 0. 6 - अच्छा;> 0. 8 उत्कृष्ट है।
गुणवत्ता कार्ड चिह्नित कर र
कवरेज (कितने चिह्नित किए गए हैं), कक्षा और स्लाइस द्वारा, 'अज्ञात' शेयर, औसत समय, शीर्ष त्रुटियां।
7) क्यूए सर्किट और सोने के मानक
गोल्डन सेट: 1-5% चिह्नित - डबल-चेक बेंचमार्क।
हनी-पॉट कार्य: कार्य धारा में छिपे हुए ज्ञात मामले।
दूसरा रूप: विवादास्पद उदाहरणों पर वृद्धि/मध्यस्थता।
प्रतिगमन परीक्षणों को चिह्नित करना: गाइड को अपडेट करने के बाद पुनर्मूल्यांकन
8) सक्रिय, कमजोर और अर्ध-पर्यवेक्षित सीखना
सक्रिय शिक्षण: "अनिश्चित" उदाहरणों का चयन (अधिकतम एन्ट्रापी/विविधता)।
कमजोर पर्यवेक्षण: लेबल के लिए हेउरिस्टिक्स/दूर पर्यवेक्षण + शोर मॉडल।
अर्ध-पर्यवेक्षित: तापमान सीमा और बाद के सत्यापन के साथ छद्म लेबल।
पाइपलाइन:python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) एंटी-ल्यूकेज एंड टाइम कंट्रोल
सुविधाओं और लेबल के लिए प्वाइंट-इन-टाइम जुड़ ते हैं।
भविष्य से लेबल/सुविधा पर प्रतिबंध लगाना ('asof' के बाद)।
परिवर्तन समतुल्यता परीक्षण के साथ ऑनलाइन/ऑफ़लाइन पाइपलाइनों को अलग करें।
डेटा और तर्क संस्करण ('तर्क _ संस्करण', 'डेटा _ संस्करण', 'asof _ date')।
10) मॉडल गुणवत्ता मैट्रिक्स
त्रुटियों की व्यावसायिक लागत के लिए मैट्रिक्स का चयन करें:- वर्गीकरण: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, अपेक्षित लागत (FP/FN वजन)।
- जोखिम स्कोरिंग: बहाव के लिए केएस/आरओसी-एयूसी, बैरियर, अंशांकन (ईसीई), पीएसआई/सीएसआई।
- सिफारिशें: NDCG/MAP @ K, कवरेज/विविधता, नवीनता।
- विसंगतियाँ: सिंथेटिक/गोल्ड सेट पर प्रिसिजन @ k, AUCPR।
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) स्लाइस विश्लेषण और निष्पक्षता
स्लाइस: बाजार, प्रदाता, उपकरण/एएसएन, खाता आयु, जमा आकार, दिन का समय।
निष्पक्षता: असमान प्रभाव (अनुपात), समान बाधाओं (разница FPR/TPR)।
क्रियाएं: सुविधाओं का पुनर्मूल्यांकन, स्लाइस द्वारा अंशांकन, थ्रेसहोल्ड का संशोधन, प्रशिक्षण भार।
12) उत्पादन गुणवत्ता निगरानी
डेटा/भविष्यवाणी बहाव: सुविधाओं/दरों पर पीएसआई/केएल।
अंशांकन: ईसीई, विश्वसनीयता-चार्ट।
थ्रेशोल्ड स्थिरता: अलर्ट यदि अपेक्षित लागत ↑> X% या PR-AUC ↓।
योजनाएं/अनुबंध: ब्रेकिंग चेंज (स्कीमा रजिस्ट्री) को पकड़ें।
फीडबैक लूप: फास्ट मैनुअल इवेंट लेबल (केस-क्लोजिंग, आरजी-परिणाम)।
13) गोपनीयता, सुरक्षा, अनुपालन
पीआईआई कम से कम: छद्म शब्द, अलग संरक्षित मानचित्रण।
रेजीडेंसी: अलग पाइपलाइन/कुंजी (EEA/UK/BR); बिना कारण के क्रॉस-क्षेत्रीय शामिल होने
DSAR/RTBF: गणना योग्य अनुमान और चयनात्मक संपादन।
कानूनी पकड़: मामलों और रिपोर्टिंग पैकेजों के लिए WORM अभिलेखागार।
लॉग: अपरिवर्तनीय अभिगम/निर्यात लेखा परीक्षा।
14) अंकन प्रक्रिया का संगठन
उपकरण: कार्य ट्रैकर, उदाहरण कतार, संदर्भ पूर्वावलोकन, पीआईआई मास्किंग, हॉटकी।
गति और गुणवत्ता नियंत्रण: एनोटेटर की केपीआई (स्वर्ण में गति, सटीकता), प्रशिक्षण और प्रमाणन।
वर्शनिंग: 'दिशानिर्देश _ संस्करण', 'एनोटेटर _ आईडी', 'समीक्षक _ आईडी', टाइमस्टैम्प।
प्रलेखन: सेट कार्ड (मालिक, स्रोत, खिड़कियां, नियम, मैट्रिक्स)।
15) नमूना टेम्पलेट
डाटासेट कार्ड (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
क्यूए अंकन नियम:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
भ्रम मैट्रिक्स (SQL विचार):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) कार्यान्वयन रोडमैप
एमवीपी (2-4 सप्ताह):1. ऑन्कोलॉजी और v1 निर्देश, सोने का सेट (प्रति डोमेन उदाहरण)।
2. पीआईआई मास्किंग के साथ एनोटेशन प्रवाह, प्रत्येक सप्ताह के लिए मीट्रिक।
3. बेसलाइन मॉडल + ऑफ़ लाइन अनुमान (पीआर-एयूसी, अपेक्षित लागत), पॉइंट-इन-टाइम नमूना।
4. सुविधाओं/दरों के बहाव की निगरानी करना; डेटासेट और गाइड संस्करणों का पंजीकरण।
चरण 2 (4-8 सप्ताह):- सक्रिय/कमजोर-पर्यवेक्षण पाइपलाइन, ऑटो-ट्राइएज 'अज्ञात'।
- स्लाइस विश्लेषण और निष्पक्षता रिपोर्ट, संभावना अंशांकन।
- चिह्नित सेटों के लिए DSAR/RTBF प्रक्रियाएं, मामलों के लिए कानूनी पकड़।
- पूर्ण क्यूए स्वचालन (सुनहरा/शहद-बर्तन), मार्कअप प्रतिगमन परीक्षण।
- डेटासेट और "मॉडल गुणवत्ता" कार्ड की सूची; अपेक्षित लागत थ्रेसहोल्डिंग।
- मार्कअप/अनुमान लागत द्वारा चार्जबैक, लेबल अपडेट द्वारा SLA।
17) आरएसीआई
आर (जिम्मेदार): डेटा साइंस (ऑन्कोलॉजी, मैट्रिक्स), लेबल ऑप्स (प्रक्रिया/क्यूए), डेटा एंग (नमूने/पीआईआई/भंडारण)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/डीपीओ (पीआईआई/रेजिडेंसी/डीएसएआर), जोखिम/एएमएल/आरजी (नीति), सुरक्षा (केएमएस/लेखा परीक्षा)।
I (सूचित): उत्पाद/विपणन/संचालन/सहायता।
18) प्री-सेल चेकलिस्ट
- ऑन्कोलॉजी और गाइड अनुमोदित, संस्करण तय।
- गुणात्मक नमूना: स्तरीकरण, समय/बाजार द्वारा पकड़।
- /é ≥ लक्ष्य दहलीज सुनहरी-सटीकता का अनुपालन किया।
- सुविधाओं और लेबल का प्वाइंट-इन-टाइम संग्रह; ल्यूकेज की अनुपस्थिति के लिए परीक्षण पास हुआ।
- अपेक्षित लागत, स्लाइस विश्लेषण और निष्पक्षता द्वारा चुने गए मेट्रिक्स।
- बहाव/अंशांकन पर निगरानी; अलर्ट स्थापित किए जाते हैं।
- PII/DSAR/RTBF और कानूनी पकड़ नीतियों को लागू किया गया; ऑडिट सक्षम।
19) एंटी-पैटर्न और जोखिम
स्पष्ट मानदंड के बिना मार्कअप कम , शोर लेबल।
भविष्य से लैकेज (तथ्यात्मक संकेत/लेबल)।
असंतुलित नमूने, आरओसी-एयूसी मीट्रिक लागत को छोड़ कर।
गोल्डन/क्यूए और रिग्रेशन मार्कअप परीक्षणों की कमी।
PII अनमास्क और रेजिडेंसी डेटासेट में।
कोई स्लाइस विश्लेषण - क्षेत्रों/प्रदाताओं पर छिपी हुई गिरावट।
20) नीचे की रेखा
मॉडल की गुणवत्ता लेबल गुणवत्ता से शुरू होती है। सख्त ऑन्कोलॉजी, उदाहरणों के साथ निर्देश, बिंदु-इन-टाइम अनुशासन, क्यूए आकृति और मैट्रिक्स जो त्रुटियों की लागत को ध्यान में रखते हैं, आईगेमिंग में प्रजनन योग्य एमएल का आधार हैं। डेटा पाइपलाइन और एमएलओपी में इन प्रथाओं को एम्बेड करके, आपको टिकाऊ, नैतिक और आज्ञाकारी मॉडल मिलते हैं जो बिना आश्चर्य के व्यावसायिक परिणामों में सुधार करते हैं।