मॉडल प्रशिक्षण
1) उद्देश्य और सिद्धांत
प्रशिक्षण का लक्ष्य एक स्थायी, प्रजनन योग्य और लागत प्रभावी मॉडल प्राप्त करना है जो आरजी/एएमएल/कानूनी का अनुपालन करते हुए व्यवसाय मैट्रिक्स (शुद्ध राजस्व, churn↓, fraud↓) में सुधार करता है।
सिद्धांत:- Problem→Metric→Data: पहला कार्य और परिचालन मीट्रिक/त्रुटि लागत, फिर डेटासेट।
- प्वाइंट-इन-टाइम: कोई सुविधा/लेबल भविष्य का उपयोग नहीं करता है।
- प्रजनन योग्यता: निश्चित बीज/संस्करण, कलाकृति नियंत्रण।
- सादगी पहले: बुनियादी मॉडल/सुविधा के साथ शुरू करें; केवल सिद्ध लाभ के साथ जटिल।
- डिजाइन द्वारा गोपनीयता: पीआईआई-न्यूनतम, निवास, ऑडिट।
2) कार्य और मैट्रिक्स की औपचारिकता
वर्गीकरण: मंथन/जमा/धोखाधड़ी/आरजी → पीआर-एयूसी, एफ 1 @ ओपेरा। सीमा, केएस, अपेक्षित लागत।
प्रतिगमन/पूर्वानुमान: LTV/GGR → WAPE/SMAPE, P50/P90 त्रुटि, PI कवरेज।
रैंकिंग/सिफारिशें: NDCG @ K, MAP @ K, कवरेज/विविधता।
ऑनलाइन मैट्रिक्स: उत्थान शुद्ध राजस्व, सीटीआर/सीवीआर, समय-से-साक्षात्कार (आरजी), दुरुपयोग-दर।
लागत सीमा (छद्म कोड):python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) डेटासेट और विभाजन
प्वाइंट-इन-टाइम ज्वाइन और SCD-संगत माप।
वर्ग असंतुलन: स्तरीकृत नमूना, class_weight, फोकल नुकसान, दुर्लभ घटनाओं की देखरेख।
समय/बाजार/किरायेदार विभाजन: लीक के लिए गैप -।
टेम्पोरल स्प्लिट (SQL विचार):sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) फीचर तैयारी
विंडोज और इकाइयाँ: 10m/1h/1d/7d/30d, R/F/M, गति/भिन्न।
श्रेणियां: हैशिंग/एक-गर्म; लक्ष्य एन्कोडिंग (समय-जागरूक)।
सामान्यीकरण/स्केलिंग: ट्रेन से मापदंड, कलाकृतियों में सहेजें।
ग्राफ/एनएलपी/जियो: एक बैच का निर्माण, फ़ीचर स्टोर (ऑनलाइन/ऑफ़लाइन) में प्रकाशित करें।
5) बेसिक एल्गोरिदम
GBDT: XGBoost/LightGBM/CatBoust सारणीबद्ध डेटा के लिए एक मजबूत डेटाबेस है।
लॉजिस्टिक रिग्रेशन/एल् नेट: व्याख्यात्मक/सस्ता।
सलाहकार: LambdaMART, कारक, seq2rec।
विसंगतियाँ: अलगाव वन, ऑटोएनकोडर।
समय श्रृंखला: पैगंबर/ईटीएस/जीबीडीटी-बाय कैलेंडर सुविधाएँ।
6) नियमितीकरण और पीछे हटने की रोकथाम
GBDT: 'max _ depth', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'।
एनएन: ड्रॉपआउट/वजन क्षय/जल्दी रुकना।
प्रारंभिक पड़ाव: धैर्य और न्यूनतम सुधार के साथ वैल पर मीट्रिक द्वारा।
7) हाइपरपैरामीटर का चयन
ड्राफ्ट खोज के लिए ग्रिड/यादृच्छिक; ठीक ट्यूनिंग के लिए बायेसियन/हाइपरबैंड।
सीमाएं: पुनरावृत्ति/समय/लागत बजट, वैल पर "नो-ओवरफिट" (कई समय विभाजन पर क्रॉस-चेकिंग)।
स्केच:python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) संभाव्यता अंशांकन
प्लाट/आइसोटोनिक на होल्डआउट; एक कलाकृति के रूप में अंशांकन फ़ंक्शन संग्रहीत करें।
ईसीई/रिलेबिलिटी की जाँच करें; अपेक्षित लागत से थ्रेसहोल्ड फिर से बनाएं।
9) व्याख्या और स्पष्टीकरण
ग्लोबल: फीचर महत्व/SHAP, क्रमपरिवर्तन योगदान।
स्थानीय: इकाई समाधान के लिए SHAP (RG/AML मामले)।
ऑनलाइन स्पष्टीकरण का उपयोग करने के जोखिम और स्वीकार्यता का दस्तावेजीकरण करें।
10) प्रजनन योग्यता और कलाकृतियाँ
बीज हर जगह: डेटा/मॉडल/फिट/स्प्लिट।
कलाकृतियाँ: डेटा संस्करण, फीचर पाइपलाइन, वजन, अंशांकन, थ्रेसहोल्ड, कॉन्फ़िग।
नियतात्मक बिल्ड: निश्चित कंटेनरों/निर्भरता।
11) ट्रैकिंग प्रयोग
हम पंजीकरण करते हैं: गिट-कमिट, डेटासेट/फीचर संस्करण, मॉडल कॉन्फिग, मेट्रिक्स (ऑफ/ऑनलाइन), कलाकृतियां और टिप्पणियां।
नामकरण प्रयोगों, टैग (डोमेन/बाजार/मॉडल) के लिए नियम।
12) ऑफ़ लाइन → ऑनलाइन ट्रांसफर
यूनिफाइड ट्रांसफॉर्मेशन कोड (फीचर स्टोर); ऑनलाइन/ऑफ़लाइन समतुल्यता परीक्षण।
सेवारत: REST/gRPC, टाइमआउट/रिट्रे/कैश; कैनरी/स्टेज-बाय-स्टेज वापसी।
थ्रेशोल्ड/पॉलिसी: कॉन्फ़िगरेबल (फ्लैग्स), ऑडिट और रोल-बैक।
13) निगरानी और बहाव
डेटा/दर: पीएसआई/केएल; अलर्ट जब थ्रेसहोल्ड से अधिक हो।
कैलिब्रेशन और मैट्रिक्स: स्ट्रीमिंग लेबल पर ईसीई, पीआर-एयूसी/केएस।
बिजनेस मैट्रिक्स: उत्थान शुद्ध राजस्व, धोखाधड़ी बचाया, आरजी हस्तक्षेप, एसएलए।
रिट्रेन ट्रिगर्स: बहाव/मौसमी/रिलीज/समाप्ति तिथि द्वारा।
14) गोपनीयता, निवास, निष्पक्षता
पीआईआई कम से कम: छद्म शब्द, सीएलएस/आरएलएस, व्यक्तिगत मैपिंग।
रेजीडेंसी: व्यक्तिगत निर्देशिका/कुंजियाँ (EEA/UK/BR); बिना कारण के क्रॉस-क्षेत्रीय शामिल होने
निष्पक्षता: स्लाइस विश्लेषण (बाजार/उपकरण/खाता आयु), असमान प्रभाव, समान बाधाओं; सुविधाओं/थ्रेसहोल्ड/वजन का सुधार।
15) लागत-इंजीनियरिंग
प्रशिक्षण लागत: CPU/GPU घंटे, I/O, रन की संख्या।
अनुमान की लागत: अनुरोध के अनुसार विलंबता/लागत; ऑनलाइन सुविधाओं और मॉडल आकार पर सीमा।
भौतिककरण: भारी विशेषताएं - ऑफ़ लाइन; ऑनलाइन - तेज, कैश।
चार्जबैक: प्रायोगिक/रीप्ले बजट।
16) उदाहरण (टुकड़े)
लाइटजीबीएम (वर्गीकरण, पायथन स्केच):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
प्वाइंट-इन-टाइम नमूना (SQL विचार):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
अपेक्षित लागत अनुमान और दहलीज चयन:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): डेटा साइंस (मॉडल/प्रयोग), डेटा इंग (डेटासेट/फीचर/फीचर स्टोर), एमएलओपी (सेवारत/निगरानी/सीआई-सीडी-सीटी)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/डीपीओ (पीआईआई/आरजी/एएमएल/डीएसएआर), सुरक्षा (केएमएस/रहस्य/लेखा परीक्षा), एसआरई (एसएलओ/मूल्य), वित्त (आरओआई)।
I (सूचित): उत्पाद/विपणन/संचालन/सहायता।
18) कार्यान्वयन रोडमैप
एमवीपी (3-6 सप्ताह):1. कार्यों और मैट्रिक्स (अपेक्षित लागत), बिंदु-इन-टाइम डेटासेट की निर्देशिका।
2. बेसिक मॉडल (LogReg/GBDT) + अंशांकन + मॉडल कार्ड।
3. ट्रैकिंग प्रयोग, निश्चित बीज/कलाकृतियां, प्रजनन योग्य बिल्ड।
4. कैनरी ऑनलाइन सर्फिंग, थ्रेसहोल्ड जैसे कॉन्फ़िग, अलर्ट मेट्रिक्स/बहाव।
चरण 2 (6-12 सप्ताह):- बायेसियन/हाइपरबैंड चयन, स्लाइस विश्लेषण/निष्पक्षता, रिट्रेन ट्रिगर।
- अर्थशास्त्र सुविधा/निष्कर्ष, कैश/टीटीएल, चार्जबैक।
- मीट्रिक/थ्रेशोल्ड सूत्रों का प्रलेखन, क्या-यदि सिमुलेशन।
- बहु-क्षेत्रीय पाइपलाइनें, डीआर/अभ्यास, रिलीज का WORM-संग्रह।
- गुणवत्ता/अंशांकन रिपोर्ट का ऑटो-जनरेशन, घटनाओं द्वारा ऑटो-ओवर-प्रशिक्षण।
- क्रमिक परीक्षण और स्वचालित शटडाउन के साथ ए/बी/एन प्रयोग।
19) प्री-सेल चेकलिस्ट
- कार्य और मीट्रिक व्यवसाय गठबंधन; त्रुटियों की लागत की गणना की।
- डाटासेट पॉइंट-इन-टाइम; कोई ल्यूकेज न होने वाला समय/बाजार विभाजन।
- चयन/नियमितीकरण, प्रारंभिक पड़ाव, संभावना अंशांकन।
- मॉडल कार्ड: डेटा, सुविधाएँ, मैट्रिक्स, जोखिम, निष्पक्षता, मालिक।
- कलाकृतियों को सहेजा (वजन, सुविधा पाइपलाइन, अंशांकन, थ्रेसहोल्ड)।
- ऑनलाइन/ऑफलाइन समतुल्यता परीक्षण पारित; एक सुविधा ध्वज के साथ सर्फिंग।
- बहाव/अंशांकन/व्यवसाय मैट्रिक्स की निगरानी; रिट्रेन/रोलबैक योजनाएं।
- PII/DSAR/RTBF नीतियों, निवास और पहुंच ऑडिटिंग का पालन किया जाता है।
- प्रशिक्षण/निष्कर्ष की लागत बजट में शामिल है; एसएलए अलर्ट।
20) एंटी-पैटर्न और जोखिम
लैकेज: भविष्य से सुविधाएँ/लेबल, अनियंत्रित एससीडी।
एक शाफ्ट-नमूने पर "टू ब्लू" ट्यूनिंग: कोई अस्थायी विभाजन/क्रॉस-चेकिंग नहीं।
कोई अंशांकन और लागत थ्रेसहोल्ड नहीं।
ऑनलाइन/ऑफ़लाइन सुविधा बेमेल: प्रोड पर विभिन्न परिणाम।
निष्पक्षता/स्लाइस की अनदेखी: बाजारों/उपकरणों में छिपी विफलताएं।
असीमित रिप्ले और महंगी विशेषताएं: बिना लाभ के बढ़ ते मूल्य।
21) नीचे की रेखा
मॉडल प्रशिक्षण एक प्रबंधनीय प्रक्रिया है: स्पष्ट कार्य और मीट्रिक, बिंदु-इन-टाइम अनुशासन, नियमितीकरण के साथ बुद्धिमान ट्यूनिंग, अंशांकन और प्रजनन, ऑनलाइन पारदर्शी हस्तांतरण, और गुणवत्ता, लागत और जोखिम। इस प्लेबुक का पालन करके, आपको ऐसे मॉडल मिलते हैं जो उत्पाद, प्रतिधारण और अनुपालन में सुधार करते हैं - जल्दी, नैतिक और मज़बूती से।