模型培訓
1)任命和原則
培訓的目的是在遵守RG/AML/Legal的情況下獲得一種可持續的,可重復的,經濟的模型,以改善業務指標(Net Revenue,churn↓,fraud↓)。
原則:- Problem→Metric→Data:首先是任務和操作指標/錯誤成本,然後是dataset。
- 點對點時間:沒有一個目標/標簽利用未來。
- 可重復性:固定種子/版本,工件控制。
- Simplicity first:從基本模型/相思開始;只有有證明的好處,我們才會變得復雜。
- Privacy by design: PII最小化、居住、審核。
2)任務形式化和指標
分類:churn/存款/frod/RG → PR-AUC,F1@歌劇。閾值,KS,expected成本。
回歸/預測:LTV/GGR → WAPE/SMAPE,P50/P90錯誤,PI覆蓋。
排名/推薦:NDCG@K,MAP@K,coverage/diversity。
在線指標:uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate。
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3)Datasets和細分
點對點加入和SCD兼容測量。
類不平衡:僵化的采樣,class_weight,焦點丟失,罕見事件的超集。
按時間/市場/特南特劃分:泄漏的「間隙」(gap) train↔val↔test。
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4)準備體征
窗口和單元:10 米/1h/1d/7d/30 d,R/F/M,速度/份額。
類別: hashing/one-hot;target encoding (time-aware).
歸一化/滑行: 從火車參數,我們保存到工件.
圖形/NLP/geo:構建蹦床,我們在Feature Store上發布(在線/離線)。
5)基本算法
GBDT: XGBoost/LightGBM/CatBoost是一個強大的表數據庫。
邏輯回歸/ElasticNet:可解釋/便宜。
推薦: LambdaMART,分解,seq2rec.
異常: Isolation Forest, AutoEncoder.
時間序列:Prophet/ETS/GBDT-在日歷上。
6)正規化和預防再培訓
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
提早停止: 按每股指標與病態和微小的改進.
7)超參數選擇
Grid/Random進行粗略搜索;Bayesian/Hyperband用於微調。
限制:叠代/時間/成本預算,val上的「no-overfit」(對多個時間分裂進行交叉驗證)。
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8)概率校準
Platt/Isotonic на holdout;將校準功能存儲為工件。
檢查ECE/可移植性;通過開銷重新協商閾值。
9)解釋性和解釋
全球:feature importance/SHAP,二疊紀貢獻。
本地:單一解決方案的SHAP(RG/AML案例)。
記錄在線使用解釋的風險和允許性。
10)可復制性和人工制品
無處不在:數據/模型/選擇/分區。
工件:數據版本,幻燈片,重量,校準,閾值,孔徑。
Deterministic builds:固定容器/依賴性。
11)跟蹤實驗
我們註冊:git-commit,dataset/fich版本,config模型,度量(off/online),工件和註釋。
實驗命名規則,標簽(域/市場/模型)。
12)離線→在線遷移
統一轉換代碼(功能商店);在線/離線等效性測試。
伺服器:REST/gRPC,定時器/retrai/緩存;金絲雀/分階段推出。
閾值/策略:可配置(幻燈片標誌)、審核和滾回。
13)監控和漂移
數據/scor:PSI/KL;超出閾值時的異常值。
校準和指標:流媒體標簽上的ECE,PR-AUC/KS。
業務指標:uplift Net Revenue, fraud saved, RG幹預,SLA。
Retrain觸發器:通過漂移/季節性/版本/有效期。
14)隱私,居住,公平性
PII最小化:別名,CLS/RLS,單個映射。
居住地:單獨的目錄/密鑰目錄(EEA/UK/BR);禁止無正當理由的跨區域合作。
Fairness:幻燈片分析(市場/設備/帳戶年齡),disparate impact, equalized odds;調整/閾值/權重。
15)成本工程
培訓費用:CPU/GPU時鐘,I/O,運行次數。
地獄成本:latency/cost per request;在線幻燈片和模型尺寸的限制。
物化:沈重的仙女離線;在線-快速緩存。
Chargeback:實驗/中繼預算。
16)示例(片段)
LightGBM(分類,Python草圖):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
點對點抽樣(SQL想法):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
評估外部成本並選擇閾值:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17)流程和RACI
R(響應):數據科學(模型/實驗),數據成像(datasets/fichi/Feature Store),MLOps(瀏覽器/監視/CI-CD-CT)。
A (Accountable): Head of Data / CDO.
C(咨詢):合規性/DPO(PII/RG/AML/DSAR),安全(KMS/秘密/審計),SRE(SLO/成本),財務(ROI)。
I (Informed):產品/營銷/運營/支持。
18)實施路線圖
MVP(3-6周):1.任務目錄和指標(expected cost),點對點計時器。
2.基本模型(LogReg/GBDT)+校準+模型卡。
3.實驗跟蹤,固定種子/工件,可重復構建。
4.金絲雀在線伺服器,急流,等級指標/漂移。
第二階段(6至12周):- Bayesovsky/Hyperband選擇,幻燈片分析/fairness,retrain觸發器。
- Fich/Inference經濟學,緩存/TTL,chargeback。
- 文檔度量/閾值公式,如何模擬。
- 多區域管線,DR/演習,WORM發行檔案。
- 自我生成質量報告/校準,自動排練事件。
- A/B/n實驗采用序列測試和自動停止。
19)售前支票清單
- 任務和指標是業務一致的;計算出錯誤的成本。
- Dataset定時;按時間/市場劃分;沒有白莓。
- 選擇/正則化,提早停止,概率校準。
- 模型卡:數據,fici,度量,風險,公平性,所有者。
- 文物保存(重量、尺碼、校準、閾值)。
- 已通過在線/離線等效性測試;從遠景旗上沖浪。
- 漂移/校準/業務指標監測;retrain/rollback計劃。
- 符合PII/DSAR/RTBF政策,居住權和訪問審核。
- 培訓/地獄的費用列入預算;SLA alerta。
20)反模式和風險
Lakedge:未來的fici/標簽,不協調的SCD。
在單個軸采樣上調音「到藍色」:沒有時間分流/交叉檢查。
缺乏校準和成本閾值。
在線/離線錯位:銷售結果不同。
忽略公平性/幻燈片:市場/設備的潛在失敗。
無限制的倒帶和昂貴的仙女:價值上升沒有好處。
21)結果
模型培訓是一個可管理的過程:明確的任務和指標,數據學科(點對點),具有正則化的智能調制,校準和可重復性,透明的在線轉移以及對質量,成本和風險的持續監控。按照這個花花公子,你會得到可以預測地改進產品,保留和合規性的模型-快速,合乎道德和可靠。