模型培訓

1）任命和原則

培訓的目的是在遵守RG/AML/Legal的情況下獲得一種可持續的，可重復的，經濟的模型，以改善業務指標（Net Revenue，churn↓，fraud↓）。

原則：

Problem→Metric→Data：首先是任務和操作指標/錯誤成本，然後是dataset。
點對點時間：沒有一個目標/標簽利用未來。
可重復性：固定種子/版本，工件控制。
Simplicity first：從基本模型/相思開始；只有有證明的好處，我們才會變得復雜。
Privacy by design： PII最小化、居住、審核。

2）任務形式化和指標

分類：churn/存款/frod/RG → PR-AUC，F1@歌劇。閾值，KS，expected成本。
回歸/預測：LTV/GGR → WAPE/SMAPE，P50/P90錯誤，PI覆蓋。
排名/推薦：NDCG@K，MAP@K，coverage/diversity。
在線指標：uplift Net Revenue, CTR/CVR, time-to-intervene （RG）, abuse-rate。

價值閾值（偽代碼）：

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3）Datasets和細分

點對點加入和SCD兼容測量。
類不平衡：僵化的采樣，class_weight，焦點丟失，罕見事件的超集。
按時間/市場/特南特劃分：泄漏的「間隙」（gap） train↔val↔test。

Temporal split（SQL想法）：

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4）準備體征

窗口和單元：10 米/1h/1d/7d/30 d，R/F/M，速度/份額。

類別： hashing/one-hot；target encoding (time-aware).

歸一化/滑行： 從火車參數,我們保存到工件.

圖形/NLP/geo：構建蹦床,我們在Feature Store上發布（在線/離線）。

5）基本算法

GBDT： XGBoost/LightGBM/CatBoost是一個強大的表數據庫。
邏輯回歸/ElasticNet：可解釋/便宜。

推薦： LambdaMART,分解,seq2rec.

異常： Isolation Forest, AutoEncoder.

時間序列：Prophet/ETS/GBDT-在日歷上。

6）正規化和預防再培訓

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.

NN: dropout/weight decay/early stopping.

提早停止： 按每股指標與病態和微小的改進.

7）超參數選擇

Grid/Random進行粗略搜索；Bayesian/Hyperband用於微調。
限制：叠代/時間/成本預算，val上的「no-overfit」（對多個時間分裂進行交叉驗證）。

草圖：

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8）概率校準

Platt/Isotonic на holdout;將校準功能存儲為工件。
檢查ECE/可移植性；通過開銷重新協商閾值。

9）解釋性和解釋

全球：feature importance/SHAP，二疊紀貢獻。
本地：單一解決方案的SHAP（RG/AML案例）。
記錄在線使用解釋的風險和允許性。

10）可復制性和人工制品

無處不在：數據/模型/選擇/分區。
工件：數據版本，幻燈片，重量，校準，閾值，孔徑。
Deterministic builds：固定容器/依賴性。

11）跟蹤實驗

我們註冊：git-commit，dataset/fich版本，config模型，度量（off/online），工件和註釋。
實驗命名規則，標簽（域/市場/模型）。

12）離線→在線遷移

統一轉換代碼（功能商店）；在線/離線等效性測試。
伺服器：REST/gRPC，定時器/retrai/緩存；金絲雀/分階段推出。
閾值/策略：可配置（幻燈片標誌）、審核和滾回。

13）監控和漂移

數據/scor：PSI/KL；超出閾值時的異常值。
校準和指標：流媒體標簽上的ECE，PR-AUC/KS。
業務指標：uplift Net Revenue, fraud saved, RG幹預,SLA。
Retrain觸發器：通過漂移/季節性/版本/有效期。

14）隱私,居住,公平性

PII最小化：別名，CLS/RLS，單個映射。
居住地：單獨的目錄/密鑰目錄（EEA/UK/BR）；禁止無正當理由的跨區域合作。
Fairness：幻燈片分析（市場/設備/帳戶年齡）,disparate impact, equalized odds；調整/閾值/權重。

15）成本工程

培訓費用：CPU/GPU時鐘，I/O，運行次數。
地獄成本：latency/cost per request；在線幻燈片和模型尺寸的限制。
物化：沈重的仙女離線；在線-快速緩存。
Chargeback：實驗/中繼預算。

16）示例（片段）

LightGBM（分類，Python草圖）：

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

點對點抽樣（SQL想法）：

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

評估外部成本並選擇閾值：

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17）流程和RACI

R（響應）：數據科學（模型/實驗），數據成像（datasets/fichi/Feature Store），MLOps（瀏覽器/監視/CI-CD-CT）。

A (Accountable): Head of Data / CDO.

C（咨詢）：合規性/DPO（PII/RG/AML/DSAR），安全（KMS/秘密/審計），SRE（SLO/成本），財務（ROI）。
I （Informed）：產品/營銷/運營/支持。

18）實施路線圖

MVP（3-6周）：

1.任務目錄和指標（expected cost）,點對點計時器。

2.基本模型（LogReg/GBDT）+校準+模型卡。

3.實驗跟蹤，固定種子/工件，可重復構建。

4.金絲雀在線伺服器，急流，等級指標/漂移。

第二階段（6至12周）：

Bayesovsky/Hyperband選擇，幻燈片分析/fairness，retrain觸發器。
Fich/Inference經濟學，緩存/TTL，chargeback。
文檔度量/閾值公式，如何模擬。

第三階段（12至20周）：

多區域管線，DR/演習，WORM發行檔案。
自我生成質量報告/校準，自動排練事件。
A/B/n實驗采用序列測試和自動停止。

19）售前支票清單

任務和指標是業務一致的；計算出錯誤的成本。
Dataset定時；按時間/市場劃分；沒有白莓。
選擇/正則化，提早停止，概率校準。
模型卡：數據，fici，度量，風險，公平性，所有者。
文物保存（重量、尺碼、校準、閾值）。
已通過在線/離線等效性測試；從遠景旗上沖浪。
漂移/校準/業務指標監測；retrain/rollback計劃。
符合PII/DSAR/RTBF政策，居住權和訪問審核。
培訓/地獄的費用列入預算；SLA alerta。

20）反模式和風險

Lakedge：未來的fici/標簽，不協調的SCD。
在單個軸采樣上調音「到藍色」：沒有時間分流/交叉檢查。
缺乏校準和成本閾值。
在線/離線錯位：銷售結果不同。
忽略公平性/幻燈片：市場/設備的潛在失敗。
無限制的倒帶和昂貴的仙女：價值上升沒有好處。

21）結果

模型培訓是一個可管理的過程：明確的任務和指標，數據學科（點對點），具有正則化的智能調制，校準和可重復性，透明的在線轉移以及對質量，成本和風險的持續監控。按照這個花花公子，你會得到可以預測地改進產品，保留和合規性的模型-快速，合乎道德和可靠。

模型培訓

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案