GH GambleHub

模型培訓

1)任命和原則

培訓的目的是在遵守RG/AML/Legal的情況下獲得一種可持續的,可重復的,經濟的模型,以改善業務指標(Net Revenue,churn↓,fraud↓)。

原則:
  • Problem→Metric→Data:首先是任務和操作指標/錯誤成本,然後是dataset。
  • 點對點時間:沒有一個目標/標簽利用未來。
  • 可重復性:固定種子/版本,工件控制。
  • Simplicity first:從基本模型/相思開始;只有有證明的好處,我們才會變得復雜。
  • Privacy by design: PII最小化、居住、審核。

2)任務形式化和指標

分類:churn/存款/frod/RG → PR-AUC,F1@歌劇。閾值,KS,expected成本。
回歸/預測:LTV/GGR → WAPE/SMAPE,P50/P90錯誤,PI覆蓋。
排名/推薦:NDCG@K,MAP@K,coverage/diversity。
在線指標:uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate。

價值閾值(偽代碼):
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3)Datasets和細分

點對點加入和SCD兼容測量。
類不平衡:僵化的采樣,class_weight,焦點丟失,罕見事件的超集。
按時間/市場/特南特劃分:泄漏的「間隙」(gap) train↔val↔test。

Temporal split(SQL想法):
sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4)準備體征

窗口和單元:10 米/1h/1d/7d/30 d,R/F/M,速度/份額。

類別: hashing/one-hot;target encoding (time-aware).

歸一化/滑行: 從火車參數,我們保存到工件.

圖形/NLP/geo:構建蹦床,我們在Feature Store上發布(在線/離線)。

5)基本算法

GBDT: XGBoost/LightGBM/CatBoost是一個強大的表數據庫。
邏輯回歸/ElasticNet:可解釋/便宜。

推薦: LambdaMART,分解,seq2rec.

異常: Isolation Forest, AutoEncoder.

時間序列:Prophet/ETS/GBDT-在日歷上。

6)正規化和預防再培訓

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.

NN: dropout/weight decay/early stopping.

提早停止: 按每股指標與病態和微小的改進.

7)超參數選擇

Grid/Random進行粗略搜索;Bayesian/Hyperband用於微調。
限制:叠代/時間/成本預算,val上的「no-overfit」(對多個時間分裂進行交叉驗證)。

草圖:
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8)概率校準

Platt/Isotonic на holdout;將校準功能存儲為工件。
檢查ECE/可移植性;通過開銷重新協商閾值。

9)解釋性和解釋

全球:feature importance/SHAP,二疊紀貢獻。
本地:單一解決方案的SHAP(RG/AML案例)。
記錄在線使用解釋的風險和允許性。

10)可復制性和人工制品

無處不在:數據/模型/選擇/分區。
工件:數據版本,幻燈片,重量,校準,閾值,孔徑。
Deterministic builds:固定容器/依賴性。

11)跟蹤實驗

我們註冊:git-commit,dataset/fich版本,config模型,度量(off/online),工件和註釋。
實驗命名規則,標簽(域/市場/模型)。

12)離線→在線遷移

統一轉換代碼(功能商店);在線/離線等效性測試。
伺服器:REST/gRPC,定時器/retrai/緩存;金絲雀/分階段推出。
閾值/策略:可配置(幻燈片標誌)、審核和滾回。

13)監控和漂移

數據/scor:PSI/KL;超出閾值時的異常值。
校準和指標:流媒體標簽上的ECE,PR-AUC/KS。
業務指標:uplift Net Revenue, fraud saved, RG幹預,SLA。
Retrain觸發器:通過漂移/季節性/版本/有效期。

14)隱私,居住,公平性

PII最小化:別名,CLS/RLS,單個映射。
居住地:單獨的目錄/密鑰目錄(EEA/UK/BR);禁止無正當理由的跨區域合作。
Fairness:幻燈片分析(市場/設備/帳戶年齡),disparate impact, equalized odds;調整/閾值/權重。

15)成本工程

培訓費用:CPU/GPU時鐘,I/O,運行次數。
地獄成本:latency/cost per request;在線幻燈片和模型尺寸的限制。
物化:沈重的仙女離線;在線-快速緩存。
Chargeback:實驗/中繼預算。

16)示例(片段)

LightGBM(分類,Python草圖):
python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
點對點抽樣(SQL想法):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
評估外部成本並選擇閾值:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17)流程和RACI

R(響應):數據科學(模型/實驗),數據成像(datasets/fichi/Feature Store),MLOps(瀏覽器/監視/CI-CD-CT)。

A (Accountable): Head of Data / CDO.

C(咨詢):合規性/DPO(PII/RG/AML/DSAR),安全(KMS/秘密/審計),SRE(SLO/成本),財務(ROI)。
I (Informed):產品/營銷/運營/支持。

18)實施路線圖

MVP(3-6周):

1.任務目錄和指標(expected cost),點對點計時器。

2.基本模型(LogReg/GBDT)+校準+模型卡。

3.實驗跟蹤,固定種子/工件,可重復構建。

4.金絲雀在線伺服器,急流,等級指標/漂移。

第二階段(6至12周):
  • Bayesovsky/Hyperband選擇,幻燈片分析/fairness,retrain觸發器。
  • Fich/Inference經濟學,緩存/TTL,chargeback。
  • 文檔度量/閾值公式,如何模擬。
第三階段(12至20周):
  • 多區域管線,DR/演習,WORM發行檔案。
  • 自我生成質量報告/校準,自動排練事件。
  • A/B/n實驗采用序列測試和自動停止。

19)售前支票清單

  • 任務和指標是業務一致的;計算出錯誤的成本。
  • Dataset定時;按時間/市場劃分;沒有白莓。
  • 選擇/正則化,提早停止,概率校準。
  • 模型卡:數據,fici,度量,風險,公平性,所有者。
  • 文物保存(重量、尺碼、校準、閾值)。
  • 已通過在線/離線等效性測試;從遠景旗上沖浪。
  • 漂移/校準/業務指標監測;retrain/rollback計劃。
  • 符合PII/DSAR/RTBF政策,居住權和訪問審核。
  • 培訓/地獄的費用列入預算;SLA alerta。

20)反模式和風險

Lakedge:未來的fici/標簽,不協調的SCD。
在單個軸采樣上調音「到藍色」:沒有時間分流/交叉檢查。
缺乏校準和成本閾值。
在線/離線錯位:銷售結果不同。
忽略公平性/幻燈片:市場/設備的潛在失敗。
無限制的倒帶和昂貴的仙女:價值上升沒有好處。

21)結果

模型培訓是一個可管理的過程:明確的任務和指標,數據學科(點對點),具有正則化的智能調制,校準和可重復性,透明的在線轉移以及對質量,成本和風險的持續監控。按照這個花花公子,你會得到可以預測地改進產品,保留和合規性的模型-快速,合乎道德和可靠。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。