GH GambleHub

模型培训

1)任命和原则

培训的目的是在遵守RG/AML/Legal的情况下获得一种可持续的,可重复的,经济的模型,以改善业务指标(Net Revenue,churn↓,fraud↓)。

原则:
  • Problem→Metric→Data:首先是任务和操作指标/错误成本,然后是dataset。
  • 点对点时间:没有一个目标/标签利用未来。
  • 可重复性:固定种子/版本,工件控制。
  • Simplicity first:从基本模型/相思开始;只有有证明的好处,我们才会变得复杂。
  • Privacy by design: PII最小化、居住、审核。

2)任务形式化和指标

分类:churn/存款/frod/RG → PR-AUC,F1@歌剧。阈值,KS,expected成本。
回归/预测:LTV/GGR → WAPE/SMAPE,P50/P90错误,PI覆盖。
排名/推荐:NDCG@K,MAP@K,coverage/diversity。
在线指标:uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate。

价值阈值(伪代码):
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3)Datasets和细分

点对点加入和SCD兼容测量。
类不平衡:僵化的采样,class_weight,焦点丢失,罕见事件的超集。
按时间/市场/特南特划分:泄漏的"间隙"(gap) train↔val↔test。

Temporal split(SQL想法):
sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4)准备体征

窗口和单元:10 米/1h/1d/7d/30 d,R/F/M,速度/份额。

类别: hashing/one-hot;target encoding (time-aware).

归一化/滑行: 从火车参数,我们保存到工件.

图形/NLP/geo:构建蹦床,我们在Feature Store上发布(在线/离线)。

5)基本算法

GBDT: XGBoost/LightGBM/CatBoost是一个强大的表数据库。
逻辑回归/ElasticNet:可解释/便宜。

推荐: LambdaMART,分解,seq2rec.

异常: Isolation Forest, AutoEncoder.

时间序列:Prophet/ETS/GBDT-在日历上。

6)正规化和预防再培训

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.

NN: dropout/weight decay/early stopping.

提早停止: 按每股指标与病态和微小的改进.

7)超参数选择

Grid/Random进行粗略搜索;Bayesian/Hyperband用于微调。
限制:迭代/时间/成本预算,val上的"no-overfit"(对多个时间分裂进行交叉验证)。

草图:
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8)概率校准

Platt/Isotonic на holdout;将校准功能存储为工件。
检查ECE/可移植性;通过开销重新协商阈值。

9)解释性和解释

全球:feature importance/SHAP,二叠纪贡献。
本地:单一解决方案的SHAP(RG/AML案例)。
记录在线使用解释的风险和允许性。

10)可复制性和人工制品

无处不在:数据/模型/选择/分区。
工件:数据版本,幻灯片,重量,校准,阈值,孔径。
Deterministic builds:固定容器/依赖性。

11)跟踪实验

我们注册:git-commit,dataset/fich版本,config模型,度量(off/online),工件和注释。
实验命名规则,标签(域/市场/模型)。

12)离线→在线迁移

统一转换代码(功能商店);在线/离线等效性测试。
伺服器:REST/gRPC,定时器/retrai/缓存;金丝雀/分阶段推出。
阈值/策略:可配置(幻灯片标志)、审核和滚回。

13)监控和漂移

数据/scor:PSI/KL;超出阈值时的异常值。
校准和指标:流媒体标签上的ECE,PR-AUC/KS。
业务指标:uplift Net Revenue, fraud saved, RG干预,SLA。
Retrain触发器:通过漂移/季节性/版本/有效期。

14)隐私,居住,公平性

PII最小化:别名,CLS/RLS,单个映射。
居住地:单独的目录/密钥目录(EEA/UK/BR);禁止无正当理由的跨区域合作。
Fairness:幻灯片分析(市场/设备/帐户年龄),disparate impact, equalized odds;调整/阈值/权重。

15)成本工程

培训费用:CPU/GPU时钟,I/O,运行次数。
地狱成本:latency/cost per request;在线幻灯片和模型尺寸的限制。
物化:沉重的仙女离线;在线-快速缓存。
Chargeback:实验/中继预算。

16)示例(片段)

LightGBM(分类,Python草图):
python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
点对点抽样(SQL想法):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
评估外部成本并选择阈值:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17)流程和RACI

R(响应):数据科学(模型/实验),数据成像(datasets/fichi/Feature Store),MLOps(浏览器/监视/CI-CD-CT)。

A (Accountable): Head of Data / CDO.

C(咨询):合规性/DPO(PII/RG/AML/DSAR),安全(KMS/秘密/审计),SRE(SLO/成本),财务(ROI)。
I (Informed):产品/营销/运营/支持。

18)实施路线图

MVP(3-6周):

1.任务目录和指标(expected cost),点对点计时器。

2.基本模型(LogReg/GBDT)+校准+模型卡。

3.实验跟踪,固定种子/工件,可重复构建。

4.金丝雀在线伺服器,急流,等级指标/漂移。

第二阶段(6至12周):
  • Bayesovsky/Hyperband选择,幻灯片分析/fairness,retrain触发器。
  • Fich/Inference经济学,缓存/TTL,chargeback。
  • 文档度量/阈值公式,如何模拟。
第三阶段(12至20周):
  • 多区域管线,DR/演习,WORM发行档案。
  • 自我生成质量报告/校准,自动排练事件。
  • A/B/n实验采用序列测试和自动停止。

19)售前支票清单

  • 任务和指标是业务一致的;计算出错误的成本。
  • Dataset定时;按时间/市场划分;没有白莓。
  • 选择/正则化,提早停止,概率校准。
  • 模型卡:数据,fici,度量,风险,公平性,所有者。
  • 文物保存(重量、尺码、校准、阈值)。
  • 已通过在线/离线等效性测试;从远景旗上冲浪。
  • 漂移/校准/业务指标监测;retrain/rollback计划。
  • 符合PII/DSAR/RTBF政策,居住权和访问审核。
  • 培训/地狱的费用列入预算;SLA alerta。

20)反模式和风险

Lakedge:未来的fici/标签,不协调的SCD。
在单个轴采样上调音"到蓝色":没有时间分流/交叉检查。
缺乏校准和成本阈值。
在线/离线错位:销售结果不同。
忽略公平性/幻灯片:市场/设备的潜在失败。
无限制的倒带和昂贵的仙女:价值上升没有好处。

21)结果

模型培训是一个可管理的过程:明确的任务和指标,数据学科(点对点),具有正则化的智能调制,校准和可重复性,透明的在线转移以及对质量,成本和风险的持续监控。按照这个花花公子,你会得到可以预测地改进产品,保留和合规性的模型-快速,合乎道德和可靠。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。