模型培训

1）任命和原则

培训的目的是在遵守RG/AML/Legal的情况下获得一种可持续的，可重复的，经济的模型，以改善业务指标（Net Revenue，churn↓，fraud↓）。

原则：

Problem→Metric→Data：首先是任务和操作指标/错误成本，然后是dataset。
点对点时间：没有一个目标/标签利用未来。
可重复性：固定种子/版本，工件控制。
Simplicity first：从基本模型/相思开始；只有有证明的好处，我们才会变得复杂。
Privacy by design： PII最小化、居住、审核。

2）任务形式化和指标

分类：churn/存款/frod/RG → PR-AUC，F1@歌剧。阈值，KS，expected成本。
回归/预测：LTV/GGR → WAPE/SMAPE，P50/P90错误，PI覆盖。
排名/推荐：NDCG@K，MAP@K，coverage/diversity。
在线指标：uplift Net Revenue, CTR/CVR, time-to-intervene （RG）, abuse-rate。

价值阈值（伪代码）：

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3）Datasets和细分

点对点加入和SCD兼容测量。
类不平衡：僵化的采样，class_weight，焦点丢失，罕见事件的超集。
按时间/市场/特南特划分：泄漏的"间隙"（gap） train↔val↔test。

Temporal split（SQL想法）：

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4）准备体征

窗口和单元：10 米/1h/1d/7d/30 d，R/F/M，速度/份额。

类别： hashing/one-hot；target encoding (time-aware).

归一化/滑行： 从火车参数,我们保存到工件.

图形/NLP/geo：构建蹦床,我们在Feature Store上发布（在线/离线）。

5）基本算法

GBDT： XGBoost/LightGBM/CatBoost是一个强大的表数据库。
逻辑回归/ElasticNet：可解释/便宜。

推荐： LambdaMART,分解,seq2rec.

异常： Isolation Forest, AutoEncoder.

时间序列：Prophet/ETS/GBDT-在日历上。

6）正规化和预防再培训

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.

NN: dropout/weight decay/early stopping.

提早停止： 按每股指标与病态和微小的改进.

7）超参数选择

Grid/Random进行粗略搜索；Bayesian/Hyperband用于微调。
限制：迭代/时间/成本预算，val上的"no-overfit"（对多个时间分裂进行交叉验证）。

草图：

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8）概率校准

Platt/Isotonic на holdout;将校准功能存储为工件。
检查ECE/可移植性；通过开销重新协商阈值。

9）解释性和解释

全球：feature importance/SHAP，二叠纪贡献。
本地：单一解决方案的SHAP（RG/AML案例）。
记录在线使用解释的风险和允许性。

10）可复制性和人工制品

无处不在：数据/模型/选择/分区。
工件：数据版本，幻灯片，重量，校准，阈值，孔径。
Deterministic builds：固定容器/依赖性。

11）跟踪实验

我们注册：git-commit，dataset/fich版本，config模型，度量（off/online），工件和注释。
实验命名规则，标签（域/市场/模型）。

12）离线→在线迁移

统一转换代码（功能商店）；在线/离线等效性测试。
伺服器：REST/gRPC，定时器/retrai/缓存；金丝雀/分阶段推出。
阈值/策略：可配置（幻灯片标志）、审核和滚回。

13）监控和漂移

数据/scor：PSI/KL；超出阈值时的异常值。
校准和指标：流媒体标签上的ECE，PR-AUC/KS。
业务指标：uplift Net Revenue, fraud saved, RG干预,SLA。
Retrain触发器：通过漂移/季节性/版本/有效期。

14）隐私,居住,公平性

PII最小化：别名，CLS/RLS，单个映射。
居住地：单独的目录/密钥目录（EEA/UK/BR）；禁止无正当理由的跨区域合作。
Fairness：幻灯片分析（市场/设备/帐户年龄）,disparate impact, equalized odds；调整/阈值/权重。

15）成本工程

培训费用：CPU/GPU时钟，I/O，运行次数。
地狱成本：latency/cost per request；在线幻灯片和模型尺寸的限制。
物化：沉重的仙女离线；在线-快速缓存。
Chargeback：实验/中继预算。

16）示例（片段）

LightGBM（分类，Python草图）：

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

点对点抽样（SQL想法）：

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

评估外部成本并选择阈值：

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17）流程和RACI

R（响应）：数据科学（模型/实验），数据成像（datasets/fichi/Feature Store），MLOps（浏览器/监视/CI-CD-CT）。

A (Accountable): Head of Data / CDO.

C（咨询）：合规性/DPO（PII/RG/AML/DSAR），安全（KMS/秘密/审计），SRE（SLO/成本），财务（ROI）。
I （Informed）：产品/营销/运营/支持。

18）实施路线图

MVP（3-6周）：

1.任务目录和指标（expected cost）,点对点计时器。

2.基本模型（LogReg/GBDT）+校准+模型卡。

3.实验跟踪，固定种子/工件，可重复构建。

4.金丝雀在线伺服器，急流，等级指标/漂移。

第二阶段（6至12周）：

Bayesovsky/Hyperband选择，幻灯片分析/fairness，retrain触发器。
Fich/Inference经济学，缓存/TTL，chargeback。
文档度量/阈值公式，如何模拟。

第三阶段（12至20周）：

多区域管线，DR/演习，WORM发行档案。
自我生成质量报告/校准，自动排练事件。
A/B/n实验采用序列测试和自动停止。

19）售前支票清单

任务和指标是业务一致的；计算出错误的成本。
Dataset定时；按时间/市场划分；没有白莓。
选择/正则化，提早停止，概率校准。
模型卡：数据，fici，度量，风险，公平性，所有者。
文物保存（重量、尺码、校准、阈值）。
已通过在线/离线等效性测试；从远景旗上冲浪。
漂移/校准/业务指标监测；retrain/rollback计划。
符合PII/DSAR/RTBF政策，居住权和访问审核。
培训/地狱的费用列入预算；SLA alerta。

20）反模式和风险

Lakedge：未来的fici/标签，不协调的SCD。
在单个轴采样上调音"到蓝色"：没有时间分流/交叉检查。
缺乏校准和成本阈值。
在线/离线错位：销售结果不同。
忽略公平性/幻灯片：市场/设备的潜在失败。
无限制的倒带和昂贵的仙女：价值上升没有好处。

21）结果

模型培训是一个可管理的过程：明确的任务和指标，数据学科（点对点），具有正则化的智能调制，校准和可重复性，透明的在线转移以及对质量，成本和风险的持续监控。按照这个花花公子，你会得到可以预测地改进产品，保留和合规性的模型-快速，合乎道德和可靠。

模型培训

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目