モデルトレーニング
1)目的と原則
トレーニングの目的は、RG/AML/Legalに準拠しながら、ビジネスメトリクス(Net Revenue、 churn、 fraud)を改善する持続可能で再現性があり、費用対効果の高いモデルを取得することです。
原則:- 問題→メトリック→データ:最初のタスクと運用メトリック/エラーコスト、次にデータセット。
- Point-in-time:機能/ラベルは未来を使用しません。
- 再現性:固定種子/バージョン、アーティファクト制御。
- 最初のシンプルさ:基本的なモデル/フィーチャーから始めます。証明された利点とだけ複雑にして下さい。
- 設計によるプライバシー:PII最小化、居住、監査。
2)タスクとメトリックの形式化
分類:チャーン/デポジット/詐欺/RG→PR-AUC、 F1@operas。しきい値、KS、予想コスト。
回帰/予測:LTV/GGR→WAPE/SMAPE、 P50/P90エラー、PIカバレッジ。
ランキング/推奨事項:NDCG@K、 MAP@K、カバレッジ/多様性。
オンライン指標:アップリフト純収入、CTR/CVR、インタビュー時間(RG)、乱用率。
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3)データセットとパーティション
ポイント・イン・タイム・ジョイントとSCD対応測定。
クラス不均衡:層状サンプリング、class_weight、焦点損失、過剰サンプリングまれなイベント。
時間/市場/テナントパーティション:リークのギャップtrain↔val↔test。
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4)特徴の準備
窓および単位:10m/1h/1d/7d/30d、 R/F/Mの速度/分数。
カテゴリー: ハッシュ/ワンホット;ターゲットエンコーディング(time-aware)
正規化/スケーリング:列車からのパラメータ、アーティファクトへの保存。
Graph/NLP/geo: build a batch、 publish in the Feature Store (online/offline)。
5)基本的なアルゴリズム
GBDT: XGBoost/LightGBM/CatBoostは、表形式データの強力なデータベースです。
ロジスティック回帰/ElasticNet:解釈可能/安価。
アドバイザリー:LambdaMART、分解、seq2rec。
異常:分離の森、AutoEncoder。
時系列:預言者/ETS/GBDTカレンダー機能。
6)再訓練の規則化と防止
GBDT: 'max_depth'、 'num_leaves'、 'min_data_in_leaf'、 'subsample'、 'colsample_bytree'、 'lambda_l1/l2'。
NN:ドロップアウト/体重減衰/早期停止。
早期停止:忍耐と最小限の改善でval上のメートルによって。
7)ハイパーパラメータの選択
格子/ドラフト検索のためのランダム;微調整のためのベイズ/ハイパーバンド。
制限事項:反復/時間/コスト予算、val上の「no-overfit」(複数の時間分割でクロスチェック)。
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8)確率校正
Platt/Isotonic holdout;キャリブレーション機能をアーティファクトとして保存します。
ECE/Relayabilityを点検して下さい;期待された費用によってしきい値を再ネゴシエートして下さい。
9)解釈と説明
Global:特徴の重要性/SHAP、 permutationの貢献。
ローカル:単位解決(RG/AMLの場合)のためのSHAP。
説明をオンラインで使用することのリスクと受け入れ可能性を文書化します。
10)再現性とアーティファクト
Seed everywhere: data/model/fit/split。
アーティファクト:データバージョン、フィーチャーパイプライン、ウェイト、キャリブレーション、しきい値、構成。
決定論的ビルド:固定コンテナ/依存関係。
11)追跡実験
git-commit、データセット/フィーチャーバージョン、モデル設定、メトリック(オフ/オンライン)、アーティファクトとコメントを登録します。
実験、タグ(ドメイン/市場/モデル)の命名規則。
12)オフライン→オンライン転送
統合された変換コード(Feature Store);オンライン/オフラインの等価性テスト。
サービング:REST/gRPC、タイムアウト/リトレイ/キャッシュ;canary/段階ごとの撤退。
しきい値/ポリシー:設定可能(フィーチャーフラグ)、監査、ロールバック。
13)モニタリングとドリフト
データ/レート:PSI/KL;しきい値を超えるとアラートが表示されます。
キャリブレーションとメトリクス:ストリーミングラベルのECE、 PR-AUC/KS。
ビジネス指標:純収益の向上、不正の保存、RG介入、SLA。
リトレイントリガー:Drift/Seasonality/Releases/Expiration Date。
14)プライバシー、居住、公平性
PII最小化:仮名、CLS/RLS、個々のマッピング。
レジデンシー:個々のディレクトリ/キー(EEA/UK/BR);理由なくクロスリージョナルジョインを禁止します。
公平性:スライス分析(市場/デバイス/アカウントの年齢)、異なる影響、均等オッズ;フィーチャー/しきい値/重みの修正。
15)コストエンジニアリング
トレーニング費用:CPU/GPU時間、I/O、実行回数。
推論のコスト:要求ごとのレイテンシ/コスト;オンラインの特徴およびモデルサイズの限界。
具現化:重い機能-オフライン;オンライン-高速、キャッシュ。
チャージバック:実験的/リプレイ予算。
16)例(断片)
LightGBM(分類、Pythonスケッチ):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
ポイントインタイムサンプリング(SQLアイデア):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
予想されるコスト見積もりとしきい値の選択:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17)プロセスとRACI
R(責任ある):データサイエンス(モデル/実験)、Data Eng(データセット/フィーチャー/フィーチャーストア)、MLOps (サービング/モニタリング/CI-CD-CT)。
A(説明責任):データ/CDOの責任者。
C(コンサルティング):コンプライアンス/DPO (PII/RG/AML/DSAR)、セキュリティ(KMS/secrets/監査)、 SRE (SLO/value)、ファイナンス(ROI)。
I (Informed):製品/マーケティング/オペレーション/サポート。
18)実装ロードマップ
MVP (3-6週):1.タスクとメトリクスのディレクトリ(予想コスト)、ポイントインタイムデータセット。
2.基本モデル(LogReg/GBDT)+キャリブレーション+モデルカード。
3.実験の追跡、固定種子/アーティファクト、再現可能なビルド。
4.カナリアオンラインサーフィン、設定、アラートメトリック/ドリフトなどのしきい値。
フェーズ2(6-12週間):- ベイズ/ハイパーバンド選択、スライス分析/公平性、リトレイントリガー。
- 経済学の特徴/推論、キャッシュ/TTL、チャージバック。
- メートル/しきい値の数式のドキュメント、what-ifシミュレーション。
- 複数地域のパイプライン、DR/演習、リリースのWORMアーカイブ。
- 品質/校正レポートの自動生成、イベントによる自動オーバートレーニング。
- シーケンシャルテストと自動シャットダウンによるA/B/n実験。
19)プリセールスチェックリスト
- タスクとメトリックビジネスの整列;エラーのコストを計算しました。
- データセットのポイント・イン・タイム;時間/市場の仕切りは白血病ではありません。
- 選択/正規化、早期停止、確率校正。
- モデルカード:データ、機能、指標、リスク、公平性、所有者。
- 保存されたアーティファクト(ウェイト、フィーチャーパイプライン、キャリブレーション、しきい値)。
- 渡されるオンライン/オフラインの同等性テスト;フィーチャーフラッグでサーフィン。
- モニタリングドリフト/キャリブレーション/ビジネスメトリック;再トレーニング/ロールバック計画。
- PII/DSAR/RTBFポリシー、レジデンシー、アクセス監査に従います。
- トレーニング/推論のコストは予算に含まれています。SLAアラート。
20)アンチパターンとリスク
Lakage:未来からの特徴/ラベル、調整されていないSCD。
1つのシャフトサンプルで「青に」チューニング:一時的な分割/クロスチェックはありません。
校正とコストのしきい値はありません。
オンライン/オフライン機能の不一致:prodの異なる結果。
公平性/スライスを無視:市場/デバイスの隠れた障害。
無制限のリプレイと高価な機能:利益なしの価値の上昇。
21)ボトムライン
モデルトレーニングは管理可能なプロセスです:明確なタスクとメトリック、ポイントインタイムの規律、正規化によるインテリジェントなチューニング、校正と再現性、オンラインへの透明な転送、品質、コスト、リスクの継続的な監視。このPlaybookに従うことで、製品、保持、およびコンプライアンスを予測可能に改善するモデルをすぐに、倫理的に、そして確実に入手できます。