Modellschulung
1) Zweck und Grundsätze
Ziel des Trainings ist es, ein nachhaltiges, reproduzierbares und kostengünstiges Modell zur Verbesserung der Geschäftsmetriken (Net Revenue, churn↓, fraud↓) unter Einhaltung von RG/AML/Legal zu erhalten.
Grundsätze:- Problem→Metric→Data: zuerst Aufgabe und Betriebsmetrik/Fehlerkosten, dann Dataset.
- Point-in-Time: Kein Ficha/Label nutzt die Zukunft.
- Reproducibility: feste Samen/Versionen, Artefaktkontrolle.
- Simplicity first: Wir beginnen mit den Basismodellen/fich; Komplikation nur mit nachgewiesenem Nutzen.
- Privacy by design: PII-Minimierung, Aufenthalt, Audit.
2) Formalisierung von Aufgaben und Metriken
Klassifizierung: churn/deposit/fraud/RG → PR-AUC, F1 @ Opern. Schwelle, KS, erwartete Kosten.
Regression/Prognose: LTV/GGR → WAPE/SMAPE, P50/P90 Fehler, PI-Abdeckung.
Ranking/Empfehlungen: NDCG @ K, MAP @ K, Abdeckung/Vielfalt.
Online-Metriken: Uplift Net Revenue, CTR/CVR, Time-to-Intervene (RG), Missbrauchsrate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datasets und Partitionen
Point-in-Time-Verbindung und SCD-konforme Messungen.
Klassenungleichgewicht: stratifed sampling, class_weight, focal loss, oversampling seltene Ereignisse.
Aufschlüsselung nach Zeit/Märkten/Tenanten: train↔val↔test mit „Lücke“ (Gap) für Lecks.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Vorbereitung der Merkmale
Fenster und Einheiten: 10m/1h/1d/7d/30d, R/F/M, Geschwindigkeiten/Anteile.
Kategorien: hashing/one-hot; target encoding (time-aware).
Normalisierung/Skailing: Parameter aus dem Zug, in Artefakten speichern.
Graphic/NLP/Geo: wir bauen Batch, wir veröffentlichen im Feature Store (online/offline).
5) Grundlegende Algorithmen
GBDT: XGBoost/LightGBM/CatBoost ist eine starke Basis für tabellarische Daten.
Logistische Regression/ElasticNet: interpretierbar/günstig.
Empfehlung: LambdaMART, Faktorisierung, seq2rec.
Anomalien: Isolation Forest, AutoEncoder.
Zeitreihen: Prophet/ETS/GBDT-nach Kalender-Ficks.
6) Regularisierung und Vermeidung von Umschulungen
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Frühes Anhalten: durch Metrik auf Val mit Patience und minimaler Verbesserung.
7) Auswahl von Hyperparametern
Grid/Random für grobe Suche; Bayesian/Hyperband für Feinabstimmung.
Einschränkungen: Iterations-/Zeit-/Kostenbudget, „no-overfit“ auf val (Gegenprüfung auf mehreren temporären Splits).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Kalibrierung der Wahrscheinlichkeiten
Platt/Isotonic на holdout; die Kalibrierungsfunktion als Artefakt zu speichern.
ECE/Relaisfähigkeit überprüfen; Neuabstimmung der Schwellenwerte nach erwarteten Kosten.
9) Interpretierbarkeit und Erklärungen
Global: Feature Importance/SHAP, Permutationsbeitrag.
Lokal: SHAP für Einzellösungen (RG/AML-Fälle).
Dokumentieren Sie die Risiken und die Zulässigkeit der Verwendung von Erklärungen online.
10) Reproduzierbarkeit und Artefakte
Seed ist überall: Daten/Modell/Matching/Partitionierung.
Artefakte: Datenversion, Fich-Pipeline, Gewichte, Kalibrierung, Schwellenwerte, Configs.
Deterministische Gebäude: feste Container/Abhängigkeiten.
11) Tracking von Experimenten
Wir registrieren: git-commit, dataset/fich Versionen, config Modelle, Metriken (off/online), Artefakte und Kommentare.
Regeln für die Benennung von Experimenten, Tags (Domäne/Markt/Modell).
12) Übertragung von Offline → Online
Einheitlicher Transformationscode (Feature Store); Äquivalenztest online/offline.
Serving: REST/gRPC, Timeouts/Retrays/Cache; Kanarium/stufenweise Ausrollen.
Schwellenwert/Richtlinie: konfigurierbar (Ficha-Flags), Audit und Roll-Back.
13) Überwachung und Drift
Daten/Geschwindigkeit: PSI/KL; alert, wenn Schwellenwerte überschritten werden.
Kalibrierung und Metriken: ECE, PR-AUC/KS auf Streaming-Labels.
Geschäftsmetriken: Uplift Net Revenue, Fraud Saved, RG-Interventionen, SLA.
Die Trigger retrain: nach drejfu/sesonnosti/relisam/sroku der Tauglichkeit.
14) Privatsphäre, Wohnsitz, Fairness
PII-Minimierung: Pseudonyme, CLS/RLS, einzelne Muppings.
Residency: separate Verzeichnisse/Schlüssel (EEA/UK/BR); Verbot regionenübergreifender Join's ohne Grund.
Fairness: Slice-Analyse (Markt/Gerät/Alter des Kontos), disparate Wirkung, gleichgestellte Odds; Anpassung von fich/Schwellenwerten/Gewichten.
15) Kosten-Engineering
Schulungskosten: CPU/GPU-Stunden, I/O, Anzahl der Durchläufe.
Kosten der Inferenz: Latenz/Kosten pro Anfrage; Grenzen für Online-Spiele und Modellgröße.
Materialisierung: schwere fichi - offline; Online - schnell, zwischengespeichert.
Chargeback: Budgets für Experimente/Repliken.
16) Beispiele (Fragmente)
LightGBM (Klassifizierung, Python-Skizze):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Point-in-Time-Sampling (SQL-Idee):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Schätzung der erwarteten Kosten und Wahl der Schwelle:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Prozesse und RACI
R (Responsible): Data Science (Modelle/Experimente), Data Eng (Datasets/Fici/Feature Store), MLOps (Serving/Monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (konsultiert): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/Secrets/Audit), SRE (SLO/Value), Finance (ROI).
I (Informed): Produkt/Marketing/Betrieb/Support.
18) Fahrplan für die Umsetzung
MVP (3-6 Wochen):1. Verzeichnis der Aufgaben und Metriken (erwartete Kosten), Point-in-Time-Dataset.
2. Basismodelle (LogReg/GBDT) + Kalibrierung + Modellkarten.
3. Tracking-Experimente, feste Samen/Artefakte, reproduzierbare Gebäude.
4. Kanarische Online-Surfen, Schwellen wie config, Alerts von Metriken/Drift.
Phase 2 (6-12 Wochen):- Bayes/Hyperband-Auswahl, Slice-Analyse/Fairness, Retrain-Trigger.
- Wirtschaft fich/inference, cache/TTL, chargeback.
- Dokumentation von metrischen Formeln/Schwellenwerten, was-wenn-Simulationen.
- Multiregionale Pipelines, DR/Übungen, WORM-Archiv der Releases.
- Auto-Generierung von Qualitäts-/Kalibrierungsberichten, Auto-Übertraining nach Ereignissen.
- A/B/n-Experimente mit Sequenzprüfung und automatischem Stopp.
19) Checkliste vor dem Verkauf
- Aufgabe und Metrik sind geschäftlich konsistent; Die Fehlerkosten werden berechnet.
- Point-in-Time Dataset; Aufschlüsselung nach Zeit/Märkten; Leukej fehlt.
- Selektion/Regularisierung, Frühstopp, Wahrscheinlichkeitskalibrierung.
- Modellkarte: Daten, Daten, Kennzahlen, Risiken, Fairness, Besitzer.
- Artefakte werden gespeichert (Gewichte, Fitch-Pipeline, Kalibrierung, Schwellenwerte).
- Online/Offline-Äquivalenztest bestanden; Surfen mit einer Ficha-Flagge.
- Überwachung von Drift/Kalibrierung/Geschäftsmetriken; retrain/rollback Pläne.
- Die Richtlinien PII/DSAR/RTBF, Residency und Access Audit wurden eingehalten.
- Die Kosten für die Schulung/Inferenz sind im Budget enthalten. SLA alerts.
20) Anti-Muster und Risiken
Leukej: Fiches/Labels aus der Zukunft, unkoordinierte SCDs.
Tuning „to blue“ auf einer Wellenprobe: keine temporären Splits/Cross-Checks.
Keine Kalibrierung und Kostenschwellen.
Online/Offline-Fehlanpassung: Unterschiedliche Ergebnisse auf dem Produkt.
Ignoriere Fairness/Slices: Versteckte Fehler in Märkten/Geräten.
Unbegrenzte Repliken und teure Zahlen: Wertsteigerung ohne Nutzen.
21) Das Ergebnis
Modellschulung ist ein überschaubarer Prozess: klare Aufgabenstellung und Metrik, Datendisziplin (Point-in-Time), intelligentes Tuning mit Regularisierung, Kalibrierung und Reproduzierbarkeit, transparenter Online-Transfer und ständige Überwachung von Qualität, Kosten und Risiken. Indem Sie diesem Playbook folgen, erhalten Sie Modelle, die Produkt, Retention und Compliance vorhersehbar verbessern - schnell, ethisch und zuverlässig.