Formation aux modèles
1) Désignation et principes
L'objectif de la formation est d'obtenir un modèle durable, reproductible et économique qui améliore les mesures commerciales (Net Revenue, churn↓, fraud↓) tout en respectant RG/AML/Legal.
Principes :- Problem→Metric→Data : d'abord tâche et métrique d'exploitation/coût des erreurs, puis datacet.
- Point-in-time : aucun ficha/label n'utilise l'avenir.
- Reproducibility : seeds/versions fixes, contrôle des artefacts.
- Simplicity first : nous commençons par les modèles de base/fich ; on ne le complique qu'avec un bénéfice avéré.
- Privacy by design : minimisation PII, résidence, audit.
2) Formalisation de la tâche et métriques
La classification : churn/депозит/фрод/RG → PR-AUC, F1@опер. seuil, KS, cost expected.
Régression/pronostic : LTV/GGR → WAPE/SMAPE, erreur P50/P90, couverture PI.
Classement/recommandations : NDCG @ K, MAP @ K, coverage/diversité.
Métriques en ligne : uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datacets et partitions
Points-in-time join et mesures SCD compatibles.
Déséquilibre des classes : stratifed sampling, class_weight, focal loss, oversampling d'événements rares.
Division par temps/marchés/tenants : train↔val↔test avec « gap » (gap) pour les fuites.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Préparation des signes
Fenêtres et unités : 10m/1h/1d/7d/30d, R/F/M, vitesses/parts.
Catégories : hashing/one-hot ; target encoding (time-aware).
Normalisation/Skaling : les paramètres du train, sont conservés dans les artefacts.
Graphiques/NLP/geo : nous construisons un batch, nous publions sur Feature Store (en ligne/hors ligne).
5) Algorithmes de base
GBDT : XGBoost/LightGBM/CatBoost est une base solide pour les données tabulaires.
Régression logistique/ElasticNet : interprétable/bon marché.
Recommandations : LambdaMART, factorisation, seq2rec.
Anomalies : Isolation Forest, AutoEncoder.
Séries chronologiques : Prophet/ETS/GBDT-par date du calendrier.
6) Régularisation et prévention de la rééducation
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Arrêt précoce : par métrique sur le val avec patience et amélioration minimale.
7) Sélection d'hyperparamètres
Grid/Random pour la recherche de brouillon ; Bayesian/Hyperband pour un réglage fin.
Contraintes : budget itérations/temps/coût, « no-overfit » sur val (recoupement sur plusieurs séparats de temps).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Étalonnage des probabilités
Platt/Isotonic на holdout; stocker la fonction d'étalonnage en tant qu'artefact.
Vérifier l'ECA/relayability ; recalculer les seuils sur le cost expected.
9) Interprétabilité et explications
Global : feature importation/SHAP, contribution de permutation.
Local : SHAP pour les solutions unitaires (cas RG/AML).
Documenter les risques et la recevabilité de l'utilisation des explications en ligne.
10) Reproductibilité et artefacts
Seed partout : données/modèle/sélection/partitionnement.
Artefacts : version des données, fich pipline, poids, calibrage, seuils, configi.
Deterministic builds : conteneurs/dépendances fixes.
11) Tracking expériences
Nous enregistrons : git commit, les versions dataceta/fich, flig modèle, métriques (off/online), artefacts et commentaires.
Règles de nommage des expériences, tags (domaine/marché/modèle).
12) Transfert hors ligne → en ligne
Code de transformation unique (Feature Store) ; test d'équivalence online/offline.
Serving : REST/gRPC, temporisation/rétraction/cache ; Canaries/étendues.
Seuil/politique : configurable (ficha flags), audit et roll-back.
13) Surveillance et dérive
Données/scores : PSI/KL ; alerte lorsque les seuils sont dépassés.
Étalonnage et métriques : ECE, PR-AUC/KS sur les labels de streaming.
Métriques d'entreprise : uplift Net Revenue, fraud saved, intervention RG, SLA.
Déclencheurs de retraite : par dérive/saisonnalité/sortie/date d'expiration.
14) Vie privée, résidence, fairness
Minimisation des PII : alias, CLS/RLS, mappings individuels.
Résidence : catalogues/clés séparés (EEE/UK/BR) ; interdiction des join's cross-régionaux sans raison.
Fairness : analyse de diapositives (marché/appareil/âge du compte), disparate impact, equalized odds ; ajustement des fiches/seuils/poids.
15) Cost-engineering
Coût de la formation : Heures CPU/GPU, I/O, nombre de courses.
Coût de l'infériorité : latency/cost per request ; limites sur les fiches en ligne et taille du modèle.
Matérialisation : fiches lourdes - hors ligne ; en ligne - rapide, cache.
Chargeback : budgets d'expérimentation/relais.
16) Exemples (fragments)
LightGBM (classification, croquis de Python) :python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Échantillonnage point-in-time (idée SQL) :
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Estimation du cost expected et sélection du seuil :
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Processus et RACI
R (Responsible) : Data Science (modèles/expériences), Data Eng (datacets/fiches/Feature Store), MLOps (serving/monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulté) : Conformité/DPO (PII/RG/AML/DSAR), Sécurité (KMS/secrets/audit), SRE (SLO/coût), Finances (ROI).
I (Informed) : Produit/Marketing/Opérations/Support.
18) Feuille de route pour la mise en œuvre
MVP (3-6 semaines) :1. Catalogue des tâches et métriques (cost expected), datacets point-in-time.
2. Modèles de référence (LogReg/GBDT) + calibrage + cartes modèles.
3. Tracking expériences, seeds fixes/artefacts, constructions réparables.
4. Serving en ligne canarien, seuils comme config, alertes métriques/dérives.
Phase 2 (6-12 semaines) :- Sélection bayésienne/Hyperband, analyse de diapositives/fairness, déclencheurs retrain.
- Économie fich/inference, cache/TTL, chargeback.
- Documentation des formules métriques/seuils, simulation what-if.
- Piplines multi-régionales, DR/exercices, archives WORM des versions.
- Auto-génération de rapports de qualité/calibrage, auto-entraînement par événement.
- Expériences A/B/n avec expérimentation séquentielle et arrêt automatique.
19) Chèque-liste avant la vente
- La tâche et la métrique sont harmonisées ; le coût des erreurs a été calculé.
- Datacet point-in-time ; Division par temps/marché ; il n'y a pas de leucedge.
- Sélection/régularisation, arrêt précoce, étalonnage des probabilités.
- Carte modèle : données, fiches, métriques, risques, fairness, propriétaire.
- Les artefacts sont conservés (poids, pipline, étalonnage, seuils).
- Test d'équivalence en ligne/hors ligne passé ; surfer avec le drapeau ficha.
- Surveillance de la dérive/étalonnage/mesures d'activité ; plans retrain/rollback.
- Les politiques PII/DSAR/RTBF, résidence et vérification de l'accès sont respectées.
- Le coût de la formation/infériorité est inscrit au budget ; alerte SLA.
20) Anti-modèles et risques
Leukedge : fiches/labels du futur, SCD incohérent.
Tuning « jusqu'au bleu » sur un arbre-échantillon : pas de split temporel/vérification croisée.
Pas de calibrage et pas de seuils de coût.
Incohérence en ligne/hors ligne : différents résultats sur la vente.
Ignorer fairness/diapositives : échecs cachés sur les marchés/appareils.
Bracelets illimités et fiches coûteuses : augmentation du coût sans profit.
21) Résultat
L'apprentissage des modèles est un processus guidé : tâche claire et métrique, discipline des données (point-in-time), réglage intelligent avec régularisation, calibration et reproductibilité, transfert transparent en ligne et surveillance continue de la qualité, des coûts et des risques. En suivant ce pleybuk, vous obtenez des modèles qui améliorent le produit, la rétention et la conformité de manière prévisible - rapide, éthique et fiable.