Formazione dei modelli
1) Assegnazione e principi
Lo scopo della formazione è quello di ottenere un modello sostenibile, riproduttivo ed economico che migliora le metriche aziendali (Net Revenue, churn↓, fraud↓) rispettando RG/AML/Legale.
Principi:- Prima l'attività e la metrica operativa/costo degli errori, poi il dataset.
- Point-in-time - Nessuna voce/etichetta utilizza il futuro.
- Ripartibilità: seeds/versioni fisse, controllo degli artefatti.
- Semplicity first: iniziamo con i modelli di base/fich; Complichiamo solo con un vantaggio dimostrato.
- Privacy by design: minimizzazione PII, residenza, revisione.
2) Formalizzazione attività e metriche
Classificazione: churn/deposito/frod/RG, PR-AUC, F1 @ opera. soglia, KS, expected cost.
Regressione/previsione: LTV/GGR → WAPE/SMAPE, P50/P90 errore, rivestimento PI.
Classificazione/raccomandazioni: NDCG @ K, MAP @ K, coverage/divisity.
Metriche online: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Dataset e divise
Point-in-time join e misure compatibili SCD.
Squilibri di classe: stratifed sampling, class _ weight, focal loss, oversampling eventi rari.
Divisioni in termini di tempo/mercato/tenore: train↔val↔test con «spazio» (gap) per le fughe.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Preparazione dei segni
Finestre e unità: 10m/1h/1d/7d/30d, R/F/M, velocità/quota.
Categorie: hasing/one-hot; target encoding (time-aware).
Normalizzazione/scale - Parametri da treno, salvati nei manufatti.
Grafica/NLP/geo: costruiamo batch, pubblichiamo su Feature Store (online/offline).
5) Algoritmi di base
GBDT: XGBoost/LightGBM/CatBoost è un database forte per i dati di tabella.
Regressione logistica/ElasticNet: interpretabile/economica.
Raccomandazioni: LambdaMART, fattorizzazione, seq2rec.
Forest, .
Righe temporanee: Prophet/ETS/GBDT per file di calendario.
6) Regolazione e prevenzione della riqualificazione
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Arresto precoce per metrica sulla val con patience e miglioramento minimo.
7) Selezione di iperparametri
Grid/Random per la ricerca in bozza; Bayesian/Hyperband per la configurazione sottile.
Limiti: budget di iterazioni/tempo/costo, «no-overfit» per val (controllo incrociato su più split temporali).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Calibrazione delle probabilità
Platt/Isotonic на holdout; memorizzare la funzione di calibrazione come artefatto.
Controllare l'ECE/relaiability; riconfigurare le soglie in base a expected cost.
9) Interpretabilità e spiegazioni
Global: feature influenzance/SHAP, contributo di permutazione.
Locale: SHAP per singole soluzioni (valigette RG/AML).
Documentare i rischi e l'accettabilità delle spiegazioni online.
10) Riproduzione e manufatti
Seed ovunque: dati/modello/selezione/suddivisione.
Manufatti: versione dati, phich pipline, peso, calibrazione, soglie, confighi.
Deterministic builds: contenitori/dipendenze fissati.
11) Trekking esperimenti
Registriamo git commit, versioni dataset/fic, modelli config, metriche (off/online), manufatti e commenti.
Regole di denominazione esperimenti, tag (dominio/mercato/modello).
12) Trasferimento offline online
Un unico codice di trasformazione (Feature Store) test di equivalenza online/offline.
Cerving: REST/gRPC, timeout/retrai/cache; scarico canareo/graduale.
Soglia/criterio: configurururuemi (flag), audited e roll-back.
13) Monitoraggio e deriva
Dati/Scansione: PSI/KL; alert al superamento delle soglie.
Calibrazione e metriche: ECE, PR-AUC/KS nelle etichette in streaming.
Metriche aziendali: uplift Net Revenue, fraud saved, interventi RG, SLA.
I trigger retrain sono alla deriva/stagionalità/rilascio/data di scadenza.
14) Privacy, residenza, fairness
Riduzioni PII: alias, CLS/RLS, mapping separati.
Residency: singole directory/chiavi (EEA/UK/BR); divieto di join'ove croci-regionarie senza fondamento.
Fairness: diapositiva (mercato/dispositivo/età dell'account), disparate impact, equalize odds; correzione fich/soglie/bilancia.
15) Cost-engineering
Costi di apprendimento: ore CPU/GPU, I/O, numero di test.
Costo di inferance: latency/cost per richiest; limiti per i fici online e la dimensione del modello.
Materializzazione: fici pesanti - offline; In linea sono veloci, in cache.
I budget per esperimenti/repliche.
16) Esempi (sezioni)
LightGBM (classificazione, sketch Python):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Point-in-time campionamento (SQL-Idea):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Valutazione expected cost e selezione della soglia:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Processi e RACI
R (Respontible): Data Science (modelli/esperimenti), Data Eng (dataset/fici/Feature Store), MLOs (cerving/monitoraggio/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/segreti/verifiche), SRE (SLO/costo), Finance (ROY).
I (Informed) - Prodotto/Marketing/Operazioni/Supporto.
18) Road map di implementazione
MVP (3-6 settimane):1. Directory attività e metriche (expected cost), point-in-time dataset.
2. Modelli di base (LogReg/GBDT) + calibrazione + schede di modello.
3. Trekking esperimenti, seeds/manufatti fissi, reproducibili builds.
4. Cervinaggio in linea canarese, soglie come config, alert metriche/deriva.
Fase 2 (6-12 settimane):- Selezione Bayesovsky/Hyperband, diapositiva/fairness, trigger retrain.
- Economia Fich/Inferno, cache/TTL, chargeback.
- Documentazione delle formule metriche/soglie, simulazioni what-if.
- Pipline regionali multi-regionali, DR/esercitazioni, archivio di release WORM.
- Generazione automatica di report qualità/calibrazione, training automatico per eventi.
- Esperimenti A/B/n con sequential testing e arresto automatico.
19) Foglio di assegno prima della vendita
- Attività e metriche aziendali concordate; è stato calcolato il costo degli errori.
- Dataset point-in-time; suddivisi in termini di tempo/mercato; Non c'è leucage.
- Selezione/regolazione, arresto precoce, calibrazione delle probabilità.
- Scheda modello: dati, fitch, metriche, rischi, fairness, proprietario.
- Gli artefatti sono conservati (peso, phich pipline, calibrazione, soglie).
- Test di equivalenza online/offline completato; cerving con bandiera Fiech.
- Monitoraggio della deriva/calibrazione/metriche aziendali; piani retrain/rollback.
- I criteri PII/DSAR/RTBF, la residenza e il controllo degli accessi sono stati rispettati.
- I costi di apprendimento/inferance sono inclusi nel budget; alert SLA.
20) Anti-pattern e rischi
Lakedge, fitch/etichette del futuro, SCD incoerente.
Sintonizzando «fino a blu» su un singolo albero, nessun split temporaneo/controllo incrociato.
Nessuna calibrazione o soglia di costo.
Disaccordo online/offline Fich: risultati diversi in vendita.
Ignora fairness/diapositive: errori nascosti nei mercati/dispositivi.
Repliche illimitate e facce costose: aumento dei costi senza beneficio.
21) Totale
L'apprendimento dei modelli è un processo gestito: attività e metrica chiare, disciplina dei dati (point-in-time), sintonizzazione intelligente con regolazione, calibrazione e riproduzione, trasferimento online trasparente e monitoraggio costante di qualità, costi e rischi. Seguendo questa playbook, si ottengono modelli che prevedibilmente migliorano il prodotto, la ritenzione e la compilazione - in modo rapido, etico e affidabile.