Formazione dei modelli

1) Assegnazione e principi

Lo scopo della formazione è quello di ottenere un modello sostenibile, riproduttivo ed economico che migliora le metriche aziendali (Net Revenue, churn↓, fraud↓) rispettando RG/AML/Legale.

Principi:

Prima l'attività e la metrica operativa/costo degli errori, poi il dataset.
Point-in-time - Nessuna voce/etichetta utilizza il futuro.
Ripartibilità: seeds/versioni fisse, controllo degli artefatti.
Semplicity first: iniziamo con i modelli di base/fich; Complichiamo solo con un vantaggio dimostrato.
Privacy by design: minimizzazione PII, residenza, revisione.

2) Formalizzazione attività e metriche

Classificazione: churn/deposito/frod/RG, PR-AUC, F1 @ opera. soglia, KS, expected cost.
Regressione/previsione: LTV/GGR → WAPE/SMAPE, P50/P90 errore, rivestimento PI.
Classificazione/raccomandazioni: NDCG @ K, MAP @ K, coverage/divisity.
Metriche online: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Soglia di costo (pseudo-codice):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Dataset e divise

Point-in-time join e misure compatibili SCD.
Squilibri di classe: stratifed sampling, class _ weight, focal loss, oversampling eventi rari.
Divisioni in termini di tempo/mercato/tenore: train↔val↔test con «spazio» (gap) per le fughe.

Temporal split (idea SQL):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Preparazione dei segni

Finestre e unità: 10m/1h/1d/7d/30d, R/F/M, velocità/quota.
Categorie: hasing/one-hot; target encoding (time-aware).
Normalizzazione/scale - Parametri da treno, salvati nei manufatti.
Grafica/NLP/geo: costruiamo batch, pubblichiamo su Feature Store (online/offline).

5) Algoritmi di base

GBDT: XGBoost/LightGBM/CatBoost è un database forte per i dati di tabella.
Regressione logistica/ElasticNet: interpretabile/economica.
Raccomandazioni: LambdaMART, fattorizzazione, seq2rec.
Forest, .
Righe temporanee: Prophet/ETS/GBDT per file di calendario.

6) Regolazione e prevenzione della riqualificazione

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Arresto precoce per metrica sulla val con patience e miglioramento minimo.

7) Selezione di iperparametri

Grid/Random per la ricerca in bozza; Bayesian/Hyperband per la configurazione sottile.
Limiti: budget di iterazioni/tempo/costo, «no-overfit» per val (controllo incrociato su più split temporali).

Sketch:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Calibrazione delle probabilità

Platt/Isotonic на holdout; memorizzare la funzione di calibrazione come artefatto.
Controllare l'ECE/relaiability; riconfigurare le soglie in base a expected cost.

9) Interpretabilità e spiegazioni

Global: feature influenzance/SHAP, contributo di permutazione.
Locale: SHAP per singole soluzioni (valigette RG/AML).
Documentare i rischi e l'accettabilità delle spiegazioni online.

10) Riproduzione e manufatti

Seed ovunque: dati/modello/selezione/suddivisione.
Manufatti: versione dati, phich pipline, peso, calibrazione, soglie, confighi.
Deterministic builds: contenitori/dipendenze fissati.

11) Trekking esperimenti

Registriamo git commit, versioni dataset/fic, modelli config, metriche (off/online), manufatti e commenti.
Regole di denominazione esperimenti, tag (dominio/mercato/modello).

12) Trasferimento offline online

Un unico codice di trasformazione (Feature Store) test di equivalenza online/offline.
Cerving: REST/gRPC, timeout/retrai/cache; scarico canareo/graduale.
Soglia/criterio: configurururuemi (flag), audited e roll-back.

13) Monitoraggio e deriva

Dati/Scansione: PSI/KL; alert al superamento delle soglie.
Calibrazione e metriche: ECE, PR-AUC/KS nelle etichette in streaming.
Metriche aziendali: uplift Net Revenue, fraud saved, interventi RG, SLA.
I trigger retrain sono alla deriva/stagionalità/rilascio/data di scadenza.

14) Privacy, residenza, fairness

Riduzioni PII: alias, CLS/RLS, mapping separati.
Residency: singole directory/chiavi (EEA/UK/BR); divieto di join'ove croci-regionarie senza fondamento.
Fairness: diapositiva (mercato/dispositivo/età dell'account), disparate impact, equalize odds; correzione fich/soglie/bilancia.

15) Cost-engineering

Costi di apprendimento: ore CPU/GPU, I/O, numero di test.
Costo di inferance: latency/cost per richiest; limiti per i fici online e la dimensione del modello.
Materializzazione: fici pesanti - offline; In linea sono veloci, in cache.
I budget per esperimenti/repliche.

16) Esempi (sezioni)

LightGBM (classificazione, sketch Python):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time campionamento (SQL-Idea):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

Valutazione expected cost e selezione della soglia:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Processi e RACI

R (Respontible): Data Science (modelli/esperimenti), Data Eng (dataset/fici/Feature Store), MLOs (cerving/monitoraggio/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/segreti/verifiche), SRE (SLO/costo), Finance (ROY).
I (Informed) - Prodotto/Marketing/Operazioni/Supporto.

18) Road map di implementazione

MVP (3-6 settimane):

1. Directory attività e metriche (expected cost), point-in-time dataset.

2. Modelli di base (LogReg/GBDT) + calibrazione + schede di modello.

3. Trekking esperimenti, seeds/manufatti fissi, reproducibili builds.

4. Cervinaggio in linea canarese, soglie come config, alert metriche/deriva.

Fase 2 (6-12 settimane):

Selezione Bayesovsky/Hyperband, diapositiva/fairness, trigger retrain.
Economia Fich/Inferno, cache/TTL, chargeback.
Documentazione delle formule metriche/soglie, simulazioni what-if.

Fase 3 (12-20 settimane):

Pipline regionali multi-regionali, DR/esercitazioni, archivio di release WORM.
Generazione automatica di report qualità/calibrazione, training automatico per eventi.
Esperimenti A/B/n con sequential testing e arresto automatico.

19) Foglio di assegno prima della vendita

Attività e metriche aziendali concordate; è stato calcolato il costo degli errori.
Dataset point-in-time; suddivisi in termini di tempo/mercato; Non c'è leucage.
Selezione/regolazione, arresto precoce, calibrazione delle probabilità.
Scheda modello: dati, fitch, metriche, rischi, fairness, proprietario.
Gli artefatti sono conservati (peso, phich pipline, calibrazione, soglie).
Test di equivalenza online/offline completato; cerving con bandiera Fiech.
Monitoraggio della deriva/calibrazione/metriche aziendali; piani retrain/rollback.
I criteri PII/DSAR/RTBF, la residenza e il controllo degli accessi sono stati rispettati.
I costi di apprendimento/inferance sono inclusi nel budget; alert SLA.

20) Anti-pattern e rischi

Lakedge, fitch/etichette del futuro, SCD incoerente.
Sintonizzando «fino a blu» su un singolo albero, nessun split temporaneo/controllo incrociato.
Nessuna calibrazione o soglia di costo.
Disaccordo online/offline Fich: risultati diversi in vendita.
Ignora fairness/diapositive: errori nascosti nei mercati/dispositivi.
Repliche illimitate e facce costose: aumento dei costi senza beneficio.

21) Totale

L'apprendimento dei modelli è un processo gestito: attività e metrica chiare, disciplina dei dati (point-in-time), sintonizzazione intelligente con regolazione, calibrazione e riproduzione, trasferimento online trasparente e monitoraggio costante di qualità, costi e rischi. Seguendo questa playbook, si ottengono modelli che prevedibilmente migliorano il prodotto, la ritenzione e la compilazione - in modo rapido, etico e affidabile.

Formazione dei modelli

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti