Formazione con e senza insegnante

1) Perché e quando

Con l'insegnante (Supervised) - C'è un'etichetta (etichetta) che prevede probabilità/classe/valore. Usiamo quando si capisce la «risposta giusta» e c'è una storia: churn, deposito a 7 giorni, rischio RG/AML, probabilità di risposta off-off, previsione LTV.
Senza insegnante (Unsupervised) - Le etichette non sono disponibili per trovare strutture/cluster/anomalie/fattori latenti: segmentazione dei giocatori, anelli di frodo, profili di gioco a tema, rilevamento di guasti di provider, compressione dei segni.

Regola di scelta: se la soluzione aziendale dipende da una previsione di probabilità specifica → supervised; se l'obiettivo è aprire pattern/segnali sconosciuti o ridurre la dimensione dei dati → unsupervised. In pratica si combinano.

2) valigette tipiche

Supervised

Churn/riattivazione: classificazione binaria (fuori/fuori), modelli uplift per l'esposizione.
Propensity a deposito/acquisto: possibilità di evento nell'orizzonte T.
RG/AML: rischio-scansione, probabilità di strutturazione, sessione sospetta.
Bonus antiabuse, possibilità di uso fraudolento del promo.
Suggerimenti (classificazione): possibilità di click/puntata per gioco (listwise/puntwise).

Unsupervised

Segmentazione dei giocatori: k-means, GMM, HDBSCAN RFM/comportamento/genere.
Anomalie: Isolation Forest, LOF, pagamenti/pattern.
Analisi grafica: clusterizzazione nella casella player-device-card-IP.
Ridimensionamento: PCA/UMAP per rendering e fich engineering.
Modelli a tema NMF/LDL per le descrizioni dei giochi/chat di supporto.

3) Dati e feci

Connessioni point-in-time per escludere data leakage.
Le finestre dei segni sono 10 min/1 h/1 giorno/7 giorni/30 giorni (recency, frequency, monetary).
Contesto: mercato/giurisdizione/DST/festività, provider/genere, dispositivo/ASN.
I segni grafici sono il numero di schede uniche/IP/device, centralità.
Regolazione valuta/fuso orario, SCD II per users/games/provider.

4) Algoritmi e metriche

Con l'insegnante

Algoritmi: LogReg, XGBoost/LightGBM/CatBoost, TabNet; per classificare - LambdaMART/GBDT; serie temporali - Prophet/ETS/Gradiente Boosted TS.
Metriche: ROC-AUC/PR-AUC, F1 @ soglia operativa, KS (rischio), NDCG/MAP @ K (raccomandazioni), MAPE/WAPE (previsioni), expected cost con pesi FP/FN.

Senza insegnante

Clustering: k-means/GMM (numero di cluster elbow/silhouette), HDBSCAN (densità).
Anomalie: Isolation Forest/LOF/AutoEncoder; metriche - precisione @ k sulla marcatura degli esperti, AKPR sulle anomalie sintetiche.
Dimensione: PCA/UMAP per progettazione e visualizzazione fic.

5) Approcci combinati

Semi-Supervised: pseudonimi per parte dei dati non elencati (self-training), conservency regolarization.
Self-Supervised - Attività contrastate/mascherate (embedding sessioni/giochi) utilizzano downstream in superwised.
Active Learning: il sistema offre ai candidati per la marcatura (massima incertezza/diversità) risparmiando il lavoro degli esperti AML/RG.
Weak Supervision: euristi/regole/etichettature distanti formano etichette «deboli», poi calibrate.

6) Processo: da offline al cerving online

1. Offline: raccolta/preparazione di split in termini di tempo/mercato, formazione/validazione di backtest.
2. Semantica metriche: formule uniche (ad esempio churn _ 30d) e finestre di tempo fisse.
3. Feature Store: un unico fich in linea/offline; Test di conformità.
4. Cerving online: endpoint, SLA per la latitanza, routing AB/release canarie.
5. Monitoraggio: deriva dati/previsioni (PSI/KL), latency p95, errore delle metriche aziendali, alert.

7) Privacy e compliance

Minimizzazione PII: alias, isolamento mupping, CLS/RLS.
Residency: singoli trasportatori/chiavi di crittografia per regione (EEA/UK/BR).
DSAR/RTBF: rimuoviamo/modifichiamo fili e loghi; Conserviamo le basi legali delle eccezioni.
Legale Hold, congelamento di manufatti investigativi/segnalativi.
Fairness - Controllo proxy, report di impatto (SHAP), criterio di intervento RG.

8) Economia e produttività

Costo di calcolo (cost/feature) e inferenza (cost/sollest).
Materializzazione delle unità offline; online sono solo finestre critiche.
Cache di autorizzazioni/risultati di scansione su TTL brevi, lookups asincroni con timeout.
Quote e budget per repliche/battistesti; marceback per comandi/modelli.

9) Esempi (sezioni)

9. 1 Point-in-time campionamento per churn _ 30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Anomalie dei pagamenti (pseudocode, Isolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Segmentazione k-means (RFM + generi)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Soglia di valore per il modello binario

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Valutazione, validazione ed esperimenti

Offline: temporal split (treno/val/test in termini di tempo/mercato), backtesting, bootstrap di fiducia.
Online: A/B/n, sequential test, CUPED/diff-in-diff.
Off-policy: IPS/DR per le regole di personalizzazione.
Calibrazione: Platt/Isotonic per probabilità corrette.
Controllo del degrado: alert per metriche aziendali e PR-AUC/KS.

11) RACI

R (Respontible): Data Science (modelli/esperimenti), MLOs (piattaforma/cerving), Data Eng (phisky/pipeline).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/segreti), SRE (SLO/valore), Finance (ROY).
I (Informed) - Prodotto/Marketing/Operazioni/Supporto.

12) Road map di implementazione

MVP (4-6 settimane):

1. Catalogo obiettivi/etichette e segnali (churn _ 30d, propensity _ 7d, risk _ rg).

2. Feature Store v1 (5-10 fich), modelli di base XGBoost, dashboard offline metriche.

3. Segmentazione k-means (8 cluster) + descrizione segmenti Isolation Forest per i pagamenti.

4. Cervinaggio in linea con cache, p95 <150 ms; A/B al 10-20% del traffico.

Fase 2 (6-12 settimane):

Active/Semi-Supervised per carenze discografiche (AML/RG), self-supervised embedding giochi/sessioni.
Release canarie, controllo alla deriva, training automatico.
Un unico strato semantico di metriche e l'allineamento online/offline fich.

Fase 3 (12-20 settimane):

Segni grafici e anelli di frodo; modelli di bonus uplift.
Cerving multi-regionale, quote/chargeback; Archivio di release WORM.
Controllo Fairness, test di stress, incidenti runbooks.

13) Foglio di assegno prima di vendere

Point-in-time campionamento e test contro leakage.
Calibrazione delle probabilità; Seleziona la soglia di expected cost.
Schede modello (owner, dati, metriche, rischi, fairness).
Feature Store: test di conformità online/offline.
Monitoraggio della deriva/latitanza/errori, alert e rollback automatico.
Criteri PII/DSAR/RTBF/Legale Hold; la logica è impersonale.
Il piano A/B e la potenza statistica sono contati; il runbook è pronto.

14) Anti-pattern

Combinazione di nuovi eventi in etichette (leakage) e assenza di point-in-time.
«Un modello per tutto» invece della decomposizione di dominio.
Una certa probabilità di libere ha → le soglie di affari sbagliate.
Volo alla cieca, nessun monitoraggio della deriva/qualità online.
Reimpostazione online (esternal-join'pesanti senza cache e timeout).
Segmenti privi di interpretazione aziendale e proprietario.

15) Totale

L'apprendimento con un insegnante fornisce una previsione misurabile e gestione del rischio/reddito; senza un insegnante - struttura e segnali dove non ci sono etichette. La loro combinazione (semi/self-supervised, active learning) con la disciplina dei dati (point-in-time, Feature Store), la compilation e MLOs offre alla piattaforma iGaming un aumento costante di Net Revenue, una riduzione del frodo e interventi tempestivi RG - con riproduzione, controllo dei costi e disponibilità all'ispezione.

Formazione con e senza insegnante

Unsupervised

Senza insegnante

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti