GH GambleHub

Apprendimento automatico nel iGaming

1) Valigette aziendali e valore

Prodotto/reddito: previsione di LTV, churn (fuga), propensity a deposito/acquisto, missioni/ricerche dinamiche, next-best-action/offer.
Marketing/CRM: look-alike, segmentazione, real-time trigger, ottimizzazione bonus (ABO - Abuse-resistant Bonus Ottimization).
Rischio/Complaens: antifrode/AML (velocity, strutturazione, segni grafici), Responcible Gaming (RG) - rischio-score, trigger di intervento.
Operazioni/SRE: predizione degli incidenti, capacity/traffic forecasting, anomalie dei provider.
Finanza: previsione GGR/NGR, sensibilità Fx, rilevamento della manipolazione delle controparti.

I punti di riferimento dell'effetto sono: + 3-7% a Net Revenue grazie alla personalizzazione, -20-40% a fraud-loss, -10-25% a churn, risposta SLA RG <5 s in linea.

2) Dati e segni (Feature Engineering)

Fonti: gameplay, pagamenti/PSP, autenticazione, dispositivi/ASN/geo, RG/KYC/KYB, UTM di marketing, fornitori, zapport/testi.

Fitch di base:
  • Finestre comportamentali: N scommesse/depositi e importi per 10 minuti/ora/giorno, recency/frequency/monetary.
  • Sequenze: catene di giochi, tempo con ultima attività, segni di sessione.
  • Geo/dispositivo: paese/mercato, ASN, tipo di device/browser.
  • Grafica: connessioni giocatore-scheda-dispositivo-IP, componenti/centralità (fraud rings).
  • Contestuale: ore del giorno/giorno della settimana/festività del mercato, provider/genere/volatilità del gioco.
  • RG/AML: limiti, auto-esclusioni, flag di screening, RR/sanzioni (tramite cache/asincrone).
Raccomandazioni:
  • Normalizzare valute e tempo (UTC + locale di mercato).
  • Storicizzate le misure (SCD II).
  • Coordinare la trasformazione online/offline (un unico codice in Feature Store).

3) Architettura offline

3. 1 Tracciato offline

Lakehouse: Bronze→Silver (normalizzazione/arricchimento) →Gold (dataset).
Feature Store (offline) - Maiuscole formule, point-in-time join, materializzazione dei campionamenti di apprendimento.
Training: contenitori con dipendenze fisse; trekking degli esperimenti (metriche/manufatti/dati).
Convalida: k-fold/temporal split, backtest, off-policy valutazione.

3. 2 Tracciato online

Ingest → Stream Processing: Flink/Spark/Beam con finestre/watermarks, idampotenza.
Feature Store (online) - Cache a bassa colatura (Redis/Scylla) + calze offline.
Cerving: endpoint, conte di screening, routing AB, release canarie.
Vetrine real-time: ClickHouse/Pinot per pannelli/regole.

4) Modelli e approcci tipici

Classificazione/classificazione: churn/deposito/frod/RG (LogReg, XGBoost/LightGBM, TabNet, CatBoost).
Classificazione/raccomandazioni: fattorizzazione/foglio-ranging (LambdaMART), seq2rec (RNN/Trasformers), bandi contestuali.
Anomalie: Isolation Forest, One-Class SVM, AutoEncoder, Prophet/TSfresh per le serie temporali.
, per anelli di frode.
Causalità (causal): modelli uplift, T-learner/X-learner, DoWhy/CausalML.
NLP/ASR: ticket/chat, classificazione delle lamentele, sensment, argomenti.

5) Metriche di qualità

Classificazione: ROC-AUC/PR-AUC, F1 sulle soglie operative, expected cost (pesati FP/FN), KS per il rischio-screening.
Raccomandazioni: NDCG @ K, MAP @ K, coverage/dividity, CTR/CVR online.
TS/Forecast: MAPE/SMAPE, WAPE, P50/P90 errore, copertura PI.
RG/AML: precisione/recall a SLA, media time-to-intervene.
Economia: uplift in Net Revenue, fraud saved, campagne RE, bonus abuse%.

6) Valutazione ed esperimenti

Offline: temporal split, backtest per settimane/mercati/tenanti.
Online: A/B/n, CUPED/diff-in-diff, sequential test.
Off-policy: IPS/DR per le regole di personalizzazione.
Stat. Potenza: calcolo delle dimensioni del campione in base alla dispersione e all'MDE.

Esempio di calcolo della soglia di costo (pseudo-codice):
python cost_fp = 5. 0 # false alarm cost_fn = 50. 0 # missed fraud threshold = pick_by_expected_cost (scores, labels, cost_fp, cost_fn)

7) Privacy, etica, compilazione

Minimizzazione PII: alias, isolamento mupping, CLS/RLS.
Residenza: tracciati separati EEA/UK/BR; senza join'ov croci-regionali senza fondamento.
DSAR/RTBF: rimozione/redazione in file e loghi; Legale Hold per valigette/report.
Fairness/pregiudizio: controllo del fich, disparate impact, controllo delle variabili proxy.
Esplainability: SHAP/feature influence, schede di modello (owner, data, dati, metriche, rischi).
Sicurezza: KMS/CMK, segreti esterni ai taccuini, archivi di release WORM.

8) MLOps - Ciclo di vita

1. Data & Feates: schemi/contratti, regole DQ (completeness/uniqueness/range/temporale), lineage.
2. Training: container, autotrasportatori, trekking esperimenti.
3. Convalida: test di compatibilità di schemi, bias/fairness, test di performance.
4. Rilascio (CI/CD/CT): scarico canario/graduale, flag fich, lancio oscuro.
5. Cerving: skailing automatico, cache, gRPC/REST, timeouts/retrai.
6. Monitoraggio: deriva dati/previsioni (PSI/KL), latency p95, error-rate, coverage, silent metrics.
7. Re-train: pianificazione/trigger alla deriva/degrado delle metriche.
8. Incidenti: runbook, reimpostazione del modello, fallback (regola/modello semplice).

9) Feature Store (nucleo di coerenza)

Offline: point-in-time calcolo, anti-leakage, versione della formula fich.
Online: bassa latitanza (10-30 mc), TTL, coerenza con offline.
Contratti: nome/descrizione, proprietario, SLA, formula, test di conformità online/offline.

Esempio di specifica del filetto (YAML):
yaml name: deposits_sum_10m owner: ml-risk slo: {latency_ms_p95: 20, availability: 0. 999}
offline:
source: silver. payments transform: "SUM(amount_base) OVER 10m BY user_pseudo_id"
online:
compute: "streaming_window: 10m"
tests:
- compare_online_offline_max_abs_diff: 0. 5

10) Scorciatoia online e regole

Ibrido ML + Rule - Modello di scansione + spiegazione regole - hard-guard/etica/legge.
Firmware: pattern CEP (strutturing/velocity/device switch) + sketch ML.
SLA: p95-to-end 50-150 ms per personalizzazione, 2-5 s per gli alert RG/AML.

Pseudo-codice di instradamento:
python features = feature_store. fetch(user_id)
score = model. predict(features)
if score > T_RG:
trigger_intervention(user_id, reason="RG_HIGH_RISK", score=score)
elif score > T_BONUS:
send_personal_offer(user_id, offer=choose_offer(score, seg))

11) Dati per la formazione: campionamenti e etichette

Le finestre di evento sono t0 - arbitro, t0 + etichetta (deposito/nero/frodo).
Controllo leakage: point-in-time join, esclusione degli eventi futuri.
Bilanciamento: strazione/peso delle classi, focal loss per le classi rare.
Etica: elimina gli attributi/proxy sensibili, controlla l'impatto.

12) Economia e produttività

Costo Fich: leggi cost/feature e cost/richiest, evitare pesanti online-join'ov.
Cash: hot hot in RAM, freddo in lazy.
Materializzazione: aggregazione offline; online è solo critico.
Quote: limiti per repliche, battistesti alle finestre del tempo; chargeback per comando.

13) Esempi SQL/pseudo-codice

Point-in-time campionamento per churn (30 giorni di silenzio):
sql
WITH base AS (
SELECT user_pseudo_id, MIN(event_time) AS first_seen
FROM silver. fact_bets
GROUP BY user_pseudo_id
),
agg AS (
SELECT user_pseudo_id,
DATE(t. event_time) AS asof,
SUM(amount_base) FILTER (WHERE type='deposit' AND event_time >= t. event_time - INTERVAL '30' DAY AND event_time < t. event_time) AS dep_30d,
COUNT() FILTER (WHERE type='bet' AND event_time >= t. event_time - INTERVAL '7' DAY) AS bets_7d
FROM silver. fact_events t
GROUP BY user_pseudo_id, DATE(t. event_time)
)
SELECT a. user_pseudo_id, a. asof, a. dep_30d, a. bets_7d,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events e
WHERE e. user_pseudo_id=a. user_pseudo_id AND e. event_time > a. asof AND e. event_time <= a. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS label_churn_30d
FROM agg a;
Finestra di deposito online (Flink SQL, 10 min):
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

14) Road map di implementazione

MVP (4-6 settimane):

1. Catalogo dei segnali e Feature Store v1 (5-10 fich per Payments/Gameplay).

2. Modello base churn/deposito (XGBoost) + A/B al 10-20% del traffico.

3. Cervinaggio in linea con cache (p95 <150 mc) e release canarie.

4. Monitoraggio della deriva/qualità, scheda del modello, runbook del ritorno.

Fase 2 (6-12 settimane):
  • Scorciatoie RG/AML, segni grafici, trigger real-time.
  • Modelli Uplift per bonus, bandi contestuali, valutazione off-policy.
  • Auto-re-trein alla deriva/calendario, automazione della documentazione.
Fase 3 (12-20 settimane):
  • Personalizzazione del catalogo dei giochi (seq2rec), ottimizzazione multi-obiettivo (reddito/responsabilità).
  • Cerving regionale multi-regionale, SLAs/quote, chargeback per ficco/inferance.
  • Verifiche Fairness e test di stress, esercitazioni DR e repository di rilascio WORM.

15) RACI

R (Respontible): MLOs (piattaforma/cerving), Data Science (modelli/esperimenti), Data Eng (phisky/pipline).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/Segreti), SRE (SLO/Costo), Finance (Effetto/REI), Legale.
I (Informed) - Prodotto/Marketing/Operazioni/Supporto.

16) Foglio di assegno prima della vendita

  • I fici sono in linea/offline, i test di reimpostazione sono stati superati.
  • La scheda del modello (owner, dati, metriche, rischi, fairness) è piena.
  • Rilascio canario/fitchflag; SLA e alert latency/errori/deriva.
  • I criteri PII/DSAR/RTBF/Legale Hold sono stati rispettati; I fogli sono impersonali.
  • Runbook incidenti/ritorno; strategia fallback.
  • Gli esperimenti sono formalizzati (ipotesi, metriche, durata, MDE).
  • Il costo dell'inferance e del Fic è incluso nel budget; quote e limiti sono inclusi.

17) Anti-pattern

Il disaccordo online/offline è inoperabile.
API esterne sincronizzate in hot road senza cache o timeout.
Formule di metriche opache/nessuna scheda modello.
Riqualificazione/deriva senza monitoraggio o addestramento.
PII in analisi e allenamento senza CLS/RLS/Minimizzazione.
«Un grande modello per tutto» senza decomposizione di dominio.

18) Totale

ML in iGaming non è un insieme di modelli «magici», ma una disciplina: dati e fici coerenti, formazione offline riproduttiva, cerving in linea affidabile, MLOs rigoroso, metriche trasparenti ed etica/compilation. Seguendo questa guida, si costruirà un sistema che aumenta stabilmente il reddito e la detrazione, riduce i rischi e rispetta i requisiti regolatori - su scala, in modo rapido e prevedibile.

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.