GH GambleHub

Correlazione e causalità

Correlazione e causalità

La correlazione registra le modifiche congiunte delle variabili. La causalità risponde alla domanda: cosa succede se interveniamo? Nell'analisi, nel prodotto e nella gestione dei rischi, il valore produce esattamente l'effetto causale, che permette di valutare l'accrescimento da una soluzione e non solo l'associazione.

1) Concetti di base

Correlazione (associazione): collegamento statistico senza interpretazione del perché. Potrebbe essere causata da una causa comune, da una causa inversa o da un incidente.
Effetto causale (treatment effect) - La differenza prevista tra il mondo «con interferenza» e «senza interferenza».
Contraffatto: impossibile osservare «cosa sarebbe stato con lo stesso oggetto senza essere influenzato».
Confaounder: una variabile che influisce sia sulla causa che sul risultato del → crea una falsa relazione.
Collider: variabile influenzata sia dalla causa che dal risultato; la condizione del collisore distorce l'associazione.
Il paradosso di Simpson è che la direzione dell'effetto cambia dopo aver considerato la variabile/segmento nascosta.

2) Quando la correlazione è sufficiente e quando no

Analisi descrittiva, monitoraggio, EDA: correlazioni/classificazione/heatmap per individuare ipotesi e rischi.
Prendere decisioni e valutare l'impatto: sono necessari metodi causali (esperimenti o quasi).
Modelli di previsione: le correlazioni sono utili, ma per i RE/regole è possibile passare a valutazioni casuali o modelli uplift.

3) Esperimenti: standard d'oro

Test A/B (randomizzazione): eliminano il confounding, rendono i gruppi paragonabili.
Guardrails: durata di un ciclo di comportamento, esposizione stabile, controllo di stagionalità e interferenza (spillover).
Metriche: effetto, spaziatura di fiducia, MDE/power, eterogeneità di effetto per segmento (Heterogeneous Treatment Effect).
Pratica: rilasci canari, rollout graduale, CUPED/controllo covario per ridurre la dispersione.

4) Se l'esperimento non è possibile: quasi esportazioni

Difference-in-Differences (DiD) - Differenza tra «test» e «controllo». Presupposto chiave: trend parallelo prima dell'intervento.
Controllo sintetico, costruiamo un controllo «sintetico» come miscela ponderata di gruppi donatori. Resistente alle diverse dinamiche di tendenza.
Regola soglia di assegnazione dell'esposizione (RDD) paragoni su entrambi i lati della soglia. L'importante è non manipolare la soglia.
Variabili utensili (IV) - La variabile influisce sul «trattamento», ma non influisce direttamente sull'esito (tranne attraverso il trattamento). Sono necessari: rilevanza e validità dell'utensile.
Mappatura (PSM/Matching) - Test e controllo con cowariati simili. è utile come preprocessaggio, ma non elimina i confounders nascosti.
Interupted Time Series (ITS) - Valuta il taglio di tendenza al momento del criterio in assenza di altri shock.

5) Causal Graphs e criteri «buchi»

DAG è una mappa visiva delle relazioni causali. Consente di scegliere quali variabili controllare.
Back-door criterion - Blocca tutti i percorsi posteriori (confounders) - ottiene una valutazione dell'effetto non disponibile.
Front-door criterion: usiamo un intermediario che ha un'influenza completa per aggirare i confounders nascosti.
Non controllare i collider e i discendenti del risultato: crea offset.
Pratica: prima disegniamo DAG con esperti di dominio, poi selezioniamo un set minimo di covariati.

6) Potenziali risultati e valutazione degli effetti

ATE/ATT/ATC: effetto medio su tutti/elaborati/controllati.
CATE/HTE - Effetto per segmenti (paese, canale, classe di rischio).
Modellazione Uplift: consente al modello di classificare gli oggetti in base all'incremento previsto dall'intervento anziché alla probabilità originale dell'evento.

7) Trappole frequenti

«Aumento degli sconti, calo della domanda» - gli sconti rispondono al calo, non viceversa.
Variabili mancate: azioni/stagionalità/modifiche regionali non registrate.
Sopravvissuti (survivorship bias) - Analizza solo i superstiti.
Leakage: utilizzo delle informazioni future nell'apprendimento/valutazione.
Miscelazione delle metriche: ottimizzazione delle metriche proxy anziché dell'effetto aziendale (Goodhart).
Regressione alla media, i ritorni naturali al trend mascherano gli «effetti».

8) Causalità nel prodotto, nel marketing e nei rischi

Marketing/campagne: uplift-targeting, frequenza differenziata dei contatti, LTV causali, ROMI per il controllo DiD/sintetico.
Prezzi/promo: RDD (soglie), esperimenti su campionamento SKU/regioni.
Linee guida: valutazione off-policy (IPS/DR) e bandits; conteggio dell'interferenza.
Regole antifrode/RG: attenzione alla causalità - i blocchi cambiano il comportamento e i dati; utilizzare i quasi-esportatori e i guardrail su FPR e appelli.
Operation Management: ITS per comunicati e incidenti; grafici causali per RCA.

9) Procedura di analisi: da ipotesi a soluzione

1. Formulare la domanda come causale: «Qual è l'effetto X su Y nell'orizzonte T?»

2. Disegna DAG: allinea con il dominio, segna confounder/mediatori/collaudatori.
3. Seleziona RCT/A-B, DiD, RDD, IV, controllo sintetico, matching.
4. Definisci metriche: base (effetto), guardia (qualità/etica/operazione), segmenti CATE.
5. Preparare i dati: point-in-time, cowariati «prima» impatto, calendario e stagionalità.
6. Valutare l'effetto: modelli di base + test robast (test placebo, sensibilità).
7. Verifica stabilità: specifiche alternative, esclusione di insidie sospette, leave-one-out.
8. Tradurre politica/rollout, SLO, monitoraggio e retest alla deriva.

10) Pratiche e verifiche Robast

Pre-trend checks (per DiD) - I trend test/controllo sono simili prima dell'intervento.
Placebo/riposizionamenti: «date fittizie» o «gruppi fittizi» - l'effetto deve scomparire.
Sensitivity analysis - Quanto il confounder nascosto distorcerà il risultato.
Bounds/intervalli - I modelli parzialmente identificati → i limiti di fiducia.
Multiple testing: regolazioni (BH/Holm) per più segmenti.
Esternal validity: portabilità degli effetti su altri mercati/canali (meta-analysis).

11) Metriche di segnalazione degli effetti

Effetto assoluto: In unità (P, P, minuti).
Effetto relativo:% alla linea di base.
NNT/NNH: quanti oggetti devono essere elaborati per raggiungere un risultato/danno.
Cost-Efficieness: effetto/costo; priorità di bilancio.
Uplift @ k/Qini/AUUC per interventi mirati.

12) Causalità nella pratica ML

Causal Features - Non sempre migliorano la precisione delle previsioni, ma sono più adatte alle regole.
Causal Forest/Meta-learners (T/X/S-Learner) - Valutazione CATE e uplift personale.
Counterfactual fairness: equità dei modelli in base ai percorsi causali Bloccare i percorsi «ingiusti».
Do-op vs predict: distinguere tra «prevedere» e «cosa fare». Il secondo richiede modelli/emulatori causali.

13) Foglio di assegno dell'analisi causale

  • Domanda formulata come effetto di intervento/criterio
  • Costruito e concordato DAG; Set minimo di covariati selezionato (back-door)
  • Design selezionato (RCT/quasi-esperimento) e ipotesi chiave testate
  • Dati point-in-time; esclusi i legami; calendario/stagionalità preso in considerazione
  • È stato calcolato l'effetto e gli intervalli di fiducia; controlli robast effettuati
  • Valutazione dell'eterogeneità degli effetti (CATE) e dei rischi (garrails)
  • Valore digitalizzato (RE, NNT/NNH, costo dell'errore)
  • Piano di implementazione e monitoraggio criteri di ripetizione del test

14) Mini glossario

Back-door/Front-door - I criteri di selezione sono insidiati per identificare l'effetto.
IV (variabile utensile) è una leva che cambia il trattamento, ma non direttamente l'esito.
DiD: differenza tra i gruppi prima e dopo.
RDD - Valutazione dell'effetto vicino alla soglia della regola.
Il controllo di Synthetic Control è una combinazione ponderata di donatori.
Effetto HTE/CATE non uniforme/condizionale per segmenti.
Uplift: aumento previsto da esposizione, non probabilità di evento.


Totale

Le correlazioni aiutano a trovare le ipotesi, la causalità a prendere le decisioni. Costruisci DAG, scegli il design appropriato (esperimento o quasi-esperimento), verifica i presupposti e la resistenza, misura gli effetti non uniformi e traduce le conclusioni in una politica di monitoraggio e monitoraggio. Così l'analista smette di parlare di connessioni e diventa il motore del cambiamento.

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.