Segmentazione dei dati

La segmentazione consiste nella suddivisione di numerosi oggetti (utenti, transazioni, prodotti, eventi) in gruppi omogenei per il targeting, la personalizzazione, l'analisi e la gestione dei rischi. Una buona segmentazione migliora i margini, riduce i costi e rende le soluzioni spiegabili.

1) Obiettivi e produzioni

Marketing e crescita: offer personalizzati, frequenza dei contatti, anti-spam policy.
Monetizzazione: discriminazione price, bandle, servizi VIP.
Rischio e compilazione: livelli di controllo, trigger KYC/AML, mapping di pattern sospetti.
Il prodotto e l'esperienza sono l'onboording degli scenari, le linee guida dei contenuti/giochi, i limiti dinamici.
Operazioni: priorità del supporto, assegnazione di limiti e quote.

Formuliamo unità di segmentazione (utente/sessione/merchant), orizzonte (7/30/90 giorni), frequenza di riconteggio (online/giornaliero/settimanale) e KPI target.

2) Tassonomia segmenti

Demografia/geo, paese, lingua, piattaforma.
Comportamento: attività, frequenza, profondità, ore del giorno, categorie preferite.
Valori (value-based): ARPU/ARPPU, LTV-Quantili, Margine.
Stadi, onboarding, maturi, dormienti, restituiti.
RFM: Recency, Frequency, Monetary con binari/Quantili.
Coorti per data di registrazione/primo pagamento/origine.
Segmenti di rischio: marceback-risk, bonus-abuse-risk, attività anomala.
Ciclo di vita: propensity-to-churn, propensity-to-buy, next-best-action.
Contestuale: dispositivo/canale/regole regionali.

3) Dati e preparazione

Point-in-time è corretto: i segni sono considerati dal «passato» disponibile.
Unità per finestre: 7/30/90 giorni/frequenze/quantili.
Normalizzazione: robast-scailing (median/MAD), loga-conversione per lunghe code.
Categorie: one-hot/target/hash; il controllo dei valori «rari».
Qualità: passaggi, duplicati, diagrammi alla deriva, sincronizzazione delle zone temporali.
Semantica: regole aziendali esplicite (ad esempio, deposito ≥1) prima della segmentazione ML.

4) Metodi di segmentazione

4. 1. Regole e soglie (white-box)

«VIP se LTV ≥ X e frequenza ≥ Y».
I vantaggi sono spiegabili, rapidamente implementati come politica.
Contro - Fragilità alla deriva, difficoltà di supporto con il numero crescente di regole.

4. 2. Clusterizzazione (unsupervised)

k-means/k-medoids - Baseline veloce su file numerici.
GMM: accessori morbidi, segmenti probabili.
HDBSCAN/DBSCAN: cluster di forma casuale + rumore come anomalie.
Spettrale/EM su tipi misti per geometrie complesse.
Feature learning cluster: prima gli embedding (autoencoder/trasformer), poi il clustering nello spazio latente.

4. 3. Segmentazione controllata (target-driven)

Formiamo il modello su KPI di destinazione (ad esempio LTV/Risk), mentre i segmenti vengono costruiti in base a quanteli di predizione, profili SHAP e alberi di soluzione.
Pro: segmenti «collegati» a un obiettivo aziendale, facile da verificare uplift.
Contro: rischio di adattamento; Mi serve una convalida rigorosa.

4. 4. Motivi e regole di frequenza

Matrici RFM, regole associative (support/lift), sequenze frequenti (PrefixSpan) - soprattutto per la navigazione alimentare e i bandi.

4. 5. Segmenti di grafica/rete

Comunità di comunicazione (dispositivi, metodi di pagamento, trattamenti); GNN per arricchire i segni.

5) Scelta dell'approccio: matrice rapida

Situazione	Dati	Raccomandazione
È necessario un criterio gestito	Tabelle + regole aziendali	Rule-based + revisione periodica
Ricerca di gruppi «naturali»	Molti file numerici	k-means/GMM, quindi descriviamo i cluster
Forte non linearità	Dimensioni miste/elevate	Embedding → HDBSCAN
Target diretto (LTV/Rischio)	Ci sono etichette/target	Segmentazione supervaise per previsione
Reti/comunicazioni	Conte	Comunity discovery + segni grafici

6) Valutazione della qualità della segmentazione

Metriche interne (senza riferimento):

Silhouette/Davies-Bouldin/Calinski-Harabasz: compattezza e separabilità.
Stabilità: Jaccard/ARI tra riavvii/bootstrap.
Informazione: dispersione intercontinentale dei files chiave.

Metriche esterne/aziendali:

Omogeneità per KPI: differenze in LTV/conversione/rischio tra segmenti.
Actionability - Percentuale di segmenti in base ai quali le risposte agli interventi variano.
Uplift/A/B: aumento con targeting vs segmentato totale targeting.
Copertura:% degli utenti in segmenti «attivi» (non solo «rumore»).

7) Validazione e sostenibilità

Temporal CV - Controlla la stabilità dei segmenti di tempo (rolling finestre).
Convalida di gruppo: non mescolare utenti/dispositivi tra un treno/una val.
Replica: avvio nei mercati/canali adiacenti.
Deriva: PSI/JS-drive per file e distribuzione segmenti; soglie di alert.
Sidi/inizializzazione stabili per confrontare le versioni di segmentazione.

8) Interpretabilità

Passaporti dei segmenti: descrizione delle regole/centridi, file chiave (top-SHAP/permutation), ritratto del pubblico, profilo KPI.
Visualizzazione: UMAP/t-SNE con i colori dei segmenti, griglia delle metriche per segmento.
Le regole per l'attivazione sono layble umani (High-Value Infrecent, Risky Newcomers).

9) Implementazione operativa

Phichestor: una funzione di calcolo dei segni online/offline.
Recoring: SLA e frequenza (on-line, una volta al giorno, durante l'evento).
API/batch-export: ID utente → segmento/probabilità/indicatori di tempo.
Versioning: «SEG_MODEL_vX», contratto dati, data di congelamento del campione di apprendimento.
Criteri: per ciascun segmento sono le regole di azione (off/limits/priorità di supporto).
Fail-safe - Segmento di default in caso di degrado (nessun fich/timeout).

10) Esperimenti e decisioni

A/B/n per segmenti: testiamo offerenti/limiti diversi sulla stessa griglia di segmenti.
Valutazione Uplift: effetto targeting vs controllo (Qini/AUUC, uplift @ k).
Budget allocazione: bilanciamento dei segmenti per margine/rischio-limitazione.
Guardrails: FPR/FNR per i segmenti di rischio, frequenza dei contatti e affaticamento del pubblico.

11) Etica, privacy, compilazione

Minimizzazione dei dati: usiamo il minimo necessario, alias.
Equità: confrontiamo gli errori e la rigidità delle regole sui segmenti sensibili; escludiamo gli attributi protettivi dalle regole oppure applichiamo le correzioni fairness.
Diritto di spiegazione: documentiamo la logica di assegnazione del segmento.
Controllo: riepilogo delle versioni, dei file di input, delle soluzioni e dei risultati delle campagne di segmenti.

12) Modelli di manufatti

Passaporto segmento

Codice/versione: 'SEC _ HVIF _ v3'

Descrizione: «Valore elevato, attività rara»

Criteri/centro: 'LTV _ quantile' 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Dimensione/copertura: 4. 8% degli utenti (ultimi 30 giorni)

Profilo KPI ARPPU 2. 4 x da mediana, Churn-risk media

Linee guida: Offer re-engage morbidi, prodotti premium cross-sell, limite di frequenza 1/7d

Rischi: rielezione degli sconti per «abituazione»

Proprietario: CRM/Monetization

Data/validità 2025-10-15; Revisione ogni trimestre

Contratto di segmentazione

Sorgente Fiech: 'fs. user_activity_v5`

Orari di notte 02: 00 UTC; update online per l'evento «purchase»

Strumenti: 'segmentor. api/v1/score` (p95 ≤ 120 мс)

Loghi: 'sec _ scoring _ log' (phichi-hash, versione, scansione, segmento)

Alert: percentuale UNKNOWN> 2%; PSI per file chiave> 0. 2; squilibri dei segmenti> 10 p in 24 ore

13) Foglio di assegno prima del lancio

Obiettivi e influenza di segmentazione KPI concordati
Specifica unità, finestre e frequenza di calcolo
C'è un badge (rule-based) e una variante ML; confronto uplift
Documentazione segmenti + rendering e laicità umane
Configurati A/B, guardrails e alert alla deriva
Versioning, contratti dati, runibook per incidenti
Criteri di azione per ogni segmento e default-fallback

Totale

La segmentazione non è un clustering singolo, ma un tracciato di controllo: dati e finestre corretti, segmenti trasparenti, collegamento con KPI, convalida rigorosa, SLO operativi e monitoraggio della deriva. Aggiungi la complessità (embedding, grafici, superwalking) solo dove questo fornisce uplift misurabile e rimane comprensibile per il business e la compilazione.

Segmentazione dei dati