Segmentazione dei dati
Segmentazione dei dati
La segmentazione consiste nella suddivisione di numerosi oggetti (utenti, transazioni, prodotti, eventi) in gruppi omogenei per il targeting, la personalizzazione, l'analisi e la gestione dei rischi. Una buona segmentazione migliora i margini, riduce i costi e rende le soluzioni spiegabili.
1) Obiettivi e produzioni
Marketing e crescita: offer personalizzati, frequenza dei contatti, anti-spam policy.
Monetizzazione: discriminazione price, bandle, servizi VIP.
Rischio e compilazione: livelli di controllo, trigger KYC/AML, mapping di pattern sospetti.
Il prodotto e l'esperienza sono l'onboording degli scenari, le linee guida dei contenuti/giochi, i limiti dinamici.
Operazioni: priorità del supporto, assegnazione di limiti e quote.
Formuliamo unità di segmentazione (utente/sessione/merchant), orizzonte (7/30/90 giorni), frequenza di riconteggio (online/giornaliero/settimanale) e KPI target.
2) Tassonomia segmenti
Demografia/geo, paese, lingua, piattaforma.
Comportamento: attività, frequenza, profondità, ore del giorno, categorie preferite.
Valori (value-based): ARPU/ARPPU, LTV-Quantili, Margine.
Stadi, onboarding, maturi, dormienti, restituiti.
RFM: Recency, Frequency, Monetary con binari/Quantili.
Coorti per data di registrazione/primo pagamento/origine.
Segmenti di rischio: marceback-risk, bonus-abuse-risk, attività anomala.
Ciclo di vita: propensity-to-churn, propensity-to-buy, next-best-action.
Contestuale: dispositivo/canale/regole regionali.
3) Dati e preparazione
Point-in-time è corretto: i segni sono considerati dal «passato» disponibile.
Unità per finestre: 7/30/90 giorni/frequenze/quantili.
Normalizzazione: robast-scailing (median/MAD), loga-conversione per lunghe code.
Categorie: one-hot/target/hash; il controllo dei valori «rari».
Qualità: passaggi, duplicati, diagrammi alla deriva, sincronizzazione delle zone temporali.
Semantica: regole aziendali esplicite (ad esempio, deposito ≥1) prima della segmentazione ML.
4) Metodi di segmentazione
4. 1. Regole e soglie (white-box)
«VIP se LTV ≥ X e frequenza ≥ Y».
I vantaggi sono spiegabili, rapidamente implementati come politica.
Contro - Fragilità alla deriva, difficoltà di supporto con il numero crescente di regole.
4. 2. Clusterizzazione (unsupervised)
k-means/k-medoids - Baseline veloce su file numerici.
GMM: accessori morbidi, segmenti probabili.
HDBSCAN/DBSCAN: cluster di forma casuale + rumore come anomalie.
Spettrale/EM su tipi misti per geometrie complesse.
Feature learning cluster: prima gli embedding (autoencoder/trasformer), poi il clustering nello spazio latente.
4. 3. Segmentazione controllata (target-driven)
Formiamo il modello su KPI di destinazione (ad esempio LTV/Risk), mentre i segmenti vengono costruiti in base a quanteli di predizione, profili SHAP e alberi di soluzione.
Pro: segmenti «collegati» a un obiettivo aziendale, facile da verificare uplift.
Contro: rischio di adattamento; Mi serve una convalida rigorosa.
4. 4. Motivi e regole di frequenza
Matrici RFM, regole associative (support/lift), sequenze frequenti (PrefixSpan) - soprattutto per la navigazione alimentare e i bandi.
4. 5. Segmenti di grafica/rete
Comunità di comunicazione (dispositivi, metodi di pagamento, trattamenti); GNN per arricchire i segni.
5) Scelta dell'approccio: matrice rapida
6) Valutazione della qualità della segmentazione
Metriche interne (senza riferimento):- Silhouette/Davies-Bouldin/Calinski-Harabasz: compattezza e separabilità.
- Stabilità: Jaccard/ARI tra riavvii/bootstrap.
- Informazione: dispersione intercontinentale dei files chiave.
- Omogeneità per KPI: differenze in LTV/conversione/rischio tra segmenti.
- Actionability - Percentuale di segmenti in base ai quali le risposte agli interventi variano.
- Uplift/A/B: aumento con targeting vs segmentato totale targeting.
- Copertura:% degli utenti in segmenti «attivi» (non solo «rumore»).
7) Validazione e sostenibilità
Temporal CV - Controlla la stabilità dei segmenti di tempo (rolling finestre).
Convalida di gruppo: non mescolare utenti/dispositivi tra un treno/una val.
Replica: avvio nei mercati/canali adiacenti.
Deriva: PSI/JS-drive per file e distribuzione segmenti; soglie di alert.
Sidi/inizializzazione stabili per confrontare le versioni di segmentazione.
8) Interpretabilità
Passaporti dei segmenti: descrizione delle regole/centridi, file chiave (top-SHAP/permutation), ritratto del pubblico, profilo KPI.
Visualizzazione: UMAP/t-SNE con i colori dei segmenti, griglia delle metriche per segmento.
Le regole per l'attivazione sono layble umani (High-Value Infrecent, Risky Newcomers).
9) Implementazione operativa
Phichestor: una funzione di calcolo dei segni online/offline.
Recoring: SLA e frequenza (on-line, una volta al giorno, durante l'evento).
API/batch-export: ID utente → segmento/probabilità/indicatori di tempo.
Versioning: «SEG_MODEL_vX», contratto dati, data di congelamento del campione di apprendimento.
Criteri: per ciascun segmento sono le regole di azione (off/limits/priorità di supporto).
Fail-safe - Segmento di default in caso di degrado (nessun fich/timeout).
10) Esperimenti e decisioni
A/B/n per segmenti: testiamo offerenti/limiti diversi sulla stessa griglia di segmenti.
Valutazione Uplift: effetto targeting vs controllo (Qini/AUUC, uplift @ k).
Budget allocazione: bilanciamento dei segmenti per margine/rischio-limitazione.
Guardrails: FPR/FNR per i segmenti di rischio, frequenza dei contatti e affaticamento del pubblico.
11) Etica, privacy, compilazione
Minimizzazione dei dati: usiamo il minimo necessario, alias.
Equità: confrontiamo gli errori e la rigidità delle regole sui segmenti sensibili; escludiamo gli attributi protettivi dalle regole oppure applichiamo le correzioni fairness.
Diritto di spiegazione: documentiamo la logica di assegnazione del segmento.
Controllo: riepilogo delle versioni, dei file di input, delle soluzioni e dei risultati delle campagne di segmenti.
12) Modelli di manufatti
Passaporto segmento
Codice/versione: 'SEC _ HVIF _ v3'
Descrizione: «Valore elevato, attività rara»
Criteri/centro: 'LTV _ quantile' 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`
Dimensione/copertura: 4. 8% degli utenti (ultimi 30 giorni)
Profilo KPI ARPPU 2. 4 x da mediana, Churn-risk media
Linee guida: Offer re-engage morbidi, prodotti premium cross-sell, limite di frequenza 1/7d
Rischi: rielezione degli sconti per «abituazione»
Proprietario: CRM/Monetization
Data/validità 2025-10-15; Revisione ogni trimestre
Contratto di segmentazione
Sorgente Fiech: 'fs. user_activity_v5`
Orari di notte 02: 00 UTC; update online per l'evento «purchase»
Strumenti: 'segmentor. api/v1/score` (p95 ≤ 120 мс)
Loghi: 'sec _ scoring _ log' (phichi-hash, versione, scansione, segmento)
Alert: percentuale UNKNOWN> 2%; PSI per file chiave> 0. 2; squilibri dei segmenti> 10 p in 24 ore
13) Foglio di assegno prima del lancio
- Obiettivi e influenza di segmentazione KPI concordati
- Specifica unità, finestre e frequenza di calcolo
- C'è un badge (rule-based) e una variante ML; confronto uplift
- Documentazione segmenti + rendering e laicità umane
- Configurati A/B, guardrails e alert alla deriva
- Versioning, contratti dati, runibook per incidenti
- Criteri di azione per ogni segmento e default-fallback
Totale
La segmentazione non è un clustering singolo, ma un tracciato di controllo: dati e finestre corretti, segmenti trasparenti, collegamento con KPI, convalida rigorosa, SLO operativi e monitoraggio della deriva. Aggiungi la complessità (embedding, grafici, superwalking) solo dove questo fornisce uplift misurabile e rimane comprensibile per il business e la compilazione.