Segmentation des données

La segmentation est la division de plusieurs objets (utilisateurs, transactions, produits, événements) en groupes homogènes pour le ciblage, la personnalisation, l'analyse et la gestion des risques. Une bonne segmentation augmente la marge, réduit les coûts et rend les décisions compréhensibles.

1) Objectifs et productions

Marketing et croissance : offers personnalisés, fréquence des contacts, politique anti-spam.
Monétisation : discrimination des prix, gangs, service VIP.
Risque et conformité : niveaux de contrôle, déclencheurs KYC/AML, scoring des modèles suspects.
Produit et expérience : onboard par script, recommandations de contenu/jeux, limites dynamiques.
Opérations : hiérarchisation du soutien, répartition des limites et des quotas.

Nous formulons l'unité de segmentation (utilisateur/session/merchant), l'horizon (7/30/90 jours), le taux de conversion (en ligne/quotidien/hebdomadaire) et les KPI cibles.

2) Taxonomie des segments

Démographie/géo : pays, langue, plateforme.
Comportement : activité, fréquence, profondeur, heure de la journée, catégories préférées.
Valeur (value-based) : ARPU/ARPPU, LTV-quantili, marge.
Stade : onbording, mûr, « dormant », retourné.
RFM : Recency, Frequency, Monetary avec bins/quantiles.
Cohortes : par date d'inscription/premier paiement/source.
Segments de risque : chargeback-risk, bonus-abuse-risk, activité anormale.
Cycle de vie : propensity-to-churn, propensity-to-buy, next-best-action.
Contextuel : périphérique/canal/règles régionales.

3) Données et préparation

Point-in-time correct : les signes sont comptés à partir du « passé » disponible.
Agrégats par fenêtre : 7/30/90 jours de somme/fréquence/quantification.
Normalisation : robast-skaling (median/MAD), log-conversion pour les longues queues.
Catégories : one-hot/target/hash ; contrôle des valeurs « rares ».
Qualité : sauts, doublons, dérive des circuits, synchronisation des zones temporelles.
Sémantique : règles commerciales explicites (par exemple, dépôt ≥1) avant la segmentation ML.

4) Méthodes de segmentation

4. 1. Règles et seuils (white-box)

Conditions simples : « VIP si LTV ≥ X et fréquence ≥ Y ».
Avantages : compréhensible, rapidement mis en œuvre en tant que politique.
Inconvénients : fragilité à la dérive, difficulté à soutenir la croissance du nombre de règles.

4. 2. Clustering (unsupervised)

k-means/k-medoids : Basline rapide sur les fiches numériques.
GMM : fournitures douces, segments probabilistes.
HDBSCAN/DBSCAN : clusters de forme arbitraire + « bruit » comme anomalies.
Spectral/EM sur types mixtes : pour géométries complexes.
Feature learning → cluster : d'abord embeddings (autoencoder/transformer), puis clustering dans l'espace latent.

4. 3. Supervise-segmentation (target-driven)

Nous enseignons le modèle sur le KPI cible (par exemple, LTV/risque), et nous construisons les segments à partir des quantiles de prédiction, des profils SHAP et des arbres de décision.
Avantages : les segments sont « liés » à l'objectif de l'entreprise, facile à vérifier uplift.
Inconvénients : risque d'ajustement ; il faut une validation stricte.

4. 4. Motifs et règles de fréquence

matrices RFM, règles associatives (support/lift), séquences fréquentes (PrefixSpan) - en particulier pour la navigation de produits et les bandes.

4. 5. Segments graphiques/réseaux

Les communautés de liaison (dispositifs, méthodes de paiement, renvois) ; GNN pour l'enrichissement des traits.

5) Choix de l'approche : matrice rapide

La situation	Données	Recommandation
Besoin d'une stratégie gérée	Tableau + règles commerciales	Rule-based + audit périodique
Recherche de groupes « naturels »	Beaucoup de fiches numériques	k-means/GMM, puis décrire les clusters
Forte non-linéarité	Mixte/haute dimension	Embeddings → HDBSCAN
Ciblage direct (LTV/risque)	Il y a des étiquettes/target	Supervise segmentation par prédiction
Réseaux/communications	Graphe	Détection communautaire + signes graphiques

6) Évaluation de la qualité de la segmentation

Métriques internes (sans référence) :

Silhouette/Davies-Bouldin/Calinski-Harabasz : compacité et divisibilité.
Stabilité : Jaccard/ARI entre les redémarrages/butstrap.
Information : dispersion intersegmentale des fiches clés.

Métriques externes/commerciales :

Homogénéité par KPI : différences de LTV/conversion/risque entre les segments.
Actionability : proportion de segments pour lesquels la réponse aux interventions diffère.
Uplift/A/B : augmentation du ciblage segmentaire vs ciblage général.
Couverture :% des utilisateurs dans les segments « valides » (pas seulement le « bruit »).

7) Validation et durabilité

Temps CV : Vérifie la stabilité des segments dans le temps (fenêtre rolling).
Validation de groupe : ne pas mélanger les utilisateurs/appareils entre train/val.
Réplication : lancement sur les marchés/canaux voisins.
Dérive : PSI/JS-bou sur les fiches et la répartition des segments ; les seuils sur l'alerte.
Sièges stables/initialisation : pour comparer les versions de segmentation.

8) Interprétabilité

Profils des segments : description des règles/centroïdes, fiches clés (top-SHAP/permutation), portrait du public, profil KPI.
Visualisation : UMAP/t-SNE avec couleurs de segments, « grille » de métriques par segments.
Règles d'activation : Labels humains (« High-Value Infrequent », « Risky Newcomers »).

9) Mise en œuvre opérationnelle

Fichestor : fonctions uniques de calcul des caractéristiques en ligne/hors ligne.
Scoring : SLA et fréquence (en ligne à l'entrée, une fois par jour, à l'événement).
API/butch-export : ID utilisateur → segment/probabilité/horodatage.
Versioning : 'SEG _ MODEL _ vX', contrat de données, date de « gel » de l'échantillon d'apprentissage.
Stratégies : pour chaque segment, les règles d'action (offer/limites/priorité de support).
Fail-safe : segment défectueux en cas de dégradation (pas de fich/timaut).

10) Expérimentation et prise de décision

A/B/n par segment : nous testons différents offers/limites sur la même grille de segments.
Évaluation uplift : effet de ciblage vs contrôle (Qini/AUUC, uplift @ k).
Budget allocation : nous répartissons le budget par segment par marge/limite de risque.
Guardrails : FPR/FNR pour les segments à risque, fréquence des contacts et fatigue du public.

11) Éthique, vie privée, conformité

Minimisation des données : utiliser le minimum nécessaire, pseudonyme.
Équité : comparer les erreurs et la « dureté » des politiques sur les segments sensibles ; Nous excluons les Attributs protégés des règles, ou nous appliquons des corrections fairness.
Droit d'explication : nous documentons la logique d'attribution du segment.
Audit : journal des versions, fiche d'entrée, décisions et résultats des campagnes par segment.

12) Modèles d'artefacts

Passeport du segment

Code/version : 'SEG _ HVIF _ v3'

Description : « Haute valeur, activité rare »

Critères/centre : 'LTV _ quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Taille/couverture : 4. 8 % des utilisateurs (30 derniers jours)

Profil KPI : ARPPU ↑ 2. 4 × de la médiane, Churn-risk moyen

Recommandations : soft ré-engage-offers, produits premium cross-sell, limite de fréquence 1/7d

Risques : rabais excédentaires → « addictions »

Propriétaire : CRM/Monetization

Date/validation : 2025-10-15 ; révision une fois par trimestre

Contrat de segmentation

Source fich : 'fs. user_activity_v5`

Horaire : 2 h 00 UTC ; Apdate en ligne lors de l'événement « purchase »

Service : 'segmentor. api/v1/score` (p95 ≤ 120 мс)

Logs : 'seg _ scoring _ log' (fishi-hash, version, score, segment)

Alert : part « UNKNOWN »> 2 %; PSI par fiches clés> 0. 2; déséquilibre des segments> 10 pp par jour

13) Chèque avant la sortie

Les objectifs et les KPI de l'impact de la segmentation sont convenus
Unité, fenêtres et taux de conversion définis
Il y a une basilique (rule-based) et une variante ML ; comparaison uplift
Documentation des segments + visualisations et labels humains
A/B, guardrails et alertes de dérive personnalisés
Versioning, contrats de données, runibooks sur les incidents
Politiques d'action par segment et par défaut

Résultat

La segmentation n'est pas un « clustering ponctuel », mais une boucle de contrôle : données et fenêtres correctes, segments transparents, couplage avec KPI, validation stricte, SLO opérationnel et surveillance de la dérive. Ajoutez de la complexité (embeddings, graphes, super approche) uniquement lorsque cela donne un uplift mesurable et reste compréhensible pour l'entreprise et la conformité.

Segmentation des données