Clustering de données
1) Pourquoi clustering iGaming plate-forme
Personnalisation sans étiquette : nous regroupons les joueurs par comportement pour cibler les offers, les limites, les UX.
Opérations et risques : Nous identifions les « fichiers fins », les schémas de paiement atypiques, les grappes de frondes.
Produit et contenu : segments par fournisseurs/mécaniciens préférés (crash/slots/live), cycles de vie.
Analyse et insights stratégiques : comment le mélange de segments par marchés/campagnes/saisons change.
2) Données et espace caractéristique
2. 1 Sources
Comportement de jeu : fréquence/longueur des séances, paris/min, volatilité, genres/fournisseurs préférés.
Paiements : fréquence/montant des dépôts/retraits, méthodes (Papara/PIX/kart), chargeback/rejets.
Marketing/CRM : canaux d'attraction, réponse aux bonus/quêtes, réponses push.
Appareils/plates-formes : OS, version, stabilité du client, type de réseau.
RG/conformité : drapeaux d'auto-exclusion, limites, appels au Sapport (sans PII).
2. 2 Engineering fich
Unités par fenêtre : 7/28/90 jours ; on range « pour un jour actif ».
Standardisation/robast-skaling : z-score/robust-scaler (IQR), un log-skale pour les « longues queues ».
Catégories → embeddings/one-hot : fournisseurs/chaînes/pays.
Réduction de dimension : PCA/UMAP pour le bruit et la visualisation, mais stocker un vecteur « brut » pour l'interprétation.
Zero-PII : jetons au lieu d'identifiants, interdire les champs personnels.
3) Algorithmes et quand les prendre
k-means/Mini-Batch k-means - baseline rapide pour les grandes données ; hypothèse de sphéricité.
GMM est une affiliation douce (probabilités), utile pour les joueurs « borderline ».
DBSCAN/HDBSCAN - trouve des clusters de forme arbitraire et du « bruit » (anomalies) ; sensible à 'eps'.
Hiérarchique (Ward/average) - dendrogrammes pour « arbre » des segments, bien à la moyenne N.
Spectral - pour les grappes non fériennes ; route vers les grands N.
BOU (cartes de Kohonen) est une carte interprétable 2D des schémas comportementaux.
Types mixtes (données mélangées) : k-prototypes, k-modes, distance de Gauer.
Conseil : commencez par Mini-Batch k-means (vitesse) + HDBSCAN (bruit/anomalies) et comparez la stabilité.
4) Comment choisir k et évaluer la qualité
Métriques internes : Silhouette (plus c'est haut, mieux c'est), Davies-Bouldin (plus bas c'est mieux), Calinski-Harabasz.
Stabilité : réassemblage sur les samples bootstrap, Rand Index/NMI entre les partitions.
Validation externe : Différenciation des KPI (GGR/NET, rétention, conversion offer, FPR) entre les grappes.
Interprétation opérationnelle : Les grappes doivent avoir des profils et des actions compréhensibles. Sinon, redéfinissez les fiches/échelle/algorithme.
5) Profils et explications
Profil du cluster : médians/quantili fich, top games/fournisseurs, appareils, méthodes de paiement, canaux.
Différence avec la population : Δ en points p/ σ, visualisation « radar ».
Explorateurs locaux : SHAP/Permutation importance pour les frontières entre les clusters (via un classificateur formé "cluster_id").
Nous appelons les clusters : « High-rollers crash », « Bonus-hunters slots », « Casual weekend live ».
6) Exploitation (en ligne/hors ligne)
Le regroupement offline une fois par jour/semaine → la publication des « passeports » des segments.
Attribution en ligne : centre le plus proche (k-means), probabilités (GMM), « bruit » (HDBSCAN) → règles de chute.
Dérive : Nous surveillons PSI/KC sur les fiches clés, la migration entre les grappes, la fréquence du « bruit ».
Cycle de vie : révision tous les 1 à 3 mois ; MAJOR lorsque vous changez de fiche/de routine.
7) Intégrations et actions
Personnalisation : Offers/limites de fréquence, sélection de fournisseurs et mécaniciens de tournoi.
CRM/canaux : fréquences de canon/email, fenêtres temporelles, langue/tonalité.
Marketing : budget par segment, créatifs, prévisions LTV ; « nudge » vs « value » stratégie.
RG/risque : interventions douces pour le groupe de risques, examen « manuel » pour les anomalies.
Antifrod : clusters de chemins de paiement atypiques/devis → scoring accru.
8) Vie privée et conformité
k-anonymat des rapports (minimum N objets par tranche).
Zero-PII dans les dattes/logs/dashboards, tokenization ; Suppression DSAR par token.
Géo/tenant-isolation : former/stocker des segments dans la région de licence.
Chèque Fairness : nous vérifions les différences sur les mesures sensibles (pays/mode de paiement/appareil).
Utilisation : Les offers « agressifs » pour le cluster RG (stratégies) sont interdits.
9) Les métriques du succès
Opérations : part des attributions en ligne <X ms, stabilité des centres, migration/sous-attribution.
Business : conversion uplift offer, ARPPU/LTV par segments, réduction du FPR de l'antifrod, vitesse de réaction RG.
Qualité du modèle : silhouette ↑, DB ↓, stabilité ↑, distinction KPI entre les clusters.
10) Pipline (référence)
Bronze → Silver → Gold → Serve
1. Ingest événements/paiements/appareils → nettoyage/joyaux.
2. Feature Store : calcul des vitrines (7/28/90d), standardisation, masques/jetons.
3. (PCA/UMAP) pour les visualisations (pas pour le serving).
4. Clustering (hors ligne), évaluation des métriques, génération de « passeports ».
5. API d'affectation en ligne : centre le plus proche/probabilités/ » bruit ».
6. Monitoring : dérive, migrations, fréquence des « bruits », KPI par segment.
7. Release: semver, shadow/canary, rollback; catalogue des segments en BI.
11) Exemples de segments (iGaming)
Slots Bonus-hunters : forte proportion de frispins/cashback, sessions courtes, beaucoup d'échecs de sortie - des limites promos douces, des conditions transparentes.
Crash-risk takers : courtes sessions intensives, augmentation rapide des taux - limites de fréquence/refroidissement.
Live-social : longues séances du soir en live, CTR élevé en campagne sociale - curage des strimes et des lives.
Newcomers : 1-2 dépôts, peu de tours - tutoriels de bienvenue, soutien KYC.
Anomaly-payments : changement fréquent de portefeuille/méthodes, géo-sauts - antifrod renforcé.
12) Modèles d'artefacts
12. 1 Catalogue de segments (fragment)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 La politique du Serving
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 Passeport de cluster (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Feuille de route pour la mise en œuvre
0-30 jours (MVP)
1. Assembler les vitrines (7/28/90d), normaliser, couper le PII.
2. Mini-Batch k-means sur 5-9 clusters + base HDBSCAN pour « bruit ».
3. Passeport de cluster, assigneur en ligne, dashboard de migration/dérive.
4. Deux expériences de production : les offers par segment et la fréquence des canons.
30-90 jours
1. GMM pour les fournitures soft ; types mixtes (k-prototypes).
2. Auto-recadrage une fois tous les N jours, shadow → canary ; alert sur PSI/migration.
3. L'interprétabilité (carte SHAP), le répertoire BI des segments et l'API pour CRM/recommandeur.
3-6 mois
1. Segments géo/tenants spécifiques ; fusion avec la colonne appareils/paiements.
2. Cohortes à long terme + matrices transitoires (Markov) pour la planification de la LTV.
3. Les politiques RG/AML au niveau des segments ; audit externe de la vie privée/éthique.
14) Anti-modèles
Choix de k « à l'oeil » et évaluation seulement silhouette sans vérification d'entreprise.
Mélange des IPI et des fiches comportementales ; le manque d'anonymat dans les rapports.
Il n'y a pas d'assigner'a en ligne → les segments « accrochés » dans BI sans action.
Rééducation pour la saison/action ; absence de surveillance des migrations.
Utilisation de clusters pour le marketing « agressif » sans règles RG-garde.
Un ensemble de segments pour tous les pays/marques sans caractéristiques locales.
15) RACI
Data Platform (R) : fiche vitrine, pipline, surveillance, registre de version.
Data Science (R) : choix de l'algorithme, k/métrique, interprétation.
Product/CRM (A) : actions par segment, expériences.
Risk/RG (C) : politiques de restriction et HITL pour les segments « lourds ».
Sécurité/DPO (A/R) : vie privée, tokenization, k-anonymat.
BI (C) : dashboards, catalogues, documentation.
16) Sections connexes
Ciblage segmenté, Systèmes de recommandation, Profilage des joueurs, Réduction des biais, Benchmarking des performances, API analytiques et métriques, MLOps : exploitation des modèles, éthique des données et transparence.
Résultat
Le clustering n'est pas seulement un graphique UMAP, mais un outil de production : des fiches pures sans PII, des métriques durables et des « passeports » compréhensibles des segments, des assistants en ligne et des actions dans le CRM/produit/RG. En vérifiant et en surveillant régulièrement la dérive, elle transforme le « chaos du comportement » en stratégies gérables de croissance, de sécurité et de responsabilité.