Clustering de date
1) De ce cluster o platformă iGaming
Personalizare fără etichete: grupăm jucătorii după comportament pentru a viza oferte, limite, UX.
Operațiuni și riscuri: identificăm „fișiere subțiri”, modele de plată atipice, clustere de fraudă.
Produs și conținut: segmente pe furnizorii preferați/mecanică (crash/slots/live), cicluri de viață.
Analiză și perspective strategice: cum se schimbă mixul de segmente în funcție de piață/campanie/sezon.
2) Spațiu de date și etichete
2. 1 Surse
Comportamentul jocurilor: frecvența/lungimea sesiunilor, pariurile/min, volatilitatea, genurile/furnizorii preferați.
Plăți: frecvență/cantități de depozite/retrageri, metode (Papara/PIX/card), chargeback/abateri.
Marketing/CRM: canale de atracție, reacție la bonusuri/quest-uri, răspunsuri push.
Dispozitive/platforme: sistem de operare, versiune, stabilitate client, tip de rețea.
RG/conformitate: steaguri de auto-excludere, limite, apeluri de sprijin (fără PII).
2. 2 Caracteristică de inginerie
Agregate dupa ferestre: 7/28/90 zile; raționalizarea „pentru o zi activă”.
Standardizare/scalare robast: z-score/robust-scaler (IQR), log-scale pentru „cozi lungi”.
Categorii → embeddings/one-hot: furnizori/canale/țări.
Reducerea dimensiunii: PCA/UMAP pentru zgomot și vizualizare, dar stoca un vector „brut” pentru interpretare.
Zero-PII: jetoane în loc de identificatori, interzicem câmpurile personale.
3) Algoritmi și când să le luați
k-means/Mini-Batch k-means - linie de bază rapidă pentru date mari; presupunerea sfericității.
GMM - afiliere moale (probabilități), util pentru jucătorii „de frontieră”.
DBSCAN/HDBSCAN - găsește clustere de formă liberă și „zgomot” (anomalii); este sensibil la "eps'.
Ierarhic (Ward/medie) - dendrograme pentru „arborele” de segmente, bun la medie N.
Spectral - pentru roiuri non-sferice; drum pe N.
SOM (hărți Kohonen) - hărți 2D interpretabile ale modelelor comportamentale.
Date mixte: k-prototipuri, k-moduri, Gower distanță.
Indiciu: Începeți cu Mini-Batch k-means (viteză) + HDBSCAN (zgomot/anomalii) și comparați stabilitatea.
4) Cum de a alege k și de a evalua calitatea
Metrica internă: Silueta (mai mare este mai bună), Davies-Bouldin (mai mică este mai bună), Calinski-Harabasz.
Stabilitate: re-grupare pe mostre de bootstrap, Rand Index/INM între partiții.
Valabilitatea externă: distingerea KPI-urilor (GGR/NET, păstrarea, conversia ofertelor, FPR) între clustere.
Interpretarea afacerilor: Clusterele ar trebui să aibă profiluri și acțiuni clare. Dacă nu, suprascrie caracteristici/scară/algoritm.
5) Profiluri și explicabilitate
Profil cluster: caracteristici mediane/cantități, jocuri de top/furnizori, dispozitive, metode de plată, canale.
Diferența cu populația: Δ în p-puncte/ σ, vizualizarea prin radar.
Explicatori locali: SHAP/Importanța permutării pentru limitele dintre clustere (prin clasificatorul instruit "cluster_id").
Numim clustere: "High-rollers crash", "Bonus-hunters slots'," Casual week-end live ".
6) Funcționare (online/offline)
Gruparea offline o dată pe zi/săptămână → publicarea „pașapoartelor” segmentelor.
Atribuire online: cel mai apropiat centru (k-mijloace), probabilitatea (GMM), „zgomot” (HDBSCAN) → reguli de rezervă.
Drift: monitorizați PSI/KC după caracteristici cheie, migrarea între clustere, frecvențe de „zgomot”.
Ciclul de viață: revizuire la fiecare 1-3 luni; MAJOR la schimbarea caracteristicilor/standardelor.
7) Integrări și acțiuni
Personalizare: oferte/limite de frecvență, selectarea furnizorilor și mecanica turneelor.
CRM/canale: frecvențe de puf/e-mail, ferestre de timp, limbă/tonalitate.
Marketing: buget pe segmente, creativi, previziuni LTV; "ghiont' vs" valoarea "strategiei.
RG/risc: intervenții ușoare pentru cluster de risc, revizuire „manuală” pentru anomalii.
Antifraudă: grupuri de căi/dispozitive de plată atipice → un scor crescut.
8) Confidențialitate și conformitate
k-anonimitatea rapoartelor (obiecte minime N pe felie).
Zero-PII în fișe/busteni/tablouri de bord, tokenizare; Ștergerea DSAR prin token.
Geo/chiriaș-izolare: segmente de tren/magazin în regiunea de licență.
Verificarea corectitudinii: verificăm diferențele prin măsurători sensibile (țară/metodă de plată/dispozitiv).
Utilizare: ofertele „agresive” pentru clusterul RG (politici) sunt interzise.
9) Măsurători de succes
Operare: cota de atribuții online <X ms, stabilitatea centrelor, migrație/subaprobare.
Afaceri: conversia în sus a ofertelor, ARPPU/LTV pe segment, scăderea FPR antifraudă, viteza de reacție RG.
Calitatea modelului: ↑ siluetei, ↓ DB, ↑ stabilității, KPI distinctiv între clustere.
10) Conductă (referință)
Bronz → argint → aur → servi
1. Ingera evenimente/plati/dispozitive → curatenie/joyns.
2. Feature Store: calcul fereastră (7/28/90d), standardizare, măști/jetoane.
3. Dim-reducere (PCA/UMAP) pentru vizualizări (nu pentru surfing).
4. Clustering (offline), evaluarea măsurătorilor, generarea de „pașapoarte”.
5. Atribuire online API: cel mai apropiat centru/probabilități/” zgomot”
6. Monitorizare: derivă, migrații, frecvența „zgomotului”, KPI pe segment.
7. Eliberare: semver, umbra/canar, rollback; Catalog segmente în BI
11) Exemple de segment (iGaming)
Bonus-vânători sloturi: ponderea mare de freespins/cashback, sesiuni scurte, multe eșecuri de ieșire - limite promo soft, condiții transparente.
Factori de risc de avarie: sesiuni intense scurte, acumularea rapidă a ratei - limite de frecvență/răcire.
Live-social: sesiuni lungi de seară pe live, CTR ridicat pe campanii sociale - curation de fluxuri și evenimente live.
Nou-veniți cu fișiere subțiri: 1-2 depozite, câteva runde - tutoriale de bun venit, suport KYC.
Anomalii-plăți: schimbarea frecventă a portofelelor/metodelor, geo-rase - antifraudă îmbunătățită.
12) Modele artefact
12. 1 Catalog segment (fragment)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 Politica surfingului
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 Pașaport cluster (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Foaia de parcurs privind implementarea
0-30 zile (MVP)
1. Asamblați carcasele de afișare (7/28/90d), standardizați, decupați PII.
2. Mini-lot k-mijloace pentru 5-9 clustere + HDBSCAN de bază pentru „zgomot”.
3. Pașaport de clustere, cesionar online, tablou de bord migrație/derivă.
4. Două experimente de produs: oferte de segment și frecvența puf.
30-90 zile
1. GMM pentru accesorii moi; tipuri mixte (k-prototipuri).
2. Auto-reasamblare la fiecare N zile, umbra → canar; alertă privind ISP/migrații.
3. Interpretabilitate (carduri SHAP), catalog BI segment și API CRM/recomandare.
3-6 luni
1. Segmente specifice geografiei/chiriașilor; combinarea cu dispozitivul/graficul de plată.
2. Cohorte pe termen lung + matrice de tranziție (Markov) pentru planificarea LTV.
3. Politici RG/AML la nivel de segment; audit extern de confidențialitate/etică.
14) Anti-modele
Alegerea k „prin ochi” și evaluarea numai silueta fără controale de afaceri.
Amestecarea PII și a caracteristicilor comportamentale; lipsa k-anonimatului în rapoarte.
Nu există nici un atribuitor online → segmente „atârnă” în BI fără acțiune.
Recalificarea sezonului/cotei; lipsa monitorizării migrațiilor.
Utilizarea clusterelor pentru marketing „agresiv” fără reguli de pază RG.
Un set de segmente pentru toate țările/mărcile fără caracteristici locale.
15) RACI
Platforma de date (R): caracteristică de vitrină, conductă, monitorizare, registru de versiune.
Știința datelor (R): alegerea algoritmului, k/metrica, interpretarea.
Produs/CRM (A): activități de segment, experimente.
Risc/RG (C): politici de restricționare și HITL pentru segmentele „grele”.
Securitate/DPO (A/R): confidențialitate, tokenizare, k-anonimat.
BI (C): tablouri de bord, cataloage, documentație.
16) Secțiuni conexe
Direcționare segmentată, sisteme de recomandare, profilarea jucătorilor, reducerea prejudecăților, evaluarea comparativă a performanțelor, analiza și metrica API, MLOps: model de exploatare, etica datelor și transparență.
Total
Gruparea nu este doar un grafic UMAP, ci un instrument de producție: caracteristici pure fără PII, valori stabile și pașapoarte de segment ușor de înțeles, atribuitor online și acțiuni în CRM/produs/RG. Când este auditat și monitorizat în mod regulat pentru derivă, transformă „haosul comportamental” în strategii ușor de gestionat pentru creștere, siguranță și responsabilitate.