Agrupamiento de datos
1) Por qué agrupar la plataforma iGaming
Personalización sin etiquetas: agrupamos a los jugadores por comportamiento para dirigir offers, límites, UX.
Operaciones y riesgos: identificamos «archivos finos», patrones de pago atípicos, clústeres de frod.
Producto y contenido: segmentos por proveedor/mecánico favorito (crash/slots/live), ciclos de vida.
Análisis e información estratégica: cómo cambia la mezcla de segmentos por mercado/campaña/temporada.
2) Datos y espacio señalizado
2. 1 Fuentes
Comportamiento del juego: frecuencia/duración de las sesiones, apuestas/min, volatilidad, géneros/proveedores favoritos.
Pagos: frecuencia/importe de depósitos/retiros, métodos (Papara/PIX/tarjeta), chargeback/desviaciones.
Marketing/CRM: canales de atracción, respuesta a bonificaciones/misiones, respuestas push.
Dispositivos/plataformas: OS, versión, estabilidad del cliente, tipo de red.
RG/cumplimiento: banderas de autoexclusión, límites, circulación al sapport (sin PII).
2. 2 Ingeniería fich
Unidades por ventana: 7/28/90 días; racionamos «por un día activo».
Estandarización/Skaling Robast: z-score/robust-scaler (IQR), patín de registro para «colas largas».
Categorías → Embeddings/one-hot: proveedores/canales/países.
Reducción de dimensión: PCA/UMAP para ruido y visualización, pero almacenar un vector «crudo» para su interpretación.
Cero-PII: tokens en lugar de identificadores, prohibimos los campos personales.
3) Algoritmos y cuándo tomarlos
k-means/Mini-Batch k-means - baseline rápido para big data; la suposición de esférica.
GMM es una afiliación suave (probabilities), útil para jugadores «fronterizos».
DBSCAN/HDBSCAN - encuentra agrupaciones de forma arbitraria y «ruido» (anomalías); sensible a 'eps'.
Jerárquico (Ward/average): dendrogramas para segmentos de «árbol», bien con un promedio de N.
Espectral - para clústeres no féricos; el camino en el gran N.
SOM (Kohonen Maps) son mapas 2D interpretables de patrones de comportamiento.
Tipos mixtos (datos mixtos): k-prototipos, k-modes, distancia de Gower.
Sugerencia: comience con Mini-Batch k-means (velocidad) + HDBSCAN (ruido/anomalías) y compare la estabilidad.
4) Cómo elegir k y evaluar la calidad
Métricas internas: Silhouette (cuanto más alto, mejor), Davies-Bouldin (más bajo - mejor), Calinski-Harabasz.
Estabilidad: reclusterización en muestras de butstrep, índice de Rand/NMI entre particiones.
Validez externa: diferencia de KPI (GGR/NET, retención, conversión de offer, FPR) entre clústeres.
Interpretación empresarial: los clústeres deben tener perfiles y acciones claras. Si no, anule el phichi/zoom/algoritmo.
5) Perfiles y explicabilidad
Perfil del clúster: medianas/cuántili fich, mejores juegos/proveedores, dispositivos, métodos de pago, canales.
Diferencia con la población: Δ en p-puntos/ σ, visualización por «radar».
Exploradores locales: SHAP/Permutation importance para los límites entre clústeres (a través de un clasificador capacitado "cluster_id").
Llamamos a los clústeres: «High-rollers crash», «Bonus-hunters slots», «Casual weekend live».
6) Operación (online/offline)
Clustering offline una vez al día/semana → publicación de «pasaportes» de segmentos.
Asignación en línea: centro más cercano (k-means), probabilidad (GMM), «ruido» (HDBSCAN) → reglas fallback.
Deriva: monitor PSI/KC por fichas clave, migración entre clústeres, frecuencias de «ruido».
Ciclo de vida: revisión cada 1-3 meses; MAYOR en el cambio de fich/racionamiento.
7) Integraciones y acciones
Personalización: offers/límites de frecuencia, selección de proveedores y mecánicos de torneos.
CRM/canales: frecuencias de cañones/emails, ventanas de tiempo, lenguaje/tonalidad.
Marketing: presupuesto por segmentos, creativos, proyección LTV; «nudge» vs «value» estrategia.
RG/riesgo: intervenciones blandas para cluster de riesgo, revisión «manual» para anomalías.
Antifraude: clústeres de rutas de pago/dispositivos atípicos → mayor puntuación.
8) Privacidad y cumplimiento
k-anonimato de los informes (mínimo N objetos por corte).
Zero-PII en fichas/logs/dashboards, tokenización; Eliminación DSAR por token.
Geo/tenant-aislamiento: capacitar/almacenar segmentos en la región de licencia.
Cheque Fairness: verificamos las diferencias en las mediciones sensibles (país/método de pago/dispositivo).
Uso: se prohíben las offers «agresivas» para el clúster RG (políticas).
9) Métricas de éxito
Operativo: proporción de atributos en línea <X ms, estabilidad de centros, migración/no atribución.
Negocio: uplift conversión offer, ARPPU/LTV por segmentos, reducción de FPR antifraude, velocidad de reacción RG.
Calidad del modelo: silouette ↑, DB ↓, ↑ de estabilidad, distinción de KPI entre clústeres.
10) Pipeline (referencia)
Bronze → Silver → Gold → Serve
1. Ingest eventos/pagos/dispositivos → limpieza/joynes.
2. Feature Store: cálculo de escaparates (7/28/90d), estandarización, máscaras/tokens.
3. Dim-reduction (PCA/UMAP) para visualizaciones (no para serving).
4. Clustering (offline), puntuación métrica, generación de «pasaportes».
5. API de asistencia en línea: centro/probabilidad/» ruido» más cercano.
6. Monitoreo: deriva, migraciones, frecuencia de «ruidos», KPI por segmentos.
7. Release: semver, shadow/canary, rollback; directorio de segmentos en BI.
11) Ejemplos de segmentos (iGaming)
Bonus-hunters slots: alta proporción de freespins/cashback, sesiones cortas, muchos fallos de salida - límites de promoción suave, condiciones transparentes.
Crash-risk takers: sesiones intensas cortas, rápido aumento de las tasas - límites de frecuencia/refrigeración.
Live-social: largas sesiones vespertinas en vivo, alto CTR en la campaña social - curación de streaming y eventos en vivo.
Thin-file newcomers: 1-2 depósitos, pocas rondas - toutorials de bienvenida, soporte KYC.
Anomaly-payments: cambio frecuente de carteras/métodos, geo-salto - antifraude reforzado.
12) Patrones de artefactos
12. 1 Directorio de segmentos (fragmento)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 Política de serving
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 Pasaporte del clúster (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Hoja de ruta para la aplicación
0-30 días (MVP)
1. Montar vitrinas (7/28/90d), estandarizar, cortar PII.
2. Mini-Batch k-means para 5-9 clústeres + HDBSCAN básico para «ruido».
3. Pasaporte de clústeres, assigner en línea, dashboard migraciones/deriva.
4. Dos experimentos de producto: las offerías por segmento y la frecuencia de los cañones.
30-90 días
1. GMM para el accesorio soft; tipos mixtos (k-prototipos).
2. Auto-recomposición una vez cada N días, shadow → canary; alert en PSI/migración.
3. Interpretabilidad (SHAP), directorio BI de segmentos y API para CRM/recomendador.
3-6 meses
1. Segmentos geo/tenant específicos; combinación con un gráfico de dispositivos/pagos.
2. Cohortes a largo plazo + matrices de transición (Markov) para la planificación LTV.
3. Políticas RG/AML a nivel de segmento; auditoría externa de privacidad/ética.
14) Anti-patrones
Elegir k «a la vista» y evaluar sólo silhouette sin controles comerciales.
Mezcla de PII y fichas conductuales; ausencia de k-anonimato en los informes.
No hay assigner 'a → segmentos «colgados» en BI sin acción.
Readiestramiento para la temporada/promoción; Falta de supervisión de las migraciones.
Uso de clústeres para una comercialización «agresiva» sin reglas RG-gard.
Un conjunto de segmentos para todos los países/marcas sin características locales.
15) RACI
Plataforma de datos (R): escaparates, pipeline, monitoreo, registro de versiones.
Ciencia de datos (R): selección del algoritmo, k/métrica, interpretación.
Producto/CRM (A): acciones por segmentos, experimentos.
Risk/RG (C): políticas de restricciones y HITL para segmentos «pesados».
Seguridad/DPO (A/R): privacidad, tokenización, k-anonimato.
BI (C): dashboards, catálogos, documentación.
16) Secciones relacionadas
Orientación segmentada, Sistemas de recomendación, Perfilado de jugadores, Reducción de sesgos, Benchmarking de rendimiento, API de análisis y métricas, MLOps: explotación de modelos, Ética de datos y transparencia.
Resultado
El clustering no es solo un gráfico UMAP, sino una herramienta de producción: fijos puros sin PII, métricas sostenibles y «pasaportes» comprensibles de segmentos, online-assigner y acciones en CRM/producto/RG. Al revisar y monitorear regularmente la deriva, convierte el «caos del comportamiento» en estrategias guiadas de crecimiento, seguridad y responsabilidad.