Segmentación de datos
Segmentación de datos
La segmentación es la división de múltiples objetos (usuarios, transacciones, productos, eventos) en grupos homogéneos para la orientación, personalización, análisis y gestión de riesgos. Una buena segmentación aumenta la marginalidad, reduce los costes y hace explicables las decisiones.
1) Objetivos y fijaciones
Marketing y crecimiento: offfers personalizados, frecuencia de contactos, política anti-spam.
Monetización: discriminación de precios, bandadas, servicio VIP.
Riesgo y cumplimiento: niveles de control, desencadenantes KYC/AML, puntuación de patrones sospechosos.
Producto y experiencia: onboarding por scripts, recomendaciones de contenido/juegos, límites dinámicos.
Operaciones: priorización del soporte, asignación de límites y cuotas.
Formulamos la unidad de segmentación (usuario/sesión/merchant), el horizonte (7/30/90 días), la tasa de conversión (online/diaria/semanal) y los KPI de destino.
2) Taxonomía de segmentos
Demografía/geo: país, idioma, plataforma.
Conductual: actividad, frecuencia, profundidad, hora del día, categorías favoritas.
Valor (value-based): ARPU/ARPPU, LTV-cuantili, marginalidad.
Estadios: onboarding, maduros, «durmiendo», devueltos.
RFM: Recency, Frequency, Monetary con bins/cuantiles.
Cohorte: por fecha de registro/primer pago/fuente.
Segmentos de riesgo: chargeback-risk, bonus-abuse-risk, actividad anormal.
Ciclo de vida: propensity-to-churn, propensity-to-buy, next-best-action.
Contextual: dispositivo/canal/reglas regionales.
3) Datos y preparación
Corrección punto-en-tiempo: los signos se cuentan desde el «pasado» disponible.
Agregados por ventana: 7/30/90 días sumas/frecuencias/cuantiles.
Normalización: robast skaling (median/MAD), conversiones de registro para colas largas.
Categorías: one-hot/target/hash; control de valores «raros».
Calidad: saltos, duplicados, derivación de esquemas, sincronización de zonas temporales.
Semántica: reglas de negocio explícitas (por ejemplo, ≥1 de depósito) antes de la segmentación ML.
4) Métodos de segmentación
4. 1. Reglas y umbrales (caja blanca)
Condiciones simples: «VIP si LTV ≥ X y frecuencia ≥ Y».
Pros: explicable, rápidamente implementado como política.
Contras: fragilidad en la deriva, dificultad de apoyo en el aumento del número de reglas.
4. 2. Clustering (unsupervised)
k-means/k-medoids: beisline rápido en fichas numéricas.
GMM: accesorios blandos, segmentos probabilísticos.
HDBSCAN/DBSCAN: clústeres de forma arbitraria + «ruido» como anomalías.
Espectral/EM en tipos mixtos: para geometrías complejas.
Función de aprendizaje → cluster: primero embedding (autoencoder/transformer), luego clustering en espacio latente.
4. 3. Segmentación de supervisores (target-driven)
Enseñamos el modelo en el KPI objetivo (por ejemplo, LTV/riesgo) y los segmentos se construyen según cuantiles de predicción, perfiles SHAP y árboles de soluciones.
Pros: segmentos «enlazados» a un objetivo de negocio, fácil de verificar uplift.
Contras: riesgo de «ajuste»; se necesita una validación estricta.
4. 4. Motivos y reglas de frecuencia
matrices RFM, reglas asociativas (support/lift), secuencias frecuentes (PrefixSpan) - especialmente para navegación de productos y bandejas.
4. 5. Segmentos de gráficos/redes
Comunidades de enlace (dispositivos, métodos de pago, referencias); GNN para enriquecer las características.
5) Selección de enfoque: matriz rápida
6) Evaluación de la calidad de segmentación
Métricas internas (sin referencia):- Silhouette/Davies-Bouldin/Calinski-Harabasz: compacidad y separación.
- Estabilidad: Jaccard/ARI entre reinicios/bootstrap.
- Informatividad: dispersión intersegmental de los fichas clave.
- Homogeneidad por KPI: diferencias en LTV/conversión/riesgo entre segmentos.
- Actionability: proporción de segmentos en los que la respuesta a las intervenciones varía.
- Uplift/A/B: ganancia en segmentos de orientación vs objetivo general.
- Cobertura:% de usuarios en segmentos «válidos» (no sólo «ruido»).
7) Validación y sostenibilidad
Temporal CV: comprobación de la estabilidad de los segmentos en el tiempo (ventana de desplazamiento).
Validación de grupo: no mezclar usuarios/dispositivos entre train/val.
Replicación: ejecutar en mercados/canales vecinos.
Deriva: PSI/JS-amb por fichas y distribución de segmentos; los umbrales de las alertas.
Sids/inicialización estable: para comparar versiones de segmentación.
8) Interpretabilidad
Fichas de segmento: descripción de reglas/centroides, fichas clave (top-SHAP/permutation), retrato de audiencia, perfil KPI.
Visualización: UMAP/t-SNE con colores de segmento, métricas de «rejilla» por segmento.
Reglas para la activación: etiquetas humanas («High-Value Infrequent», «Risky Newcomers»).
9) Implementación operativa
Fichestor: funciones de cálculo de caracteres en línea/fuera de línea.
Recuperación: SLA y frecuencia (en línea al iniciar sesión, una vez al día, durante un evento).
API/exportación de batch: ID de usuario → segmento/probabilidad/marca de tiempo.
Versioning: 'AMB _ MODEL _ vX', contrato de datos, fecha de «congelación» de la muestra de aprendizaje.
Políticas: para cada segmento, reglas de acción (offer/limites/prioridad de soporte).
Fail-safe: segmento de default en degradación (no fich/timeout).
10) Experimentación y toma de decisiones
A/B/n por segmentos: probamos diferentes offers/límites en la misma cuadrícula de segmentos.
Evaluación de Uplift: efecto de direccionamiento vs control (Qini/AUUC, uplift @ k).
Budget allocation: distribuimos el presupuesto por segmentos por margen/límite de riesgo.
Guardrails: FPR/FNR para segmentos de riesgo, frecuencia de contactos y fatiga de audiencia.
11) Ética, privacidad, cumplimiento
Minimización de datos: utilizar el mínimo necesario, seudonimización.
Justicia: comparar los errores y la «rigidez» de las políticas por segmentos sensibles; excluimos los atributos protegidos de las reglas o aplicamos correcciones fairness.
Derecho a la explicación: documentamos la lógica de la asignación de un segmento.
Auditoría: registro de versiones, fichas de entrada, soluciones y resultados de campañas por segmentos.
12) Patrones de artefactos
Pasaporte de segmento
Código/versión: 'AMB _ HVIF _ v3'
Descripción: «Alto valor, actividad rara»
Criterios/centro: 'LTV _ quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`
Tamaño/cobertura: 4. 8% de los usuarios (últimos 30 días)
Perfil KPI: ARPPU ↑ 2. 4 × de la mediana, Churn-risk promedio
Recomendaciones: soft re-engage offers, productos premium cross-sell, límite de frecuencia 1/7d
Riesgos: descuentos de reedición → «adictivo»
Propietario: CRM/Monetización
Fecha/validez: 2025-10-15; revisión trimestral
Contrato de segmentación
Fuente: 'fs. user_activity_v5`
Horario: batch nocturno 02:00 UTC; un apdate online al evento 'purchase'
Servicio: 'segmentor. api/v1/score` (p95 ≤ 120 мс)
Los registros son: 'amb _ scoring _ log' (ficha hash, versión, score, segmento)
Alertas: proporción de «UNKNOWN»> 2%; PSI por fichas clave> 0. 2; desequilibrio de segmentos> 10 p.p. por día
13) Lista de verificación antes del lanzamiento
- Objetivos acordados y KPI de impacto de segmentación
- Se ha definido la unidad, las ventanas y la frecuencia de conversión
- Hay una versión based (rule-based) y ML; comparación de uplift
- Documentación de segmentos + visualizaciones y etiquetas humanas
- A/B, guardrails y alertas de deriva configurados
- Versificación, contratos de datos, rúnicas para incidentes
- Políticas de acción para cada segmento y default-fallback
Resultado
La segmentación no es una «clusterización única», sino un bucle de control: datos y ventanas correctos, segmentos transparentes, conjunto con KPI, validación estricta, SLO operativos y monitoreo de deriva. Agregue complejidad (embeddings, grafos, enfoque de superwise) sólo donde da un uplift medible y sigue siendo explicable para el negocio y el cumplimiento.