Segmentación de datos

La segmentación es la división de múltiples objetos (usuarios, transacciones, productos, eventos) en grupos homogéneos para la orientación, personalización, análisis y gestión de riesgos. Una buena segmentación aumenta la marginalidad, reduce los costes y hace explicables las decisiones.

1) Objetivos y fijaciones

Marketing y crecimiento: offfers personalizados, frecuencia de contactos, política anti-spam.
Monetización: discriminación de precios, bandadas, servicio VIP.
Riesgo y cumplimiento: niveles de control, desencadenantes KYC/AML, puntuación de patrones sospechosos.
Producto y experiencia: onboarding por scripts, recomendaciones de contenido/juegos, límites dinámicos.
Operaciones: priorización del soporte, asignación de límites y cuotas.

Formulamos la unidad de segmentación (usuario/sesión/merchant), el horizonte (7/30/90 días), la tasa de conversión (online/diaria/semanal) y los KPI de destino.

2) Taxonomía de segmentos

Demografía/geo: país, idioma, plataforma.
Conductual: actividad, frecuencia, profundidad, hora del día, categorías favoritas.
Valor (value-based): ARPU/ARPPU, LTV-cuantili, marginalidad.
Estadios: onboarding, maduros, «durmiendo», devueltos.
RFM: Recency, Frequency, Monetary con bins/cuantiles.
Cohorte: por fecha de registro/primer pago/fuente.
Segmentos de riesgo: chargeback-risk, bonus-abuse-risk, actividad anormal.
Ciclo de vida: propensity-to-churn, propensity-to-buy, next-best-action.
Contextual: dispositivo/canal/reglas regionales.

3) Datos y preparación

Corrección punto-en-tiempo: los signos se cuentan desde el «pasado» disponible.
Agregados por ventana: 7/30/90 días sumas/frecuencias/cuantiles.
Normalización: robast skaling (median/MAD), conversiones de registro para colas largas.
Categorías: one-hot/target/hash; control de valores «raros».
Calidad: saltos, duplicados, derivación de esquemas, sincronización de zonas temporales.
Semántica: reglas de negocio explícitas (por ejemplo, ≥1 de depósito) antes de la segmentación ML.

4) Métodos de segmentación

4. 1. Reglas y umbrales (caja blanca)

Condiciones simples: «VIP si LTV ≥ X y frecuencia ≥ Y».
Pros: explicable, rápidamente implementado como política.
Contras: fragilidad en la deriva, dificultad de apoyo en el aumento del número de reglas.

4. 2. Clustering (unsupervised)

k-means/k-medoids: beisline rápido en fichas numéricas.
GMM: accesorios blandos, segmentos probabilísticos.
HDBSCAN/DBSCAN: clústeres de forma arbitraria + «ruido» como anomalías.
Espectral/EM en tipos mixtos: para geometrías complejas.
Función de aprendizaje → cluster: primero embedding (autoencoder/transformer), luego clustering en espacio latente.

4. 3. Segmentación de supervisores (target-driven)

Enseñamos el modelo en el KPI objetivo (por ejemplo, LTV/riesgo) y los segmentos se construyen según cuantiles de predicción, perfiles SHAP y árboles de soluciones.
Pros: segmentos «enlazados» a un objetivo de negocio, fácil de verificar uplift.
Contras: riesgo de «ajuste»; se necesita una validación estricta.

4. 4. Motivos y reglas de frecuencia

matrices RFM, reglas asociativas (support/lift), secuencias frecuentes (PrefixSpan) - especialmente para navegación de productos y bandejas.

4. 5. Segmentos de gráficos/redes

Comunidades de enlace (dispositivos, métodos de pago, referencias); GNN para enriquecer las características.

5) Selección de enfoque: matriz rápida

Situación	Datos	Recomendación
Necesita una política administrada	Tablas + reglas de negocio	Rule-based + revisión periódica
Buscar grupos «naturales»	Mucho fich numérico	k-means/GMM, luego describimos los clústeres
Fuerte no linealidad	Mezclado/de alta dimensión	Embeddings → HDBSCAN
Objetivo directo (LTV/riesgo)	Hay etiquetas/target	Segmentación supervisada por predicción
Redes/comunicaciones	Gráfico	Detección de la comunidad + señales gráficas

6) Evaluación de la calidad de segmentación

Métricas internas (sin referencia):

Silhouette/Davies-Bouldin/Calinski-Harabasz: compacidad y separación.
Estabilidad: Jaccard/ARI entre reinicios/bootstrap.
Informatividad: dispersión intersegmental de los fichas clave.

Métricas externas/empresariales:

Homogeneidad por KPI: diferencias en LTV/conversión/riesgo entre segmentos.
Actionability: proporción de segmentos en los que la respuesta a las intervenciones varía.
Uplift/A/B: ganancia en segmentos de orientación vs objetivo general.
Cobertura:% de usuarios en segmentos «válidos» (no sólo «ruido»).

7) Validación y sostenibilidad

Temporal CV: comprobación de la estabilidad de los segmentos en el tiempo (ventana de desplazamiento).
Validación de grupo: no mezclar usuarios/dispositivos entre train/val.
Replicación: ejecutar en mercados/canales vecinos.
Deriva: PSI/JS-amb por fichas y distribución de segmentos; los umbrales de las alertas.
Sids/inicialización estable: para comparar versiones de segmentación.

8) Interpretabilidad

Fichas de segmento: descripción de reglas/centroides, fichas clave (top-SHAP/permutation), retrato de audiencia, perfil KPI.
Visualización: UMAP/t-SNE con colores de segmento, métricas de «rejilla» por segmento.
Reglas para la activación: etiquetas humanas («High-Value Infrequent», «Risky Newcomers»).

9) Implementación operativa

Fichestor: funciones de cálculo de caracteres en línea/fuera de línea.
Recuperación: SLA y frecuencia (en línea al iniciar sesión, una vez al día, durante un evento).
API/exportación de batch: ID de usuario → segmento/probabilidad/marca de tiempo.
Versioning: 'AMB _ MODEL _ vX', contrato de datos, fecha de «congelación» de la muestra de aprendizaje.
Políticas: para cada segmento, reglas de acción (offer/limites/prioridad de soporte).
Fail-safe: segmento de default en degradación (no fich/timeout).

10) Experimentación y toma de decisiones

A/B/n por segmentos: probamos diferentes offers/límites en la misma cuadrícula de segmentos.
Evaluación de Uplift: efecto de direccionamiento vs control (Qini/AUUC, uplift @ k).
Budget allocation: distribuimos el presupuesto por segmentos por margen/límite de riesgo.
Guardrails: FPR/FNR para segmentos de riesgo, frecuencia de contactos y fatiga de audiencia.

11) Ética, privacidad, cumplimiento

Minimización de datos: utilizar el mínimo necesario, seudonimización.
Justicia: comparar los errores y la «rigidez» de las políticas por segmentos sensibles; excluimos los atributos protegidos de las reglas o aplicamos correcciones fairness.
Derecho a la explicación: documentamos la lógica de la asignación de un segmento.
Auditoría: registro de versiones, fichas de entrada, soluciones y resultados de campañas por segmentos.

12) Patrones de artefactos

Pasaporte de segmento

Código/versión: 'AMB _ HVIF _ v3'

Descripción: «Alto valor, actividad rara»

Criterios/centro: 'LTV _ quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Tamaño/cobertura: 4. 8% de los usuarios (últimos 30 días)

Perfil KPI: ARPPU ↑ 2. 4 × de la mediana, Churn-risk promedio

Recomendaciones: soft re-engage offers, productos premium cross-sell, límite de frecuencia 1/7d

Riesgos: descuentos de reedición → «adictivo»

Propietario: CRM/Monetización

Fecha/validez: 2025-10-15; revisión trimestral

Contrato de segmentación

Fuente: 'fs. user_activity_v5`

Horario: batch nocturno 02:00 UTC; un apdate online al evento 'purchase'

Servicio: 'segmentor. api/v1/score` (p95 ≤ 120 мс)

Los registros son: 'amb _ scoring _ log' (ficha hash, versión, score, segmento)

Alertas: proporción de «UNKNOWN»> 2%; PSI por fichas clave> 0. 2; desequilibrio de segmentos> 10 p.p. por día

13) Lista de verificación antes del lanzamiento

Objetivos acordados y KPI de impacto de segmentación
Se ha definido la unidad, las ventanas y la frecuencia de conversión
Hay una versión based (rule-based) y ML; comparación de uplift
Documentación de segmentos + visualizaciones y etiquetas humanas
A/B, guardrails y alertas de deriva configurados
Versificación, contratos de datos, rúnicas para incidentes
Políticas de acción para cada segmento y default-fallback

Resultado

La segmentación no es una «clusterización única», sino un bucle de control: datos y ventanas correctos, segmentos transparentes, conjunto con KPI, validación estricta, SLO operativos y monitoreo de deriva. Agregue complejidad (embeddings, grafos, enfoque de superwise) sólo donde da un uplift medible y sigue siendo explicable para el negocio y el cumplimiento.

Segmentación de datos