Segmentação de dados

A segmentação é uma divisão de vários objetos (usuários, transações, produtos, eventos) em grupos homogêneos de targeting, personalização, análise e gerenciamento de riscos. Uma boa segmentação aumenta a margem, reduz os custos e torna as soluções explicáveis.

1) Metas e produções

Marketing e crescimento: offs personalizados, frequência de contatos, política anti-spam.
Monetização, discriminação, gangles, serviço VIP.
Riscos e complicações: níveis de controle, desencadeadores KYC/AML, mapeamento de patterns suspeitos.
Produto e experiência: Linking de cenários, recomendações de conteúdo/jogos, limites dinâmicos.
Operações: priorização do suporte, distribuição de limites e quotas.

Formulamos uma unidade de segmentação (usuário/sessão/merchant), horizonte (7/30/90 dias), frequência de contagem (online/diária/semanal) e KPI de destino.

2) Taxonomia segmentos

Demografia/geo: país, língua, plataforma.
Comportamentos: atividade, frequência, profundidade, hora do dia, categorias favoritas.
Valor (value-based): ARPU/ARPU, LTV-Quantity, Margem.
Estágios, onboarding, amadurecidos, adormecidos, devolvidos.
RFM: Recency, Frequency, Monetary com bins/quanteis.
Data de inscrição/primeiro pagamento/fonte.
Segmentos de risco: marceback-risk, bônus-abuse-risk, atividade anormal.
Ciclo de vida: propensity-to-churn, propensity-to-buy, next-best-action.
Contextuais: dispositivo/canal/regras regionais.

3) Dados e preparação

Ponto-in-time correto: os sinais são considerados do «passado» disponível.
Unidades por janela: 7/30/90 dias/frequências/quanteis.
Normalização: Robast Skeiling (median/MAD), conversões logísticas para caudas longas.
Categorias: one-hot/target/hash; controle de valores «raros».
Qualidade: omissões, duplicados, diagramas à deriva, sincronização de zonas temporais.
Semântica: regras de negócios explícitas (por exemplo, ≥1 de depósito) para a segmentação ML.

4) Métodos de segmentação

4. 1. Regras e liminares (white-box)

Condições simples: «VIP, se LTV ≥ X e frequência ≥ Y».
Os benefícios são explicáveis, rapidamente introduzidos como uma política.
Contras: Fragilidade à deriva, dificuldade de suporte ao aumento do número de regras.

4. 2. Clusterização (unsupervised)

k-means/k-medoids: basline rápido em fichas de números.
GMM: acessórios suaves, segmentos prováveis.
HDBSCAN/DBSCAN: clusters de forma aleatória + «ruído» como anomalias.
Espectral/EM em tipos misturados para geometrias complexas.
Feature learning → cluster: Primeiro embeddings (autoencoder/transformer), depois clusterização em espaço latente.

4. 3. Segmentação de supervisão (target-driven)

Ensinamos o modelo no KPI alvo (por exemplo, LTV/Risco), enquanto os segmentos são baseados em quantos prognósticos, perfis SHAP e árvores de soluções.
Vantagens: segmentos «amarrados» a um alvo de negócio, fácil de verificar uplift.
Contras: risco de ajustamento; Preciso de uma validação rigorosa.

4. 4. Motivos e regras de frequência

Matrizes RFM, regras associativas (suporte/lift), sequências frequentes (PrefixSpan) - especialmente para navegação de alimentos e bandos.

4. 5. Segmentos de gráficos/redes

Comunidades de relacionamento (dispositivos, métodos de pagamento, refratários); GNN para enriquecimento de sinais.

5) Escolha de abordagem: matriz rápida

Situação	Dados	Recomendação
Precisa de uma política controlada	Tabelas + Regras de Negócios	Rule-based + revisão periódica
Procurar grupos «naturais»	Muitas fichas de números	k-means/GMM, depois descrevendo os clusters
Forte não linearidade	Dimensão mista/alta	Embeddings → HDBSCAN
Meta direta (LTV/risco)	Há marcas/target	Supervais segmentação por previsão
Redes/ligações	Grafo	Comnity detecção + sinais gráficos

6) Avaliação da qualidade da segmentação

Métricas internas (sem referência):

Silhouette/Davies-Couldin/Calinski-Harabasz: Compacto e separabilidade.
Estabilidade: Jaccard/ARI entre reinício/butstrap.
Informação: Dispersão interconectada de fichas-chave.

Métricas externas/empresariais:

Homogeneidade por KPI: diferenças de LTV/conversão/risco entre segmentos.
Activability: proporção de segmentos que variam de resposta a intervenções.
Uplift/A/B: aumento na meta de segmento vs meta geral.
Abrangência:% dos usuários em segmentos «válidos» (não apenas «ruído»).

7) Validação e sustentabilidade

Temporal CM: Verificação da estabilidade dos segmentos de tempo.
Validação de grupo: não misturar usuários/dispositivos entre train/val.
Replicação: lançamento em mercados/canais vizinhos.
À deriva: PSI/JS-dave em fichas e distribuição de segmentos; liminares para alertas.
Assentos/inicialização estáveis: para comparar versões de segmentação.

8) Interpretabilidade

Passaportes de segmentos: descrição de regras/centrídeos, fichas-chave (top-SHAP/permutation), retrato do público, perfil KPI.
Visualização: UMAP/t-SNE com cores de segmento, «grade» métricas por segmento.
As regras de ativação são laibas humanas («High-Value Infrecent», «Risky Newcomers»).

9) Implementação operacional

Fichestor: uma única função de cálculo de sinais online/offline.
Rescoring: SLA e frequência (online, uma vez por dia, durante o evento).
Exportação API/batch: ID do usuário → segmento/probabilidade/marca de tempo.
Versioning: 'SEG_MODEL_vX', contrato de dados, data de congelamento da amostra de treinamento.
Políticas: para cada segmento - regras de ação (off/limites/prioridade de suporte).
Fail-safe: segmento em default para degradação (sem fic/timeout).

10) Experiências e decisões

A/B/n por segmento: Testamos diferentes offs/limites na mesma malha de segmentos.
Avaliação Uplift: efeito do controle de meta vs (Qini/AUUC, uplift @ k).
Budget allocation: Distribuindo o orçamento em segmentos de margem/risco-limite.
Guardrails: FPR/FNR para segmentos de risco, frequência de contatos e fadiga de audiência.

11) Ética, privacidade, complacência

Minimizar dados: Use o mínimo necessário, o pseudônimo.
Justiça: Comparando erros e «rigidez» de políticas por segmentos sensíveis; excluir o Protected Atributes das regras ou aplicar correções fairness.
Direito de explicação: Documentamos a lógica de atribuição do segmento.
Auditoria: logs de versões, fichas de entrada, soluções e resultados de campanhas por segmento.

12) Modelos de artefatos

Passaporte do segmento

Código/versão: 'SEC _ HVIF _ v3'

Descrição: «Alto valor, atividade rara»

Critérios/centro: 'LTV _ quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Tamanho/abrangência: 4. 8% dos usuários (últimos 30 dias)

Perfil KPI: ARPU ↑ 2. 4 x da mediana, churn-risk médio

Recomendações: ré-engage-offs suaves, produtos premium cross-sell, limite de frequência de 1/7d

Riscos: descontos reprováveis → «habituação»

Dono: CRM/Monetização

Data/validade: 2025-10-15; revisão uma vez por trimestre

Contrato de segmentação

Fonte Fiech: 'fs. user_activity_v5`

Horário: batch de noite 02:00 UTC; update online para o evento 'purchase'

Serviço: 'segmentor. api/v1/score` (p95 ≤ 120 мс)

Logi: 'sec _ scoring _ jobs' (fici-hash, versão, screen, segmento)

Alerts: «UNKNOWN»> 2%; PSI em fichas-chave> 0. 2; desequilíbrio de segmentos> 10 p.p. em 24 horas

13) Folha de cheque antes do lançamento

Metas acordadas e impacto KPI de segmentação
Definida a unidade, as janelas e a taxa de recontagem
Há um bazline (rule-based) e uma versão ML; comparação uplift
Documentação de segmentos + visualização e lailes humanos
Configurados A/B, guelrails e alertas à deriva
Versionização, contratos de dados, roteiros de incidentes
Políticas de ação para cada segmento e default-fallback

Resultado

A segmentação não é um «clustering único», mas um circuito de controle: dados e janelas corretos, segmentos transparentes, conexão com KPI, validação rigorosa, SLO operacional e monitoramento à deriva. Adicione complexidade (embeddings, gráficos, supervais) apenas onde isso dá uplift mensurável e permanece explicável para o negócio e a complacência.

Segmentação de dados