GH GambleHub

Clusterização de dados

1) Por que clusterizar plataforma iGaming

Personalização sem marcas: Agrupamos jogadores de comportamento para tarefar offs, limites, UX.
Transações e risco: Identificamos «arquivos finos», patters de pagamento atípicos, clusters de frod.
Produtos e conteúdo: segmentos de provedores/mecânicos favoritos (crash/slots/live), ciclos de vida.
Analista e insights estratégicos: como o mix de segmentos de mercados/campanhas/estações está mudando.

2) Dados e espaço de sinais

2. 1 Fontes

Comportamento de jogo: frequência/comprimento das sessões, apostas/min, volatilidade, gêneros/provedores favoritos.
Pagamentos: frequência/soma de depósitos/conclusões, métodos (Papara/PIX/cartão), marceback/desvios.
Marketing/CRM: canais de atração, reações a bónus/buscas, respostas.
Dispositivos/plataformas: OS, versão, estabilidade do cliente, tipo de rede.
RG/Complance: bandeiras de auto-exclusão, limites, conversão de safort (sem PII).

2. 2 Engenharia de ficção

Máquinas por janela: 7/28/90 dias; Racionamos «para o dia ativo».
Normalização/robast skailing: z-score/robust-escaler (IQR), logs-scale para «caudas longas».
Categorias → embeddings/one-hot: provedores/canais/países.
Redução de dimensão: PCA/UMAP para ruído e visualização, mas armazenar vetor «cru» para interpretação.
Zero-PII: em vez de identificadores, proibimos campos pessoais.

3) Algoritmos e quando pegá-los

k-means/Mini-Batch k-means - baseline rápida para grandes dados; suposição de esférico.
GMM - Pertença suave (propabilities), útil para os jogadores «de borda».
DBSCAN/HDBSCAN - Encontra clusters de forma aleatória e «ruídos» (anomalias); sensível a 'eps'.
Hierárquico (Ward/average) - Dendrogramas para segmentos de «árvore», bem com N. médio.
Espectral - para clusters não ferais; o caminho para as grandes N.
SOM - mapas de Kohonen - mapas de pattern comportamentais 2D interpretados.
Tipos misturados (mixed data): k-prototypes, k-modos, distância Gauer.

Dica: Comece com Mini-Batch k-means + HDBSCAN (ruído/anomalias) e compare a estabilidade.

4) Como escolher k e avaliar a qualidade

Métricas internas: Silhouette (quanto mais alto, melhor), Davies-Couldin (abaixo - melhor), Calinski-Harabasz.
Estabilidade: novo clustering em sementes butstrap, Rand Index/NMI entre as divisões.
Validade externa: KPI (GGR/NET, retenção, conversão de off, FPR) entre os clusters.
Interpretação empresarial: Os clusters devem ter perfis e ações compreensíveis. Se não, redefinir fici/zoom/algoritmo.

5) Perfis e Explicabilidade

O perfil do cluster é median/quantili fic, top games/provedores, dispositivos, métodos de pagamento, canais.
A diferença com a população é de P-parágrafo/C, visualização «radar».
Local explorers: SHAP/Permutation influence para limites entre clusters (através do classificador «cluster _ id» treinado).
Chamamos os clusters «High-rollers crash», «Bónus-hunters slots», «Casual week live».

6) Operação (online/offline)

Clusterização Offline uma vez por dia/semana → edição de «passaportes» segmentos.
Atribuição online: centro mais próximo (k-means), probabilidade (GMM), ruído (HDBSCAN) → regras fallback.
À deriva: monitor PSI/KC em fichas-chave, migração entre clusters, frequência de ruído.
Ciclo de vida: revisão a cada 1-3 meses; MAJOR na mudança de fic/racionamento.

7) Integração e ação

Personalização: offs/limites de frequência, seleção de provedores e mecânicos de torneio.
CRM/canais: frequência de canhões/e-mails, janelas de tempo, língua/tonalidade.
Marketing: orçamento por segmento, criatividade, previsão LTV; «nudge» vs «value» estratégia.
RG/risco: intervenções suaves para o cluster de risco, visão manual para anomalias.
Antifrode: clusters de rotas de pagamento atípicas/device → acréscimo elevado.

8) Privacidade e complacência

k anonimato de relatórios (mínimo N objetos por corte).
Zero-PII em fichas/logs/dashboards, toquenização; Remoção DSAR por token.
Geo/tenant-isolamento: treinar/armazenar segmentos na região da licença.
Fairness Cheque: Verificamos as diferenças de dimensões sensíveis (país/método de pagamento/dispositivo).
Uso: Os offs «agressivos» para o cluster RG (políticas) são proibidos.

9) Métricas de sucesso

Operacionais: porcentagem de atribuições online <X ms, estabilidade de centros, migração/subatribução.
Negócios: uplift conversão off, ARPPU/LTV por segmento, redução FPR antifrode, velocidade de resposta RG.
Qualidade do modelo: silhouette ↑, DB ↓, stability ↑, variabilidade do KPI entre os clusters.

10) Pipeline (referência)

Bronze → Silver → Gold → Serve

1. Engest eventos/pagamentos/dispositivos → limpar/jornas.
2. Função Store: cálculo de vitrines (7/28/90d), normalização, máscaras/tokens.
3. Redução dim (PCA/UMAP) para visualização (não para serving).
4. Clustering (offline), avaliação de métricas, geração de «passaportes».
5. Online assignment API: centro/probabilidade/» ruído» mais próximo.
6. Monitoring: deriva, migração, frequência de «ruídos», KPI por segmento.
7. Release: semver, shadow/canary, rollback; catálogo de segmentos em BI.

11) Exemplos de segmentos (iGaming)

Bónus-hunters slots: alta proporção de frispins/cachê, sessões curtas, muitas falhas de saída - limites suaves de promo, condições transparentes.
Crash-risk takers: sessões intensas curtas, elevação rápida de taxas - limites de frequência/refrigeração.
O Live-Social: longas sessões da noite em live, CTR de alto nível em campanhas sociais - curação de striptease e saliência.
Thin-arquivo newcomers: 1-2 depósitos, poucas rodadas - tutoriais de boas-vindas, apoio KYC.
Anomaly-payments: trocas frequentes de carteiras/métodos, saltos geo - antifrode reforçado.

12) Modelos de artefatos

12. 1 Diretório de segmentos (fatia)

yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]

12. 2 Política de Serving

yaml serving:
assigner: "nearest_centroid"  # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25

12. 3 Passaporte do cluster (BI)

yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]

13) Mapa de trânsito de implementação

0-30 dias (MVP)

1. Junte as vitrines (7/28/90d), normalize, corte o PII.
2. Mini-Batch k-means em 5-9 clusters + HDBSCAN básico para «ruído».
3. Passaporte de cluster, online assigner, dashboard migração/deriva.
4. Dois experimentos de produtividade: óferas por segmento e taxa de canhão.

30 a 90 dias

1. GMM para acessórios soft; tipos mistos (k-prototypes).
2. Cruzamento automático a cada N dias, shadow → canary; alert para PSI/migração.
3. Interpretabilidade (mapas SHAP), diretório BI de segmentos e API para CRM/recomendador.

3-6 meses

1. Segmentos específicos geo/tenante; combinação com o gráfico de dispositivos/pagamentos.
2. Côrtes de longo prazo + matrizes de transição (Markov) para planejamento LTV.
3. Políticas RG/AML em segmentos; auditoria externa de privacidade/ética.

14) Anti-pattern

Escolha de k «de olho» e avaliação apenas silhouette sem verificação de negócios.
Misturar PII e fies comportamentais; k-anonimato nos relatórios.
Não há assigner on-line 'a segmentos' pendurados 'em BI sem efeito.
Reaproveitamento para temporada/promoção; Falta monitorização das migrações.
Usar clusters para marketing «agressivo» sem regras RG-gard.
Um conjunto de segmentos para todos os países/marcas sem características locais.

15) RACI

Data Platford (R): vitrines de fich, pipeline, monitoramento, registro de versões.
Data Science (R): seleção de algoritmo, k/métricas, interpretação.
Produt/CRM (A): ações por segmento, experiências.
Risk/RG (C): Políticas de restrição e HITL para segmentos «pesados».
Segurança/DPO (A/R): privacidade, tocenização, anonimato k.
BI (C): dashboards, diretórios, documentação.

16) Seções relacionadas

Meta segmentada, Sistemas de recomendação, Perfilação de jogadores, Redução de preconceito, Benchmarking performance, API analistas e métricas, MLOs: exploração de modelos, ética de dados e transparência.

Resultado

O clustering não é apenas um gráfico UMAP, mas uma ferramenta de produção: fichas limpas sem PII, métricas sustentáveis e «passaportes» compreensíveis de segmentos, online-assigner e ações em CRM/produto/RG. Com a revisão regular e o monitoramento da deriva, ela transforma o caos de comportamento em estratégias de crescimento, segurança e responsabilidade controladas.

Contact

Entrar em contacto

Contacte-nos para qualquer questão ou necessidade de apoio.Estamos sempre prontos para ajudar!

Iniciar integração

O Email é obrigatório. Telegram ou WhatsApp — opcionais.

O seu nome opcional
Email opcional
Assunto opcional
Mensagem opcional
Telegram opcional
@
Se indicar Telegram — responderemos também por lá.
WhatsApp opcional
Formato: +indicativo e número (ex.: +351XXXXXXXXX).

Ao clicar, concorda com o tratamento dos seus dados.