Análise de anomalias e correlações
1) Porquê isso iGaming
Ele vive em tempo real, com depósitos atrasados, um provedor de jogos específico, um fred a subir, um mix de tráfego a mudar. Preciso de disciplina que:- Descobre cedo desvios (antes do KPI e da receita caírem nos relatórios).
- Distingue falhas de sazonalidade/promoções/torneios.
- Encontra causas primárias (RCA) em vez de «tratamento de sintomas».
- Cumpre privacidade e ética (RG/AML) sem distribuir PII.
2) Tipologia de anomalias
Ponto (ponto): pico/fracasso único (por exemplo, pike erros PSP).
Série (coletivo): sequência de valores atípicos (degradação prolongada).
Contextual: noite normal, dia anormal (dependendo do contexto: hora/país/canal).
Mudança de modo/tendência: nível, dispersão, sazonalidade mudaram drasticamente.
Estruturais: aumento de omissão/duplicação, schema draft.
Causa-efeito: a alteração do nó vizinho (PSP/provedor) «reverteu» a nossa linha.
3) Produção de dados e contexto
Calendário e sazonalidade: fins de semana/feriados/torneios/promoções → linhas básicas separadas.
Camadas de agregação: 1-min/5-min/hora, por país/marca/provedor/dispositivo.
Normalização: per-capita (por jogador/sessão), hora do dia, FX.
Fici tempo: rolling mean/std, EWMA, laje, dia da semana, «minutos para cut-off».
Qualidade: Filtrando os eventos/duplicados atrasados, corrigindo os erros timezone.
4) Métodos de detecção (simples a híbrido)
Estatísticas e filas de tempo
Robust z-score (mediana/IQR), EWMA, descomposição STL (trend/seasonal/remain).
CUSUM/ADWIN - Sensíveis a uma mudança média/dispersão.
Mudança-pontos (por exemplo, PELT/BOCPD): registramos pontos de mudança de modo.
Prophet/ETS - previsão + corredor de confiança → emissões fora do intervalo.
Dimensões/densidade
Isolation Forest, LOF, One-Class SVM - quando há muitos sinais (PSP, geo, canal, device).
Autoencoder (reconstrução/erro) para patterns complexos.
Fluxos online
Janelas deslizando, esquetes quantes, EWMA + histerese; contabilidade watermarks e late data.
«Dual-thresholds» (entrada/saída da anomalia) para suprir a drenagem.
Híbrido
Regras de domínio (SLO consciente) + estatísticas/ML → mais precisão e explicabilidade.
5) Detecção de qualidade: como medir
Precision/Recall/Fórmula sobre incidentes marcados.
ATTD (Average Time To Detect) e TTR (até a normalização).
Duration bias: multa por «piscar» (entradas/saídas frequentes da anomalia).
Ex-post métricas de negócios, «quantas rodadas/depósitos salvaram», «quantos P1 foram impedidos».
Statity: proporção de falsos alarmes reprimidos; «Noites calmas».
6) Correlação, causalidade e armadilhas
Correlação ≠ causalidade: o driver compartilhado (promoção/down externo) pode «guiar» as duas métricas.
Partial correlation (condicional), Mutual Informa (MI) - quando as ligações não são lineares.
Granger causality (causalidade temporária) - uma série ajuda a prever a outra.
DAG/causal discovery é uma hipótese de direção de influência.
Simpson's paradox: Os aparelhos mentem sem estrações (país/canal/dispositivo).
Leakage: Os sinais que contêm informações futuras oferecem razões falsas.
7) Root-Cause Analysis (RCA)
Gráficos de dependência: provedores de jogos → lobby → apostas → pagamentos/PSP → KPI.
O Scan mede, quem partiu? (país, marca, provedor, método de pagamento, OS).
Grupos contrastantes: onde a anomalia existe/não → risco relativo/odds ratio.
Shapley/Substância, para modelos multidimensionais de anomalias.
Cenários de «o quê»: desliga o segmento suspeito - o KPI está sendo restaurado?
8) Barulho e priorização
Histeresis, «3 das janelas 5 violadas» para confirmação.
Liminares dinâmicos: baseline £ k , quântil 5/95, perfis sazonais.
Um incidente no provedor A em vez de 300 alertas de jogos.
Consciência SLO: Só é alertante se o SLO/limiar empresarial for afetado.
Supressões: N alert em, no máximo, T minutos por conjunto de labels.
9) Linha de montagem online e offline
Online: Flink/Spark Streaming/CEP - janelas de minutos, watermarks, dedução, idempotidade.
Offline: Batestes para um ano de história, injecção de incidentes sintéticos, comparações de candidatos.
ModelOps: Versionização de regras/modelos (MAJOR/MENOR/PATCH), shadow/canary e rollback para regras.
10) Privacidade, ética, complacência
Zero-PII em fitas e alertas; tokens em vez de identificadores.
RG/AML: canais e acessibilidade individuais; redação de texto.
Bias: verifique a variação em dimensões sensíveis (país/método/dispositivo) - não transforme a anomalia em discriminação.
Legal Hold/DSAR: armazenamento de histórico de detecção/solução - WORM.
11) Mala de iGaming (modelos prontos)
Pagamentos/PSP
Detecção: 'sucess _ rate _ deposits _ 5m ↓' abaixo baseline _ 28d por 3g, confirmação de 3/5 janelas → P1.
RCA: corte por 'psp, country, method'; verificação de filas/retrações.
Provedores de jogos
Detecção: 'rounds _ per _ min' do provedor A <60% do rolling _ quantile (0. 1) por 28d → P1.
A ação é ocultar os jogos A, notificar o provedor, mudar de lobby.
RG
Detecção: 'high _ risk _ share' ↑ em> 3 p.p. por 10 min na marca B → P2.
RCA: campanhas/bónus, novos dispositivos, geo-mudança.
Antifrode
Detecção: 'chargeback _ rate _ 60m> + 3 E' new _ device _ share ' P1.
Ação: endurecer o mapeamento/limite de saída.
12) Artefatos e modelos
12. 1 regras YAML (online)
yaml rule_id: psp_success_drop severity: P1 source: stream:payments. metrics_1m baseline: {type: seasonal_quantile, period: P28D, quantile: 0. 1, by: [hour, dow, country, psp]}
detect:
type: ratio_below value: 0. 6 confirm: {breaches_required: 3, within: PT5M}
labels: {psp: "$psp", country: "$country"}
actions:
- route: pagerduty:payments
- soars: [{name: switch_psp, params: {backup: "PSP_B"}}]
privacy: {pii_in_payload: false}
version: 1. 4. 0
12. 2 Config offline-bahest
yaml dataset: payments_gold period: {from: "2025-07-01", to: "2025-10-31"}
inject_scenarios:
- type: level_shift target: success_rate where: {psp: "PSP_A", country: "EE"}
from: "2025-09-15T12:00Z"
delta: -0. 02 metrics: [precision, recall, f1, attd_sec]
12. 3 Passaporte RCA incidente
Incidente: drop rounds @ provider A
Período: 2025-11-01 18: 10-18: 35 (Europe/Kyiv)
Root-node: `games. engine. provider_A` (change-point @18:12)
Аффект: `lobby_clicks ↓`, `rounds_per_min ↓ 45%`, `GGR/min ↓ 28%`
Contrapostos: payments OK, PSP OK, FX/stats normais
Ações: hide tiles, contato do provedor, banner de status
Resultado: recuperação @ 18:34; perdas evitadas X
13) Métricas de sucesso de processo
Precision/Recall/Fórmula por P1/P2 incidentes (marcação por proprietários de domínios).
ATTD/MTTR em minutos (mediana/p90).
Noise↓: - X% de «falsas» ansiedades noturnas, ≤ Y alert/turno.
RCA-time: Mediana do tempo até a causa inicial.
Business saved: avaliação de depósitos/rodadas retidos.
Coverage: ≥ 95% das vias críticas sob vigilância.
14) Processos e RACI
Domain Owners (R) - regras/linhas básicas/sinalização de incidentes.
Data Platford/Observabilidade (R) - motor de detecção, armazenamento, SLO.
ML Lead (R) - modelos de anomalias, calibração, fairness.
SRE/SecOps (R) - integração com SOAR/PagerDuty, incidentes.
CDO/DPO (A) - Política de privacidade/ética, Zero-PII.
Produt/Finance (C) - liminares SLO e prioridades de negócios.
15) Mapa de trânsito de implementação
0-30 dias (MVP)
1. Caminhos críticos: payments, game _ rounds, freshness ingest.
2. Linhas básicas por relógio/dia e dimensões-chave (país/marca/psp/provedor).
3. Detectores simples: EWMA/robust z-score + histerese.
4. Canais de alertas e 3 runbook 'a (pagamentos/jogos/DQ).
5. Bacestes em 3-6 mes de história; marcação de incidentes.
30 a 90 dias
1. Mudança-pontos, seasonal quantiles, filas multimodais.
2. Isolation Forest/LOF para malas multidimensionais; modo shadow.
3. O grafo RCA das dependências e o atributo semiautomático.
4. Liminares SLO-conscientes; suppression/grouping; tíquetes automáticos.
3-6 meses
1. Champion-Challenger regras/modelos; liminares auto-sintonizados.
2. Integrações externas (provedores/PSP) com webhooks assinados.
3. Relatórios de alertas para MTTR/Receita; Sessão de higiene trimestral.
4. Experiências Causal para correlações controversas (A/B, Granger, variáveis de ferramentas).
16) Anti-pattern
O limite de «olho» é comum a todos os países/relógios/canais.
Ignorar a sazonalidade/acções → «tempestade» falsas alertas.
Sem batatas ou marcação de incidentes, não há otimização.
Perseguir correlações sem stratificação/partial corr → razões falsas.
Logi/alert com PII, capturas de tela em canais compartilhados.
Regras «eternas» sem revisão ou dono.
17) Seções relacionadas
Alertas de fluxo de dados, EPA, API Analistas e métricas, Auditoria e Versões, MLOps: Operação de modelos, Controle de acesso, Segurança e Criptografia, Políticas de armazenamento de dados, Redução do preconceito.
Resultado
A análise de anomalias e correlações não é «magia ML», mas sim um sistema de engenharia: contexto e sazonalidade corretos, híbrido de regras e modelos, métricas de qualidade rigorosas e RCA controlado. Em iGaming, esse sistema reduz a MTTR, protege a receita e mantém a confiança dos jogadores e reguladores - sem violações da privacidade.