Análise de anomalias e correlações

1) Porquê isso iGaming

Ele vive em tempo real, com depósitos atrasados, um provedor de jogos específico, um fred a subir, um mix de tráfego a mudar. Preciso de disciplina que:

Descobre cedo desvios (antes do KPI e da receita caírem nos relatórios).
Distingue falhas de sazonalidade/promoções/torneios.
Encontra causas primárias (RCA) em vez de «tratamento de sintomas».
Cumpre privacidade e ética (RG/AML) sem distribuir PII.

2) Tipologia de anomalias

Ponto (ponto): pico/fracasso único (por exemplo, pike erros PSP).
Série (coletivo): sequência de valores atípicos (degradação prolongada).
Contextual: noite normal, dia anormal (dependendo do contexto: hora/país/canal).
Mudança de modo/tendência: nível, dispersão, sazonalidade mudaram drasticamente.
Estruturais: aumento de omissão/duplicação, schema draft.
Causa-efeito: a alteração do nó vizinho (PSP/provedor) «reverteu» a nossa linha.

3) Produção de dados e contexto

Calendário e sazonalidade: fins de semana/feriados/torneios/promoções → linhas básicas separadas.
Camadas de agregação: 1-min/5-min/hora, por país/marca/provedor/dispositivo.
Normalização: per-capita (por jogador/sessão), hora do dia, FX.
Fici tempo: rolling mean/std, EWMA, laje, dia da semana, «minutos para cut-off».
Qualidade: Filtrando os eventos/duplicados atrasados, corrigindo os erros timezone.

4) Métodos de detecção (simples a híbrido)

Estatísticas e filas de tempo

Robust z-score (mediana/IQR), EWMA, descomposição STL (trend/seasonal/remain).
CUSUM/ADWIN - Sensíveis a uma mudança média/dispersão.
Mudança-pontos (por exemplo, PELT/BOCPD): registramos pontos de mudança de modo.
Prophet/ETS - previsão + corredor de confiança → emissões fora do intervalo.

Dimensões/densidade

Isolation Forest, LOF, One-Class SVM - quando há muitos sinais (PSP, geo, canal, device).
Autoencoder (reconstrução/erro) para patterns complexos.

Fluxos online

Janelas deslizando, esquetes quantes, EWMA + histerese; contabilidade watermarks e late data.
«Dual-thresholds» (entrada/saída da anomalia) para suprir a drenagem.

Híbrido

Regras de domínio (SLO consciente) + estatísticas/ML → mais precisão e explicabilidade.

5) Detecção de qualidade: como medir

Precision/Recall/Fórmula sobre incidentes marcados.
ATTD (Average Time To Detect) e TTR (até a normalização).
Duration bias: multa por «piscar» (entradas/saídas frequentes da anomalia).
Ex-post métricas de negócios, «quantas rodadas/depósitos salvaram», «quantos P1 foram impedidos».
Statity: proporção de falsos alarmes reprimidos; «Noites calmas».

6) Correlação, causalidade e armadilhas

Correlação ≠ causalidade: o driver compartilhado (promoção/down externo) pode «guiar» as duas métricas.
Partial correlation (condicional), Mutual Informa (MI) - quando as ligações não são lineares.
Granger causality (causalidade temporária) - uma série ajuda a prever a outra.
DAG/causal discovery é uma hipótese de direção de influência.
Simpson's paradox: Os aparelhos mentem sem estrações (país/canal/dispositivo).
Leakage: Os sinais que contêm informações futuras oferecem razões falsas.

7) Root-Cause Analysis (RCA)

Gráficos de dependência: provedores de jogos → lobby → apostas → pagamentos/PSP → KPI.
O Scan mede, quem partiu? (país, marca, provedor, método de pagamento, OS).
Grupos contrastantes: onde a anomalia existe/não → risco relativo/odds ratio.
Shapley/Substância, para modelos multidimensionais de anomalias.
Cenários de «o quê»: desliga o segmento suspeito - o KPI está sendo restaurado?

8) Barulho e priorização

Histeresis, «3 das janelas 5 violadas» para confirmação.
Liminares dinâmicos: baseline £ k , quântil 5/95, perfis sazonais.
Um incidente no provedor A em vez de 300 alertas de jogos.
Consciência SLO: Só é alertante se o SLO/limiar empresarial for afetado.
Supressões: N alert em, no máximo, T minutos por conjunto de labels.

9) Linha de montagem online e offline

Online: Flink/Spark Streaming/CEP - janelas de minutos, watermarks, dedução, idempotidade.
Offline: Batestes para um ano de história, injecção de incidentes sintéticos, comparações de candidatos.
ModelOps: Versionização de regras/modelos (MAJOR/MENOR/PATCH), shadow/canary e rollback para regras.

10) Privacidade, ética, complacência

Zero-PII em fitas e alertas; tokens em vez de identificadores.
RG/AML: canais e acessibilidade individuais; redação de texto.
Bias: verifique a variação em dimensões sensíveis (país/método/dispositivo) - não transforme a anomalia em discriminação.
Legal Hold/DSAR: armazenamento de histórico de detecção/solução - WORM.

11) Mala de iGaming (modelos prontos)

Pagamentos/PSP

Detecção: 'sucess _ rate _ deposits _ 5m ↓' abaixo baseline _ 28d por 3g, confirmação de 3/5 janelas → P1.
RCA: corte por 'psp, country, method'; verificação de filas/retrações.

Provedores de jogos

Detecção: 'rounds _ per _ min' do provedor A <60% do rolling _ quantile (0. 1) por 28d → P1.
A ação é ocultar os jogos A, notificar o provedor, mudar de lobby.

RG

Detecção: 'high _ risk _ share' ↑ em> 3 p.p. por 10 min na marca B → P2.
RCA: campanhas/bónus, novos dispositivos, geo-mudança.

Antifrode

Detecção: 'chargeback _ rate _ 60m> + 3 E' new _ device _ share ' P1.
Ação: endurecer o mapeamento/limite de saída.

12) Artefatos e modelos

12. 1 regras YAML (online)

yaml rule_id: psp_success_drop severity: P1 source: stream:payments. metrics_1m baseline: {type: seasonal_quantile, period: P28D, quantile: 0. 1, by: [hour, dow, country, psp]}
detect:
type: ratio_below value: 0. 6 confirm: {breaches_required: 3, within: PT5M}
labels: {psp: "$psp", country: "$country"}
actions:
- route: pagerduty:payments
- soars: [{name: switch_psp, params: {backup: "PSP_B"}}]
privacy: {pii_in_payload: false}
version: 1. 4. 0

12. 2 Config offline-bahest

yaml dataset: payments_gold period: {from: "2025-07-01", to: "2025-10-31"}
inject_scenarios:
- type: level_shift target: success_rate where: {psp: "PSP_A", country: "EE"}
from: "2025-09-15T12:00Z"
delta: -0. 02 metrics: [precision, recall, f1, attd_sec]

12. 3 Passaporte RCA incidente

Incidente: drop rounds @ provider A

Período: 2025-11-01 18: 10-18: 35 (Europe/Kyiv)

Root-node: `games. engine. provider_A` (change-point @18:12)

Аффект: `lobby_clicks ↓`, `rounds_per_min ↓ 45%`, `GGR/min ↓ 28%`

Contrapostos: payments OK, PSP OK, FX/stats normais

Ações: hide tiles, contato do provedor, banner de status

Resultado: recuperação @ 18:34; perdas evitadas X

13) Métricas de sucesso de processo

Precision/Recall/Fórmula por P1/P2 incidentes (marcação por proprietários de domínios).
ATTD/MTTR em minutos (mediana/p90).
Noise↓: - X% de «falsas» ansiedades noturnas, ≤ Y alert/turno.
RCA-time: Mediana do tempo até a causa inicial.
Business saved: avaliação de depósitos/rodadas retidos.
Coverage: ≥ 95% das vias críticas sob vigilância.

14) Processos e RACI

Domain Owners (R) - regras/linhas básicas/sinalização de incidentes.
Data Platford/Observabilidade (R) - motor de detecção, armazenamento, SLO.
ML Lead (R) - modelos de anomalias, calibração, fairness.
SRE/SecOps (R) - integração com SOAR/PagerDuty, incidentes.
CDO/DPO (A) - Política de privacidade/ética, Zero-PII.
Produt/Finance (C) - liminares SLO e prioridades de negócios.

15) Mapa de trânsito de implementação

0-30 dias (MVP)

1. Caminhos críticos: payments, game _ rounds, freshness ingest.
2. Linhas básicas por relógio/dia e dimensões-chave (país/marca/psp/provedor).
3. Detectores simples: EWMA/robust z-score + histerese.
4. Canais de alertas e 3 runbook 'a (pagamentos/jogos/DQ).
5. Bacestes em 3-6 mes de história; marcação de incidentes.

30 a 90 dias

1. Mudança-pontos, seasonal quantiles, filas multimodais.
2. Isolation Forest/LOF para malas multidimensionais; modo shadow.
3. O grafo RCA das dependências e o atributo semiautomático.
4. Liminares SLO-conscientes; suppression/grouping; tíquetes automáticos.

3-6 meses

1. Champion-Challenger regras/modelos; liminares auto-sintonizados.
2. Integrações externas (provedores/PSP) com webhooks assinados.
3. Relatórios de alertas para MTTR/Receita; Sessão de higiene trimestral.
4. Experiências Causal para correlações controversas (A/B, Granger, variáveis de ferramentas).

16) Anti-pattern

O limite de «olho» é comum a todos os países/relógios/canais.
Ignorar a sazonalidade/acções → «tempestade» falsas alertas.
Sem batatas ou marcação de incidentes, não há otimização.
Perseguir correlações sem stratificação/partial corr → razões falsas.
Logi/alert com PII, capturas de tela em canais compartilhados.
Regras «eternas» sem revisão ou dono.

17) Seções relacionadas

Alertas de fluxo de dados, EPA, API Analistas e métricas, Auditoria e Versões, MLOps: Operação de modelos, Controle de acesso, Segurança e Criptografia, Políticas de armazenamento de dados, Redução do preconceito.

Resultado

A análise de anomalias e correlações não é «magia ML», mas sim um sistema de engenharia: contexto e sazonalidade corretos, híbrido de regras e modelos, métricas de qualidade rigorosas e RCA controlado. Em iGaming, esse sistema reduz a MTTR, protege a receita e mantém a confiança dos jogadores e reguladores - sem violações da privacidade.

Análise de anomalias e correlações

Dimensões/densidade

Fluxos online

Híbrido

Provedores de jogos

RG

Antifrode

Resultado

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos