Detecção de anomalias

A detecção de anomalias é uma detecção de observações extraordinárias, patterns ou alterações de dados que se desviam da «normalidade» e podem indicar falhas, fraudes, incidentes de segurança, erros de dados ou eventos de negócios raros. A seguir, uma visão de sistema, desde a formulação de tarefas até à operação e controle de alertas.

1) Tipos de anomalias e produção

Pontos (point anatalies): observações individuais fora do normal (aumento de depósito por usuário).
Contextuais: desvios de contexto (alta carga à noite - ok, dia - anomalia).
Coletivo: grupo de pontos normais em uma sequência incomum (uma série de transações menores).
Estruturais: mudança de modo/distribuição (mudar-point; nova sazonalidade).
Anomalias de qualidade de dados: omissões, duplicados, encostas, rasconação de marcas de tempo, sensores «planos».

Modos de treinamento:

Supervisor: Há anomalias marcadas (raramente, caro).
Semi-supervisão (one-class): Treinando «normalidade», tudo o resto é anormal.
Pouco confiável, procurando «raro/remoto» sem marcas.

2) Dados e preparação

Limites de normalidade: horizontes e sazonalidade (hora/dia/semana), eventos de calendário, fins de semana, promoções.
Fichos: Lagas, estatísticas deslizantes (mean/median/EMA), sinais de quântil, encodings de categorias, contadores de raridade, equipamentos por janelas 7/30/90.
Limpeza: Deduplicação, correção de áreas de tempo, alinhamento de frequência, handling de omissões (interpolação/forward-fill/modelos de recuperação).
Normalização/Robasticidade: RobustEscaler/classificação/vinzorização para resistência às emissões.
Ponto-in-time correto: sem vazamentos de futuro na geração de fic.

3) Métodos de detecção

3. 1. Estatísticas e regras

z-score/robasta z (median, MAD), IQR/boxe, suavização exponencial com corredores de confiança.
Cartões de controle (Shewhart, CUSUM, EWMA): para processos de produção e métricas de streaming.
Liminares de quântil (dinâmicos pelas janelas), liminares sazonais.

3. 2. Distância, densidade, cluster

O LOF (Local Outler Factor) é uma raridade local.
DBSCAN/HDBSCAN - Pontos de ruído fora dos clusters.
PCA/Robust PCA - anomalias → alto erro residual/estatísticas SPE; Hotelling’s T².

3. 3. Conjuntos e árvores

Isolation Forest - Isola pontos raros por caminhos curtos.
Randomized Thresholding/Bagging em regras básicas - Baslines rápidos para a proda.

3. 4. Reconstrução e prováveis

Autoencoder/VAE (incluindo LSTM/Transformer para sequências): anomalia = alto erro de reconstrução.
Propabilistic forecasting (quântil): saída dos intervalos previstos - sinal.
Os modelos/fluxos de transformação da Baiesa são claramente incertezas.

3. 5. Filas temporárias e mudanças de modo

ARIMA/ETS/Prophet/TBATS - previsão + desvio.
Mudança-point detation: BOCPD, RuLSIF/Critérios de divergência, Pruned Exact Linear Time (PELT).
Matrix Profile/Discord discovery - Pesquisando «as subprocurações mais diferentes».

3. 6. Dimensões e gráficos

Multivariate TS: VAR, TCN/TFT, LSTM-VAE; correlações cruzadas e intervalos de confiança conjuntos.
Gráficos: subscrições/nódulos anormais (por exemplo, em tráfego de rede ou cadeias de pagamento).

4) Seleção do método: matriz prática

Cenário	Dados	Recomendação
Métricas de venda, telemetria	Fluxo, sazonalidade	EWMA/CUSUM + corredores quantes; depois Isolation Forest como segunda camada
Frod/transações	Placa de desequilíbrio	LOF/Isolation Forest como um beisline → Autoencoder/VAE; adicionar regras de domínio
Distribuição/mercado	Filas diárias	Prophet/TBATS + intervalos de quântil; mudar-point para deslocamentos
Qualidade dos dados	Logs crus	Regras de qualidade + estatísticas; alertas em circuitos/NULL/duplicados
Fluxo de eventos	Real time	Versões online CUSUM/EWMA + modelos one-class leves; limite de atraso

5) Avaliação de qualidade para anomalias raras

Desequilíbrio: O ROC-AUC pode enganar; orientem-se para PR-AUC, precisão @ k, recall@FPR≤x%, Fórmula, Mathews CC.
Métrica temporal: Average Time To Detect (ATTD), proporção de «detecções iniciais».
Estabilidade: proporção de flapping (frequentes ativações/desligamento de alert), comprimento médio de períodos silenciosos.
Costa-based: matriz de custos (falsos/falsos), valor de incidentes evitados.
Validação: slits temporários, janelas out-of-time, slits de grupo (por usuário/dispositivo), testes de back.

6) Estratégias de limite e calibragem

Liminares estáticos: simples, mas quebrados na sazonalidade.
Dinâmicas: per-segment/per-hour quanta, adaptam-se às cargas e «relógios silenciosos».
O Percentil é a corda 99. 5/99. 9º para high-precision; você pode fazer per-bucket por categoria.
Calibragem do escrutínio: isotonic/temperatura para probabilidades; suavização de alertas (debounce, «N de M»).
Histeresis: liminares diferentes para entrada/saída da anomalia.

7) Interpretabilidade e RCA (root causa analisis)

Globalmente: importância do fich (gain/permutation), carga PCA, perfis de segmentos, contribuição de componentes para o erro de reconstrução.
Local: SHAP/LIME em córtex ou em modelos de suporte.
Atribuição por fila: contribuição de tendência/sazonalidade/regravação (feriados, campanhas).
Detalhe: «Segmento anormal → fichas anormais → objetos anormais».
Causalidade: Diference-in-correspondence/contrafacção para separar o efeito de marketing da anomalia «real».

8) Produção e MLOps

Serving: sincronizado (baixa retenção, gRPC/REST) e asinhrônico (batch/microatch).
Fichestor: coerência online/offline, point-in-time, SLA para geração de sinais.
Versionização: modelos, liminares, circuitos, configs; armazenem artefactos e moldes de dados.
Alerting: priorização (P1-P3), dedução, supressão de janela (noite/feriado), encerramento automático durante a normalização.
Fail-safe: degradação automática de regras/detectores simples, temporizadores, limitação de QPS.
Shadow/Canary: compara o novo detector com o detetor atual, offline- →shadow - →canary - →full.
Feedback loop: interface de sinalização de alertas, relaybling semi-automático e tocador.

9) Redução alert-fatiguue

Bandling: Agrupe os próximos do tempo/segmento da alerta em um único incidente.
SLO em alertas: alvo de precisão/número de alertas por turno.
Escalation policy: crescimento da prioridade de duração/escala.
Rate limiting: no máximo N alerts por janela; «Período Silencioso» após a activação.
Esquema de dois níveis: detector bruto barato (recall alto) + verificador de precisão caro.

10) Folha de cheque de implementação

Definidos os tipos de anomalias e o valor de negócio de detecção
Levando em conta a sazonalidade/calendário; sinais contextuais construídos
Método selecionado: Basline rápido + potencialmente mais complexo
Estratégia liminar (dinâmica/para-segmentos) e histerese
Métricas: PR-AUC, ATTD, gas-metrics, relatórios de segmentos
Plano de interpretação e RCA; dashboards Drill-down
Políticas alert, supressão, dedução
Logar o escrutínio, a versão, as fichas de entrada; réplicas de testes de back
Procedimentos de retraining e controle da deriva (PSI/JS-dave)
Documentação: contratos de dados, SLO, runibuki

11) Pattern típicos

«Previsão + Desvio»: Treinamos a previsão de probabilidade (Quantli 5-95%), o sinal ao sair do intervalo.
Reconstruidor: Autoencoder/Robust PCA → alert de alta recepção de erro.
«Isolador»: Isolation Forest para tabelas/multiplic; depressa, poucas configurações.
«Raridade local»: LOF/kNN-distância é bom para segmentos com densidades diferentes.
«Mudança de modo»: BOCPD/PELT + validação de razões (lançamento, promoção, incidente).
«Em duas etapas»: filtro rule-based → verificador ML (redução de falsos).

12) Monitoramento do detector

Qualidade: PR-AUC/precisão @ k/ATTD na janela deslizante, proporção de alertas confirmadas.
Dados: omissões, lajes, cardealidade incomum, aparições de eventos.
À deriva: PSI/KL/JS em fichas e escores essenciais, à deriva de destino (se houver marcas).
Operação: atraso na inferência, QPS, resistência a falhas, proporção de degradação.

13) Sinalização e treinamento ativo

As estratégias de sinalização são top-k, variedade de clusters, malas de borda.
Sintética, injeções de anomalias (controladas) para testes de stress.
Actividade learning: Questionamos as marcas dos analistas para os incidentes controversos.
Weak supervision: regras/evristas como rótulos fracos + agregadores de rótulos.

14) Segurança, ética, complacência

Privacidade: minimização de campos, pseudônimo, acesso a papéis.
Transparência: Explicabilidade das causas do alert e da automação.
Auditoria: registro de soluções, reprodução de liminares/versões/dados.
Justiça: controle bias por segmento (especialmente para antifrode/escrutínio).

Mini-glossário

Mudar-point: momento da mudança de distribuição/modo de série.
PR-AUC: Área abaixo da curva precisão-recall, resistente a raros positivos.
PSI: Índice de Estabilidade da População, Métrica à Deriva da Distribuição.
Matrix Profile/Discord: Uma forma de encontrar a subprefeitura mais diferente.

Resultado

Um padrão eficaz de detecção de anomalias não é um algoritmo inteligente, mas uma combinação: contexto correto (sazonalidade/calendário), sinais robásticos, políticas de liminar elaboradas interpretadas pela RCA, operações rígidas (SLO/alert policy) e um ciclo de melhorias via feedback. Esta abordagem reduz a falsa ansiedade e aumenta os benefícios reais das anomalias, desde a detecção precoce de falhas até a prevenção de perdas.

Detecção de anomalias