Rilevamento anomalie
Rilevamento anomalie
Il rilevamento delle anomalie (Anataly Detection) è l'individuazione di avvistamenti, pattern o cambiamenti di dati insoliti che si allontanano dalla normalità e possono segnalare guasti, frodi, incidenti di sicurezza, errori di dati o eventi aziendali rari. Di seguito è riportato uno sguardo di sistema, dalla formulazione delle attività all'utilizzo e alla gestione degli alert.
1) Tipi di anomalie e produzione
Punti (point anatalies) - Osservazioni singole al di fuori della norma (aumento dei depositi per utente).
Contestuale: deviazioni in base al contesto (alto carico di notte - ok, giorno - anomalia).
Gruppo di punti comuni in una sequenza insolita (serie di piccole transazioni).
Struttura - Cambia modalità/distribuzione (change-point; nuova stagionalità).
Anomalie di qualità dei dati: omissioni, duplicati, pendenze, risincronizzazione delle etichette temporali, sensori «piatti».
- C'è un'anomalia segnata (raramente, costosa).
- Semi-supervisione (one-class): insegniamo la normalità, tutto il resto è anomalo.
- Non è affidabile, cerchiamo «raro o remoto» senza etichette.
2) Dati e preparazione
Limiti normali: orizzonti e stagionalità (ore/giorno/settimana), eventi di calendario, fine settimana, promozioni.
Fici: laghi, statistiche scorrevoli (mean/median/EMA), segni quantilici, encoding di categoria, contatori di rarità, aggregati alle finestre 7/30/90.
Pulizia: deduplicazione, correzione delle zone temporali, allineamento della frequenza, handling delle omissioni (interpolazione/forward-fill/modelli di ripristino).
Standardizzazione/robasticità: RobustScaler/range/vinzorizzazione per la resistenza alle emissioni.
Point-in-time correttezza: nessuna fuoriuscita futura durante la generazione di Fich.
3) Metodi di rilevamento
3. 1. Statistiche e regole
z-score/robasta z (median, MAD), IQR/box-plot, alleggerimento esponenziale con corridoi di fiducia.
Mappe di controllo (Shewhart, CUSUM, EWMA) - Per i processi di produzione e le metriche di flusso.
Soglie quantiliche (dinamiche secondo le finestre), soglie stagionali-quantilistiche.
3. 2. Distanze, densità, cluster
, Locale Outler Factor (LOF) - Rarità locale.
DBSCAN/HDBSCAN sono punti acustici esterni ai cluster.
PCA/Robust PCA - anomalie, alto errore residuo/statistiche SPE; Hotelling’s T².
3. 3. Imballaggi e alberi
Isolation Forest - isola i punti rari con percorsi brevi.
Randomized Thresholding/Bagging sulle regole di base - basline veloci per il prode.
3. 4. Ricostruzione e probabilità
Autoencoder/VAE (incluso LSTM/Trasformer per le sequenze): anomalia = grave errore di ricostruzione.
Probabilistic forecasting (molteplici) - Esci oltre gli intervalli previsti - segnale.
I modelli di Bayes/flussi di normalizzazione sono una chiara incertezza.
3. 5. Righe temporanee e cambi di modalità
ARIA/ETS/Prophet/TBATS - previsione + deviazione.
Change-point detection: BOCPD, RuLSIF/Criteri di divergenza, Pruned Exact Linear Time (PELT).
Matrix Profile/Discord discovery - Cerca «le sottoscrizioni più diverse».
3. 6. Multi-dimensioni e grafica
Multivariate TS: VAR, TCN/TFT, LSTM-VAE; correlazioni incrociate e intervalli di fiducia congiunti.
Grafici: sottoscrizioni/nodi anomale (ad esempio, nel traffico di rete o nelle catene di pagamento).
4) Selezione metodo: matrice pratica
5) Valutazione qualità per anomalie rare
Squilibrio: ROC-AUC può essere fuorviante; concentrati su PR-AUC, precisione @ k, recall@FPR≤x%, F1, Mathews CC.
Metrica temporale: Average Time To Detect (ATTD), quota di rilevamento precoce.
Stabilità: quota di flapping (frequenti accensione/spegnimento dell'alert), lunghezza media dei periodi «silenziosi».
Cost-based: la matrice dei costi (falso/falso), il valore degli incidenti evitati.
Convalida: split temporali, finestre out-of-time, split di gruppo (per utente/dispositivo), back-test.
6) Strategie di soglia e calibrazione
Le soglie statiche sono semplici, ma si rompono con la stagionalità.
Dinamiche: per-segment/per-hour quantità, adattabili a carichi di lavoro e orologi silenziosi.
Percentile di scorrimento: 99. 5/99. Nono per l'high-precision è possibile fare per-bucket per categoria.
Calibrazione dello screening: isotonic/temperature per le probabilità; antialert (debounce, «N da M»).
Isteresi: diverse soglie di ingresso/uscita dallo stato di anomalia.
7) Interpretabilità e RCA (root cause analysis)
Globale: l'importanza del Fic (gain/permutation), il carico PCA, i profili dei segmenti, il contributo dei componenti all'errore di ricostruzione.
Locale: SHAP/LIME su scali o modelli di supporto.
Assegnazione per fila: contributo trend/stagionalità/regressori (vacanze, campagne).
Dettaglio: «Segmento anomalo, Fic anomalo, oggetti anomali».
Causalità: difference-in-differences/contraffazione per separare l'effetto di marketing da un'anomalia «vera».
8) Produzione e MLOs
Cerving: sincrono (ritardo basso, gRPC/REST) e asincrona (batch/microbatch).
Fichestor: coerenza online/offline, point-in-time, SLA per la generazione dei segni.
Versioning: modelli, soglie, schemi, configi; Conservare gli artefatti e i calci di dati.
Alerting: priorità (P1-P3), deduplicazione, suppressione della finestra (notte/festività), chiusura automatica alla normalizzazione.
Fail-safe: degrado automatico alle regole/rilevatori semplici, timeout, limitazione QPS.
Shadow/Canary: confronta il nuovo rilevatore con il rilevatore attuale, offline- →shadow- →canary- →full.
Feedback loop - Interfaccia di contrassegno degli alert, relaybling mezzo automatico e toccatura.
9) Riduzione alert-fatige
Bandling, raggruppa gli alert ravvicinati in un singolo incidente.
SLO sugli alert: obiettivo di precisione/numero di alert al turno.
Escalation policy: crescita della priorità nella durata/scala.
Rate limiting: non più di N alert per finestra; «Periodo silenzioso» dopo l'attivazione.
Schema a due livelli: rilevatore ruvido a basso costo (alto recall) + controllore di precisione costoso.
10) Assegno foglio di implementazione
- Identificazione dei tipi di anomalie e del valore aziendale di rilevamento
- Considerate stagionalità/calendario; segni contestuali costruiti
- Il metodo selezionato è: baseline veloce + potenzialmente più complessa
- Strategia soglia (dinamica/per-segmentati) e isteresi
- Metriche: PR-AUC, ATTD, cost-metrics, report di segmenti
- Piano di interpretazione e RCA; dashboard Drill-down
- Regole alert, supplence, deduplicazione
- Loging dello screening, della versione, delle finestre di input; repliche di back test
- Procedure di retraining e controllo della deriva (PSI/JS-dave)
- Documentazione: contratti dati, SLO, runibuki
11) Pattern tipici
«Previsione + deviazione»: apprendiamo la previsione probabile (Quantili 5-95%), il segnale al passo con l'intervallo.
«Ricostruzionista»: Autoencoder/Robust PCA → un alert di alto ritorno.
Isolante: Isolation Forest per tabelle/multifiche; veloce, poche impostazioni.
«Rarità locale»: LOF/kNN-distanza è buono per i segmenti con densità diverse.
«Cambio di modalità»: BOCPD/PELT + convalida delle cause (rilascio, promozione, incidente).
«In due fasi»: filtro rule-based per il controllo ML (riduzione dei falsi).
12) Monitoraggio del rilevatore
Qualità: PR-AUC/precisione @ k/ATTD nella finestra di scorrimento, percentuale di alert confermati.
I dati sono i pass, i laghi, l'insolita cardinalità, i picchi di eventi.
Deriva: PSI/KL/JS in base a file chiave e scorie, deriva di destinazione (se ci sono etichette).
Operatore: ritardo dell'interferenza, QPS, tolleranza, percentuale di degrado.
13) Mappatura e apprendimento attivo
Le strategie di mappatura sono top-k di scorrimento, varietà di cluster, valigette di bordo.
Sintetica: iniezioni di anomalie (controllate) per gli stress test.
Active learning: stiamo interrogando gli analisti per gli incidenti controversi.
Weak supervisione: regole/euristici come etichette deboli + aggregatori di collegamenti.
14) Sicurezza, etica, compilazione
Privacy: minimizzazione dei campi, alias, accesso ai ruoli.
Trasparenza: spiegazione delle cause dell'alert e delle attività di automazione.
Controllo: registro delle soluzioni, riproducibilità delle soglie/versioni/dati.
Equità: controllo bias per segmenti (specialmente per antifrode/screening).
Miniglossario
Change point - Il momento in cui viene cambiata la distribuzione/modalità della serie.
PR-AUC - Area sotto la curva precisione-recall, resistente a rari positivi.
PSI: indice di stabilità della popolazione, metrica della deriva della distribuzione.
Matrix Profile/Discord è un modo per trovare la sottospecie «più diversa».
Totale
Un tracciato efficace di rilevamento delle anomalie non è un algoritmo «intelligente», ma una combinazione: contesto corretto (stagionale/calendario), segni robastici, una politica di soglia elaborata interpretata da RCA, un'operazione rigida (SLO/alert policy) e un ciclo di miglioramenti attraverso il feedback. Questo approccio riduce i falsi allarmi e aumenta i benefici reali derivanti dalle anomalie, dal rilevamento precoce dei guasti alla prevenzione delle perdite.