Détection des anomalies
Détection d'anomalies
La détection d'anomalies (Anomaly Detection) est l'identification d'observations inhabituelles, de patterns ou de modifications de données qui s'écartent de la « norme » et peuvent signaler des pannes, des fraudes, des incidents de sécurité, des erreurs de données ou des événements commerciaux rares. Ci-dessous, un point de vue systémique : de la formulation des tâches à l'exploitation et à la gestion des alertes.
1) Types d'anomalies et mises en scène
Points (point anomalies) : observations uniques en dehors de la normale (sursaut de dépôts par utilisateur).
Contextuel : anomalies en fonction du contexte (charge élevée la nuit - ok, le jour - anomalie).
Collectif : un groupe de points communs dans une séquence inhabituelle (une série de petites transactions).
Structurel : changement de mode/distribution (changement de point ; nouvelle saisonnalité).
Anomalies de la qualité des données : sauts, doublons, scanners, dissynchronisation des horodateurs, capteurs « plats ».
- Surveillance : il y a des anomalies signalées (rares, coûteuses).
- Semi-superviseur (one-class) : nous enseignons la « norme », tout le reste est anormal.
- Insaisissable : nous cherchons « rare/lointain » sans marques.
2) Données et préparation
Limites de la norme : horizons et saisons (heure/jour/semaine), événements de calendrier, week-end, promotions.
Fichi : lagunes, statistiques glissantes (mean/median/EMA), caractéristiques quantiles, encodages des catégories, compteurs de rareté, agrégats par fenêtres 7/30/90.
Nettoyage : déduplication, correction des zones temporelles, alignement des fréquences, handling des passes (interpolation/forward-fill/modèles de récupération).
Standardisation/Robasterie : RobustScaler/Rang/Vinzorisation pour la résistance aux émissions.
Point-in-time correct : pas de fuites du futur lors de la génération de fiche.
3) Méthodes de détection
3. 1. Statistiques et règles
z-score/robast z (median, MAD), IQR/box-radeau, lissage exponentiel avec couloirs de confiance.
Cartes de contrôle (Shewhart, CUSUM, EWMA) : pour les processus de production et les métriques de diffusion.
Seuils quantiles (dynamiques par les fenêtres), seuils saisonniers-quantiles.
3. 2. Distances, densités, clusters
kNN distance, Local Outlier Factor (LOF) est une rareté locale.
DBSCAN/HDBSCAN sont des points de bruit en dehors des clusters.
PCA/Robust PCA - anomalies → erreur résiduelle élevée/statistiques SPE ; Hotelling’s T².
3. 3. Ensembles et arbres
Isolation Forest - isole les points rares par des chemins courts.
Randomized Thresholding/Bagging sur les règles de base - baselines rapides pour la prode.
3. 4. Reconstruction et probabilisme
Autoencoder/VAE (y compris LSTM/Transformer pour les séquences) : anomalie = erreur de reconstruction élevée.
Probabilistic forecasting (prédictions quantiles) : sortie au-delà des intervalles prédits - signal.
Les modèles bayésiens/flux de transformations normalisatrices sont une incertitude évidente.
3. 5. Séries chronologiques et changements de mode
ARIMA/ETS/Prophet/TBATS - prévision + écart.
Changement de point de détection : BOCPD, RuLSIF/critères de divergence, Pruned Exact Linear Time (PELT).
Profil matriciel/Discord discovery - Recherche des « sous-enquêtes les plus différentes ».
3. 6. Multidimensionnel et graphique
Multivariate TS: VAR, TCN/TFT, LSTM-VAE; corrélations croisées et intervalles de confiance conjoints.
Graphes : sous-sites/nœuds anormaux (par exemple dans le trafic réseau ou les chaînes de paiement).
4) Choix de la méthode : matrice pratique
5) Évaluation de la qualité pour les anomalies rares
Déséquilibre : Le ROC-ASC peut être trompeur ; orientez-vous vers PR-AUC, precision @ k, recall@FPR≤x %, F1, Matthews CC.
Métrique temporelle : Average Time To Detect (ATTD), proportion de « détections précoces ».
Stabilité : proportion de flapping (allumage/arrêt fréquent de l'alerte), longueur moyenne des périodes « silencieuses ».
Cost-based : matrice des coûts (faux positifs/faux négatifs), valeur des incidents évités.
Validation : split temporel, fenêtres out-of-time, split de groupe (par utilisateur/périphérique), back-test.
6) Stratégies de seuil et étalonnage
Seuils statiques : simples, mais cassant en saison.
Dynamique : per-segment/per-heure quantile, adaptable aux charges et aux « heures silencieuses ».
Percentile à la racine : 99. 5ème/99. 9e pour la haute precision ; vous pouvez faire un per-bucket par catégorie.
Étalonnage du scoring : isotonique/température pour les probabilités ; lissage des alertes (debounce, « N de M »).
Hystérésis : différents seuils d'entrée/sortie de l'état d'anomalie.
7) Interprétabilité et RCA (root cause analysis)
Globalement : importance des fiches (gain/permutation), charges PCA, profils de segments, contribution des composants à l'erreur de reconstruction.
Local : SHAP/LIME sur agrégats ou sur modèles auxiliaires.
Attribution par rangée : contribution de la tendance/saisonnalité/régresseurs (fêtes, campagnes).
Détail : « segment anormal → ficha anormal → objets anormaux ».
Causalité : difference-in-differences/contrefacts pour séparer l'effet marketing d'une « vraie » anomalie.
8) Production et MLOps
Serving : synchrone (faible latence, gRPC/REST) et asynchrone (batch/microbatch).
Fichestor : cohérence en ligne/hors ligne, point-in-time, SLA sur la génération de signes.
Versioning : modèles, seuils, schémas, configi ; stocker les artefacts et les « moulures » de données.
Alerting : priorisation (P1-P3), déduplication, suppression de fenêtre (nuit/vacances), auto-fermeture à la normalisation.
Fail-safe : dégradation automatique aux règles/détecteurs simples, temporisation, limitation QPS.
Shadow/Canary : comparaison du nouveau détecteur avec le détecteur actuel, offline- →shadow - →canary - →full.
Feedback loop : interface de balisage alert, releyling semi-automatique et dotrening.
9) Baisse de l'alert-fatigue
Bandling : regroupez les alertes proches en un seul incident.
SLO sur alerts : objectif sur la precision/nombre d'alerts par quart de travail.
Politique d'escalade : priorité croissante à la durée/échelle.
Limite de taux : pas plus de N alerts par fenêtre ; « période tranquille » après le déclenchement.
Circuit à deux niveaux : détecteur grossier bon marché (haute récupération) + vérificateur de précision coûteux.
10) Chèque de mise en œuvre
- Les types d'anomalies et la valeur commerciale de leur détection ont été identifiés
- Prise en compte de la saisonnalité/calendrier ; caractéristiques contextuelles construites
- Méthode choisie : Baseline rapide + potentiellement plus complexe
- Stratégie de seuil (dynamique/per-segment) et hystérésis
- Métriques : PR-AUC, ATTD, cost-metrics, rapports par segment
- Plan d'interprétation et ACR ; dashboards Drill-down
- Alert-politics, suppression, déduplication
- Loger le scoring, la version, la fiche d'entrée ; replay back tests
- Procédures de retrainage et contrôle de la dérive (PSI/JS-bou)
- Documentation : contrats de données, SLO, runibooks
11) Modèles types
« Prédiction + déviation » : nous enseignons la prédiction probabiliste (quantifiée de 5 à 95 %), signal à la sortie par intervalle.
« Reconstructeur » : Autoencoder/Robust PCA → alert sur une erreur de reconstruction élevée.
« Isolateur » : Isolation Forest pour tabulaires/multiphyches ; rapide, peu de réglages.
« Rareté locale » : LOF/kNN-distance est bon pour les segments de densité différente.
« Changement de mode » : BOCPD/PELT + validation des causes (sortie, promotion, incident).
« En deux étapes » : filtre rule-based → vérificateur ML (réduction des faux).
12) Surveillance du détecteur
Qualité : PR-AUC/precision @ k/ATTD dans la fenêtre glissante, proportion d'alertes confirmées.
Données : omissions, retards, cardinalité inhabituelle, sursaut d'événements.
Dérive : PSI/KL/JS pour les tiges clés et la racle, dérive de la cible (s'il y a des étiquettes).
Opération : délai d'infériorité, QPS, tolérance aux pannes, proportion de dégradations.
13) Marquage et apprentissage actif
Stratégies de marquage : top-k par score, diversité par cluster, cas « borderline ».
Synthétique : injections d'anomalies (contrôlées) pour les tests de stress.
Apprentissage actif : nous distribuons des étiquettes aux analystes pour les incidents controversés.
Weak supervision : règles/heuristiques comme étiquettes faibles + agrégateurs de raccourcis.
14) Sécurité, éthique, conformité
Vie privée : minimisation des champs, pseudonymisation, accès par rôle.
Transparence : explication des causes de l'alerte et des actions d'automatisation.
Audit : journal des solutions, reproductibilité des seuils/versions/données.
Équité : contrôle bias par segments (en particulier pour l'antifrode/scoring).
Mini-glossaire
Changement de point : moment de changement de distribution/mode de la série.
PR-AUC : surface sous la courbe precision-recall, résistante aux rares positifs.
ISP : indice de stabilité de la population, métrique de la dérive des distributions.
Profil matriciel/Discord : un moyen de trouver la sous-séquence « la plus différente ».
Résultat
Une boucle efficace de détection des anomalies n'est pas un algorithme « intelligent », mais une combinaison : contexte correct (saisonnalité/calendrier), signes timides, politique de seuil réfléchie interprétée par RCA, opération rigide (SLO/alert policy) et cycle d'amélioration par rétroaction. Cette approche réduit les fausses alarmes et augmente les avantages réels des anomalies - de la détection précoce des pannes à la prévention des pertes.