異常検知
異常検知
異常検出とは「、標準」から逸脱し、障害、詐欺、セキュリティインシデント、データエラー、またはまれなビジネスイベントを知らせることができるデータの異常な観察、パターン、または変更の識別です。以下は体系的なビューです:タスクの策定からアラートの操作と管理まで。
1)異常とステートメントの種類
ポイント異常:標準外の単一の観測(1人のユーザーの預金の急増)。
コンテキスト:コンテキストに敏感な偏差(夜間の高負荷-OK、日中-異常)。
Collective:異常なシーケンス(小さなトランザクションの一連)の普通のポイントのグループ。
構造:変更点;新しい季節性)。
データ品質の異常:省略、重複、接着剤、タイムスタンプのずれ、「フラット」センサー。
- 監督:マークされた異常(まれな、高価な)があります。
- 半監督(ワンクラス):私たちは「規範」を教え、それ以外はすべて異常です。
- 非監督:タグなしで「珍しい/遠い」を探しています。
2)データと準備
通常の制限:地平線と季節性(時間/日/週)、カレンダーイベント、週末、プロモーション。
特徴:ラグ、スライド統計(平均/中央値/EMA)、クオンタイル機能、カテゴリエンコーディング、希少性カウンタ、ウィンドウ集計7/30/90。
クリーニング:重複除外、タイムゾーン補正、周波数イコライゼーション、スキップ処理(補間/フォワードフィル/リカバリモデル)。
標準化/堅牢性:放出抵抗のためのRobustScaler/ranks/vinzorization。
ポイント・イン・タイムの正確さ:フィーチャーを生成するときに将来のリークはありません。
3)検出方法
3.1.統計とルール
z-score/robust z(中央値、MAD)、 IQR/ボックスプロット、信頼性の高い通路で指数関数的な平滑化。
コントロールカード(Shewhart、 CUSUM、 EWMA):生産プロセスおよびフローメトリクス用。
クオンタイルスレッショルド(窓によって動的)、季節的にクオンタイルスレッショルド。
3.2.距離、密度、クラスタ
kNN distance、 Local Outlier Factor (LOF)は局所希少性である。
DBSCAN/HDBSCAN-クラスタ外のノイズポイント。
PCA/Robust PCA-異常→高残留エラー/SPE統計;ホテリングのT²。
3.3.アンサンブルと木
孤立の森-短い方法で珍しいポイントを隔離します。
ランダム化されたしきい値/バッギングの基本的なルール-食品の高速ベースライン。
3.4.復興と確率的
Autoencoder/VAE(シーケンス用のLSTM/Transformerを含む):異常=高い再構築エラー。
確率的予測:予測された間隔を超える-信号。
ベイズ変換のモデル/ストリーム-明示的な不確実性。
3.5.時系列とモードの変更
ARIMA/ETS/預言 者/TBATS-予測+偏差。
変更点検出:BOCPD、 RuLSIF/発散基準、Pruned Exact Linear Time (PELT)。
Matrix Profile/Discord Discovery-「最も異なる部分」を検索します。
3.6.多次元およびグラフ
多変量TS: VAR、 TCN/TFT、 LSTM VAE;相互相関および共同信頼の間隔。
カラム:異常なサブパス/ノード(ネットワークトラフィックや決済チェーンなど)。
4)方法の選択: 実用的なマトリックス
5)まれな異常のための品質評価
不均衡:ROC-AUCは誤解を招くかもしれません;PR-AUC、 precision@k、 recall@FPR ≤ x%、 F1、 Matthews CCに焦点を合わせて下さい。
時間メトリック:平均検出時間(ATTD)、「早期検出」の割合。
安定性:フラッピングの割合(頻繁なオン/オフアラート)、「静かな」期間の平均長。
コストベース:コストマトリックス(偽陽性/偽陰性)、インシデントの値が回避されます。
検証:時間分割、時間外ウィンドウ、グループ分割(ユーザー/デバイス別)、バックテスト。
6)しきい値の戦略と校正
静的しきい値:シンプルですが、季節的には壊れます。
動的:区分ごと/時間ごとのquantileは負荷および静かな時間に、合わせます。
速度によるパーセンタイル:99。5th/99。高精度のための第9;カテゴリごとにバケットごとに行うことができます。
記録の口径測定:確率のための等音/温度;アラート平滑化(debounce、 「N of M」)。
ヒステリシス:異常状態を入力/終了するための異なるしきい値。
7)解釈性とRCA(根本原因分析)
グローバル:ゲイン/パミュレーション、PCA負荷、セグメントプロファイル、再構築エラーへのコンポーネントの貢献。
ローカル:ランプまたは補助モデルのSHAP/LIME。
シリーズアトリビューション:トレンド/季節性/regressors(休日、キャンペーン)の貢献。
詳細: 「異常セグメント→異常フィーチャー→異常オブジェクト」
因果関係:「真の」異常のマーケティング効果のオフィスの差分-differences/контрфакты。
8)生産およびMLOps
サービング:同期(低遅延、gRPC/REST)と非同期(バッチ/マイクロバッチ)。
Fichestor:オンライン/オフラインの整合性、ポイント・イン・タイム、機能生成のためのSLA。
バージョン管理:モデル、しきい値、スキーム、構成;アーティファクトとデータ「キャスト」を保存します。
アラート:優先順位付け(P1-P3)、重複除外、ウィンドウの抑制(夜間/休日)、正規化時の自動閉鎖。
フェイルセーフ:ルール/単純検出器、タイムアウト、QPS制限への自動劣化。
影/カナリア:新しい検出器と現在の検出器の比較、オフライン→影-→カナリア-→フル。
フィードバックループ:アラートマーキングインターフェイス、半自動リレーとトレーニング。
9)アラート疲労軽減
バンドル:グループアラートを1つのインシデントに時間/セグメントで閉じます。
アラートのSLO:シフトごとの精度/アラート数のターゲット。
エスカレーションポリシー:期間/規模での優先度の増加。
レート制限:ウィンドウごとのNアラート以下;トリガー後の「静かな期間」。
2レベルのスキーム:安価な粗い検出器(高リコール)+高価な精度検証機。
10)実装チェックリスト
- 特定された検出の種類の異常とビジネス価値
- 季節性/カレンダーを考慮。コンテキスト特性の構築
- 高速ベースライン+選択されている可能性のあるより複雑なメソッド
- しきい値戦略(動的/セグメントごと)とヒステリシス
- メトリクス:PR-AUC、 ATTD、コストメトリクス、セグメントレポート
- 通訳プランとRCA;ダッシュボードのドリルダウン
- アラートポリシー、抑制、重複除外
- 記録記録、バージョン、入力機能;リプレイバックテスト
- 再訓練の手順とドリフト制御(PSI/JS-div)
- ドキュメント:データ契約、SLO、 Runibooks
11)典型的なパターン
「Forecast+deviation」:インターバルを越えたときの信号である確率予測(5〜95%)を訓練します。
「再構築」:Autoencoder/Robust PCA→alert for high reconstruction error。
「絶縁体」:tabular/multificのための隔離の森;速い設定は少ない。
「局所希少性」:LOF/kNN距離-異なる密度のセグメントに適しています。
「体制変更」:BOCPD/PELT+原因検証(リリース、プロモーション、インシデント)。
「2段階」:ルールベースのフィルタ→ML検証機(false reduction)。
12)検出器の監視
品質:スライディングウィンドウでPR-AUC/precision@k/ATTD、確認されたアラートの共有。
データ:省略、ラグ、異常なカーディナリティ、イベントのバースト。
ドリフト:主要な特徴および速度によるPSI/KL/JS、ターゲット・ドリフト(印が付いている場合)。
オペレーティングシステム:推論の遅延、QPS、フォールトトレランス、劣化の共有。
13)印および活動的な訓練
マーキング戦略:トップクスピード、クラスタの多様性、「ボーダー」ケース。
合成:ストレステストのための異常注射(制御)。
アクティブラーニング:アナリストに、物議を醸す事件のラベルを依頼します。
弱い監督:弱いラベル+ラベルアグリゲーターとしてのルール/ヒューリスティクス。
14)安全、倫理、コンプライアンス
プライバシー:フィールドの最小化、匿名化、ロールアクセス。
透明性:アラートの原因と自動化アクションの説明。
監査:意思決定ログ、しきい値/バージョン/データの再現性。
公平性:セグメントごとのバイアスコントロール(特に不正防止/スコアリング)。
ミニ用語集
Change-point:シリーズ配布/モード変更の瞬間。
PR-AUC:精密リコール曲線の下の区域、まれに肯定的で安定した。
PSI:人口安定性指数、分布ドリフトメトリック。
行列プロファイル/Discord:「最も異なる」部分を見つける方法。
合計
効果的な異常検出ループは、1つの「スマート」アルゴリズムではなく、組み合わせです。正しいコンテキスト(季節性/カレンダー)、堅牢な機能、RCAによって解釈された十分に考え抜かれたしきい値ポリシー、堅牢なオペレーティングシステム(SLO/アラートポリシー)、フィードバックによる改善のサイクルです。このアプローチは誤報を低減し、障害の早期発見から損失防止まで、異常の真の利益を高めます。