זיהוי אנומליה
גילוי אנומליה
גילוי אנומליה הוא זיהוי של תצפיות חריגות, דפוסים או שינויים בנתונים החורגים מן ה ”נורמה” ויכולים לאותת על כשלים, הונאה, תקריות אבטחה, טעויות מידע או אירועים עסקיים נדירים. להלן מבט שיטתי: מניסוח המשימות ועד לניהול ההתראות.
1) סוגי חריגות והצהרות
חריגות נקודה: תצפיות בודדות מחוץ לנורמה (גל בהפקדות למשתמש אחד).
קונטקסטואלי: סטיות רגישות להקשר (עומס גבוה בלילה - בסדר, במהלך היום - אנומליה).
קולקטיב: קבוצה של נקודות רגילות ברצף יוצא דופן (סדרה של עסקאות קטנות).
מבנית: נקודת שינוי; עונה חדשה).
אנומליות איכות נתונים: השמטות, שכפולים, דבק, יישור שגוי של חותמות זמן, חיישנים ”שטוחים”.
- יש חריגות מסומנות (נדירות, יקרות).
- אנחנו מלמדים את ה ”נורמה”, כל השאר לא נורמלי.
- ללא פיקוח: אנחנו מחפשים ”נדיר/רחוק” ללא תגיות.
2) נתונים והכנה
גבולות נורמליים: אופקים ושעות עונה (שעה/יום/שבוע), אירועי לוח שנה, סופי שבוע, קידום.
מאפיינים: lags, gliding statistics (mean/median/EMA), quancle progles, categrous, windows aggregates 7/30/90.
ניקוי: שכפול, תיקון אזור זמן, שוויון תדר, דילוג על טיפול (interpolation/forward-file/recovery models).
תקן/מידת רוביזציה: סקלר/דרגות/וינצוריזציה עבור עמידות פליטה.
תקינות נקודה בזמן: אין דליפות עתידיות בעת יצירת תכונות.
3) שיטות גילוי
3. 1. סטטיסטיקה וכללים
z-ציון/חסון z (חציוני, MAD), עלילת IQR/תיבה, החלקה מעריכית עם מסדרונות ביטחון.
כרטיסי בקרה (Shewart, CUSUM, EWMA): עבור תהליכי ייצור ומדדי זרימה.
סף קוונטיל (דינמי על ידי חלונות), סף קוונטילי.
3. 2. מרחקים, צפיפות, אשכולות
מרחק KNN, Local Outlier Factor (LOF) הוא גורם נדיר.
DBSCAN/HDBSCAN - נקודות רעש מחוץ לאשכולות.
PCA/Rusonal PCA - אנומליות = שגיאה שיורית גבוהה/סטטיסטיקת SPE; הטי-רבוע של הוטלינג.
3. 3. אנסמבלים ועצים
בידוד יער - מבודד נקודות נדירות בדרכים קצרות.
סף/אריזה אקראית על כללים בסיסיים - קווי בסיס מהירים למזון.
3. 4. שחזור והסתברות
אוטוקודר/VAE (כולל LSTM/Transformer לרצפים): אנומליה = שגיאת שחזור גבוהה.
חיזוי הסתברותי: מעבר למרווחים הצפויים - אות.
מודלים בייסיאנים/זרמים של שינוי נורמטיבי - חוסר ודאות מובהק.
3. 5. שינויי סדרות זמן ומצב
ARIMA/ETS/PROFET/TBATS - תחזית + סטייה.
זיהוי נקודת שינוי: BOCPD, RULSIF/Divergence critery, שזיף זמן לינארי מדויק (PELT).
תגלית פרופיל מטריקס/Discord - חפש את ”התשתיות השונות ביותר”.
3. 6. רב ממדי וגרף
TS: VAR, TCN/TFT, LSTM-VAE; קורלציות צולבות ומרווחי ביטחון משותפים.
עמודות: תת-נתיבים/צמתים לא תקינים (לדוגמה, בתעבורת רשת או רשתות תשלום).
4) בחירת שיטה: מטריצה מעשית
5) הערכת איכות לחריגות נדירות
חוסר איזון: ROC-AUC עשוי להטעות; התמקד ביחסי ציבור, דיוק @ k, recall @ fpr lood x%, F1, Mathews CC.
זמן מטרי: זמן ממוצע לזיהוי (ATTD), פרופורציה של ”גילוי מוקדם”.
יציבות: אחוז המתנפנפים (תדיר בכוננות), אורך ממוצע של תקופות ”שקטות”.
בסיס עלות: עלות מטריצה (false positive/false negative), ערך התקריות נמנע.
אימות: פיצולי זמן, חלונות מחוץ לזמן, פיצולי קבוצה (על ידי משתמש/התקן), בדיקות אחוריות.
6) אסטרטגיות סף וכיול
סף סטטי: פשוט, אבל לשבור כאשר עונתי.
דינמי: לכל קטע/שעה כמויות, להסתגל לעומסים ושעות שקטות.
אחוזון במהירות: 99. 5/99. 9 עבור דיוק גבוה; ניתן לעשות כל דלי לפי קטגוריה.
כיול ניקוד: איזוטוני/טמפרטורה עבור הסתברויות; Smooking התראה (Divence, ”N of M”).
היסטריה: סף שונה עבור כניסה/יציאה מהמצב הסטייה.
7) יכולת פרשנות ו ־ RCA (ניתוח גורם שורש)
גלובל: רווח/פירמוטציה, PCA, פרופילי מקטעים, תרומת רכיבים לשגיאות שחזור.
מקומי: SHAP/LIME על רמפות או על מודלים מסייעים.
ייחוס סדרה: תרומה של מגמה/עונה/רגרסורס (חגים, מסעות פרסום).
פרט: ”קטע לא נורמלי * מאפיין לא נורמלי * אובייקטים לא נורמליים”.
סיבתיות: שוני-בהבדלים/חוק-זכויות-אדם (Difference-in-difference/escultion-expection).
8) ייצור ו ־ MLOPs
הגשה: סינכרוני (Latency, gRPC/REST) ואסינכרוני (asynchronous/microbatch).
פיכסטור: עקביות מקוונת/לא מקוונת, נקודה בזמן, SLA לדור תכונה.
ורסינינג: מודלים, סף, מזימות, תצורות; מאחסנים חפצים ונתונים ”מטילים”.
התראה: עדיפות (P1-P3), שכפול, דיכוי חלונות (לילה/חגים), סגירה אוטומטית במהלך נורמליזציה.
כשל: הידרדרות אוטומטית לחוקים/גלאים פשוטים, פסקי זמן, מגבלת QPS.
Shadow/Canary: השוואה של הגלאי החדש עם הגלאי הנוכחי, offline-ac shadow-ac canary-ac - מלא.
לולאת משוב: ממשק סימון התראה, ממסר חצי אוטומטי ואימון.
9) הפחתת התראה ־ עייפות
התראות קבוצתיות מתקרבות בזמן/קטע לתקרית אחת.
SLO על התראות: מטרה לדיוק/מספר התראות לכל שינוי.
מדיניות הסלמה: צמיחה של עדיפות בזמן/קנה מידה.
קצב מגביל: לא יותר מאשר N התראות לחלון; ”תקופה שקטה” לאחר הפעלתו.
שתי רמות: גלאי גסים זול (זיכרון גבוה) + מאמת דיוק יקר.
10) רשימת מימושים
[ סוגים ] של חריגות וערך עסקי של הזיהוי שלהם
[ ] Seasonality/לוח שנה נלקח בחשבון; מאפייני הקשר מובנים
[ ] בסיס מהיר + שיטה מורכבת יותר שנבחרה
[ ] אסטרטגיית סף (דינמית/לכל קטע) והיסטרזיס
[ ] Metrics: יחסי ציבור, ATTD, עלויות-מדדים,
[ תוכנית פרשנות ] ו ־ RCA; לוחות מחוונים מקדחה למטה
[ מדיניות התראה ], דיכוי, שכפול
[ ] ניקוד כריתת עצים, גרסה, תכונות קלט; שידור חוזר של מבחנים
[ ] הליכי אימון מחדש ובקרת סחף (PSI/JS-Div)
[ תיעוד ]: חוזי נתונים, חוזי SLOs, ראניבוקס
11) דפוסים טיפוסיים
”תחזית + סטייה”: אנו מכשירים את התחזית ההסתברותית (מכמתת 5-95%), האות בזמן מעבר למרווח.
”Reconstructor”: Autoencoder/Russive PCA # התראה על שגיאת שחזור גבוהה.
”מבודד” (Insulator): יער בידוד לטבולרי/רב-פיסי; מהר, כמה הגדרות.
”נדירות מקומית”: LOF/kNN - טוב למקטעים עם צפיפות שונה.
שינוי משטר: BOCPD/PELT + גורם לאימות (שחרור, קידום, תקרית).
”שני שלבים”: מסנן מבוסס חוק = ML-viefier (הפחתה שגויה).
12) ניטור גלאי
איכות: PR-AUC/decision @ k/ATTD בחלון הזזה, שיתוף התראות מאושרות.
נתונים: השמטות, פיגור, חשאיות יוצאת דופן, התפרצויות של אירועים.
סחיפה: PSI/KL/JS על ידי מאפייני מפתח ומהירות, סחיפת מטרה (אם מסומנים).
מערכת ההפעלה: עיכוב בהסקנה, QPS, סובלנות לקויה, שיתוף בהשפלה.
13) סימון והכשרה פעילה
אסטרטגיות סימון: למעלה-k במהירות, מגוון באשכולות, מקרים ”גבול”.
סינתטיים: זריקות אנומליה (מבוקרות) לבדיקות לחץ.
למידה פעילה: אנו מבקשים מאנליסטים תוויות לתקריות שנויות במחלוקת.
פיקוח חלש: כללים/היוריסטיקה כתוויות חלשות + תוויות אגרגטורים.
14) בטיחות, אתיקה, ציות
פרטיות: מזעור שדות, פסאודונימיזציה, גישה לחיקוי.
שקיפות: הסברים של סיבות התראה ופעולות אוטומציה.
ביקורת: רישום החלטות, רבייה של סף/גרסאות/נתונים.
הגינות: שליטה על ידי הטיה (במיוחד עבור אנטי הונאה/ניקוד).
מיני גלוסרי
שינוי נקודה: רגע הפצת הסדרה/שינוי מצב.
אזור מתחת לעקומת החזרת הדיוק, יציב בחיובי נדיר.
מדד יציבות האוכלוסיה, מדד הסחיפה.
פרופיל מטריקס/דיסקורד: דרך למצוא את התשתית ”הכי שונה”.
סך הכל
לולאת גילוי אנומליה יעילה אינה אלגוריתם ”חכם”, אלא שילוב: ההקשר הנכון (Seasonality/calendar), תכונות חסונות, מדיניות סף בעלת מחשבה טובה המתורגמת על ידי RCA, מערכת הפעלה קשיחה (SLO/Advention policy) ומחזור של שיפורים באמצעות משוב. גישה זו מפחיתה את אזעקות השווא ומגדילה את היתרונות האמיתיים של חריגות - החל בזיהוי מוקדם של כשלים ועד למניעת אובדן.