GH GambleHub

זיהוי אנומליה

גילוי אנומליה

גילוי אנומליה הוא זיהוי של תצפיות חריגות, דפוסים או שינויים בנתונים החורגים מן ה ”נורמה” ויכולים לאותת על כשלים, הונאה, תקריות אבטחה, טעויות מידע או אירועים עסקיים נדירים. להלן מבט שיטתי: מניסוח המשימות ועד לניהול ההתראות.

1) סוגי חריגות והצהרות

חריגות נקודה: תצפיות בודדות מחוץ לנורמה (גל בהפקדות למשתמש אחד).
קונטקסטואלי: סטיות רגישות להקשר (עומס גבוה בלילה - בסדר, במהלך היום - אנומליה).
קולקטיב: קבוצה של נקודות רגילות ברצף יוצא דופן (סדרה של עסקאות קטנות).
מבנית: נקודת שינוי; עונה חדשה).
אנומליות איכות נתונים: השמטות, שכפולים, דבק, יישור שגוי של חותמות זמן, חיישנים ”שטוחים”.

מצבי אימון:
  • יש חריגות מסומנות (נדירות, יקרות).
  • אנחנו מלמדים את ה ”נורמה”, כל השאר לא נורמלי.
  • ללא פיקוח: אנחנו מחפשים ”נדיר/רחוק” ללא תגיות.

2) נתונים והכנה

גבולות נורמליים: אופקים ושעות עונה (שעה/יום/שבוע), אירועי לוח שנה, סופי שבוע, קידום.
מאפיינים: lags, gliding statistics (mean/median/EMA), quancle progles, categrous, windows aggregates 7/30/90.
ניקוי: שכפול, תיקון אזור זמן, שוויון תדר, דילוג על טיפול (interpolation/forward-file/recovery models).
תקן/מידת רוביזציה: סקלר/דרגות/וינצוריזציה עבור עמידות פליטה.
תקינות נקודה בזמן: אין דליפות עתידיות בעת יצירת תכונות.

3) שיטות גילוי

3. 1. סטטיסטיקה וכללים

z-ציון/חסון z (חציוני, MAD), עלילת IQR/תיבה, החלקה מעריכית עם מסדרונות ביטחון.
כרטיסי בקרה (Shewart, CUSUM, EWMA): עבור תהליכי ייצור ומדדי זרימה.
סף קוונטיל (דינמי על ידי חלונות), סף קוונטילי.

3. 2. מרחקים, צפיפות, אשכולות

מרחק KNN, Local Outlier Factor (LOF) הוא גורם נדיר.
DBSCAN/HDBSCAN - נקודות רעש מחוץ לאשכולות.
PCA/Rusonal PCA - אנומליות = שגיאה שיורית גבוהה/סטטיסטיקת SPE; הטי-רבוע של הוטלינג.

3. 3. אנסמבלים ועצים

בידוד יער - מבודד נקודות נדירות בדרכים קצרות.
סף/אריזה אקראית על כללים בסיסיים - קווי בסיס מהירים למזון.

3. 4. שחזור והסתברות

אוטוקודר/VAE (כולל LSTM/Transformer לרצפים): אנומליה = שגיאת שחזור גבוהה.
חיזוי הסתברותי: מעבר למרווחים הצפויים - אות.
מודלים בייסיאנים/זרמים של שינוי נורמטיבי - חוסר ודאות מובהק.

3. 5. שינויי סדרות זמן ומצב

ARIMA/ETS/PROFET/TBATS - תחזית + סטייה.
זיהוי נקודת שינוי: BOCPD, RULSIF/Divergence critery, שזיף זמן לינארי מדויק (PELT).
תגלית פרופיל מטריקס/Discord - חפש את ”התשתיות השונות ביותר”.

3. 6. רב ממדי וגרף

TS: VAR, TCN/TFT, LSTM-VAE; קורלציות צולבות ומרווחי ביטחון משותפים.
עמודות: תת-נתיבים/צמתים לא תקינים (לדוגמה, בתעבורת רשת או רשתות תשלום).

4) בחירת שיטה: מטריצה מעשית

תרחישנתוניםהמלצה
מדדי מכירות, טלמטריהזרימה, עונתיותEWMA/CUSUM + כמויות מסדרונות; אז בידוד יער כשכבה השנייה
הונאה/עסקאותצלחת חוסר איזוןLOF/Isolation Forest כקו בסיס # Autoencoder/VAE; הוספת כללי תחום
מכירות/שוקשורות יומיותפרופט/TBATS + מרווחי כמויות; שינוי נקודה עבור שינויים
איכות נתוניםיומנים גולמייםכללי איכות + סטטיסטיקה; התראות לתרשימים/NULL/שכפולים
זרימות אירועיםזמן אמתגרסאות מקוונות של דגמים ברמה אחת של CUSUM/EWMA + במשקל קל; מגבלת עיכוב

5) הערכת איכות לחריגות נדירות

חוסר איזון: ROC-AUC עשוי להטעות; התמקד ביחסי ציבור, דיוק @ k, recall @ fpr lood x%, F1, Mathews CC.
זמן מטרי: זמן ממוצע לזיהוי (ATTD), פרופורציה של ”גילוי מוקדם”.
יציבות: אחוז המתנפנפים (תדיר בכוננות), אורך ממוצע של תקופות ”שקטות”.
בסיס עלות: עלות מטריצה (false positive/false negative), ערך התקריות נמנע.
אימות: פיצולי זמן, חלונות מחוץ לזמן, פיצולי קבוצה (על ידי משתמש/התקן), בדיקות אחוריות.

6) אסטרטגיות סף וכיול

סף סטטי: פשוט, אבל לשבור כאשר עונתי.
דינמי: לכל קטע/שעה כמויות, להסתגל לעומסים ושעות שקטות.
אחוזון במהירות: 99. 5/99. 9 עבור דיוק גבוה; ניתן לעשות כל דלי לפי קטגוריה.
כיול ניקוד: איזוטוני/טמפרטורה עבור הסתברויות; Smooking התראה (Divence, ”N of M”).
היסטריה: סף שונה עבור כניסה/יציאה מהמצב הסטייה.

7) יכולת פרשנות ו ־ RCA (ניתוח גורם שורש)

גלובל: רווח/פירמוטציה, PCA, פרופילי מקטעים, תרומת רכיבים לשגיאות שחזור.
מקומי: SHAP/LIME על רמפות או על מודלים מסייעים.
ייחוס סדרה: תרומה של מגמה/עונה/רגרסורס (חגים, מסעות פרסום).
פרט: ”קטע לא נורמלי * מאפיין לא נורמלי * אובייקטים לא נורמליים”.
סיבתיות: שוני-בהבדלים/חוק-זכויות-אדם (Difference-in-difference/escultion-expection).

8) ייצור ו ־ MLOPs

הגשה: סינכרוני (Latency, gRPC/REST) ואסינכרוני (asynchronous/microbatch).
פיכסטור: עקביות מקוונת/לא מקוונת, נקודה בזמן, SLA לדור תכונה.
ורסינינג: מודלים, סף, מזימות, תצורות; מאחסנים חפצים ונתונים ”מטילים”.
התראה: עדיפות (P1-P3), שכפול, דיכוי חלונות (לילה/חגים), סגירה אוטומטית במהלך נורמליזציה.
כשל: הידרדרות אוטומטית לחוקים/גלאים פשוטים, פסקי זמן, מגבלת QPS.
Shadow/Canary: השוואה של הגלאי החדש עם הגלאי הנוכחי, offline-ac shadow-ac canary-ac - מלא.
לולאת משוב: ממשק סימון התראה, ממסר חצי אוטומטי ואימון.

9) הפחתת התראה ־ עייפות

התראות קבוצתיות מתקרבות בזמן/קטע לתקרית אחת.
SLO על התראות: מטרה לדיוק/מספר התראות לכל שינוי.
מדיניות הסלמה: צמיחה של עדיפות בזמן/קנה מידה.
קצב מגביל: לא יותר מאשר N התראות לחלון; ”תקופה שקטה” לאחר הפעלתו.
שתי רמות: גלאי גסים זול (זיכרון גבוה) + מאמת דיוק יקר.

10) רשימת מימושים

[ סוגים ] של חריגות וערך עסקי של הזיהוי שלהם
[ ] Seasonality/לוח שנה נלקח בחשבון; מאפייני הקשר מובנים
[ ] בסיס מהיר + שיטה מורכבת יותר שנבחרה
[ ] אסטרטגיית סף (דינמית/לכל קטע) והיסטרזיס
[ ] Metrics: יחסי ציבור, ATTD, עלויות-מדדים,
[ תוכנית פרשנות ] ו ־ RCA; לוחות מחוונים מקדחה למטה
[ מדיניות התראה ], דיכוי, שכפול
[ ] ניקוד כריתת עצים, גרסה, תכונות קלט; שידור חוזר של מבחנים
[ ] הליכי אימון מחדש ובקרת סחף (PSI/JS-Div)
[ תיעוד ]: חוזי נתונים, חוזי SLOs, ראניבוקס

11) דפוסים טיפוסיים

”תחזית + סטייה”: אנו מכשירים את התחזית ההסתברותית (מכמתת 5-95%), האות בזמן מעבר למרווח.
”Reconstructor”: Autoencoder/Russive PCA # התראה על שגיאת שחזור גבוהה.
”מבודד” (Insulator): יער בידוד לטבולרי/רב-פיסי; מהר, כמה הגדרות.
”נדירות מקומית”: LOF/kNN - טוב למקטעים עם צפיפות שונה.
שינוי משטר: BOCPD/PELT + גורם לאימות (שחרור, קידום, תקרית).
”שני שלבים”: מסנן מבוסס חוק = ML-viefier (הפחתה שגויה).

12) ניטור גלאי

איכות: PR-AUC/decision @ k/ATTD בחלון הזזה, שיתוף התראות מאושרות.
נתונים: השמטות, פיגור, חשאיות יוצאת דופן, התפרצויות של אירועים.
סחיפה: PSI/KL/JS על ידי מאפייני מפתח ומהירות, סחיפת מטרה (אם מסומנים).
מערכת ההפעלה: עיכוב בהסקנה, QPS, סובלנות לקויה, שיתוף בהשפלה.

13) סימון והכשרה פעילה

אסטרטגיות סימון: למעלה-k במהירות, מגוון באשכולות, מקרים ”גבול”.
סינתטיים: זריקות אנומליה (מבוקרות) לבדיקות לחץ.
למידה פעילה: אנו מבקשים מאנליסטים תוויות לתקריות שנויות במחלוקת.
פיקוח חלש: כללים/היוריסטיקה כתוויות חלשות + תוויות אגרגטורים.

14) בטיחות, אתיקה, ציות

פרטיות: מזעור שדות, פסאודונימיזציה, גישה לחיקוי.
שקיפות: הסברים של סיבות התראה ופעולות אוטומציה.
ביקורת: רישום החלטות, רבייה של סף/גרסאות/נתונים.
הגינות: שליטה על ידי הטיה (במיוחד עבור אנטי הונאה/ניקוד).

מיני גלוסרי

שינוי נקודה: רגע הפצת הסדרה/שינוי מצב.
אזור מתחת לעקומת החזרת הדיוק, יציב בחיובי נדיר.
מדד יציבות האוכלוסיה, מדד הסחיפה.
פרופיל מטריקס/דיסקורד: דרך למצוא את התשתית ”הכי שונה”.

סך הכל

לולאת גילוי אנומליה יעילה אינה אלגוריתם ”חכם”, אלא שילוב: ההקשר הנכון (Seasonality/calendar), תכונות חסונות, מדיניות סף בעלת מחשבה טובה המתורגמת על ידי RCA, מערכת הפעלה קשיחה (SLO/Advention policy) ומחזור של שיפורים באמצעות משוב. גישה זו מפחיתה את אזעקות השווא ומגדילה את היתרונות האמיתיים של חריגות - החל בזיהוי מוקדם של כשלים ועד למניעת אובדן.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.