GH GambleHub

تشخیص ناهنجاری

تشخیص ناهنجاری

تشخیص ناهنجاری شناسایی مشاهدات غیر معمول، الگوهای، و یا تغییر در داده ها که از «هنجار» منحرف و می تواند شکست، تقلب، حوادث امنیتی، خطاهای داده ها، و یا حوادث کسب و کار نادر سیگنال است. در زیر یک دیدگاه سیستماتیک است: از فرمول بندی وظایف به عملیات و مدیریت هشدار.

1) انواع ناهنجاری ها و اظهارات

ناهنجاری های نقطه ای: مشاهدات منفرد خارج از هنجار (افزایش سپرده برای یک کاربر).
زمینه ای: انحرافات حساس به متن (بار زیاد در شب - خوب، در طول روز - ناهنجاری).
Collective: مجموعه ای از نقاط معمولی در یک دنباله غیر معمول (مجموعه ای از معاملات کوچک).

ساختاری: نقطه تغییر ؛ فصلی جدید)

ناهنجاری های کیفیت داده: حذفیات، تکراری، چسب، عدم هماهنگی تمبر زمان، سنسورهای «مسطح».

حالت های آموزشی:
  • نظارت: ناهنجاری های مشخص شده (نادر، گران) وجود دارد.
  • نیمه نظارتی (یک کلاس): ما «هنجار» را آموزش می دهیم، هر چیز دیگری غیر طبیعی است.
  • غیر نظارتی: ما به دنبال «نادر/دور» بدون برچسب ها هستیم.

2) داده ها و آماده سازی

محدودیت های طبیعی: افق و فصلی (ساعت/روز/هفته)، رویدادهای تقویم، تعطیلات آخر هفته، تبلیغات.
ویژگی ها: عقب، آمار کشویی (متوسط/متوسط/EMA)، ویژگی های چندک، رمزگذاری دسته، شمارنده نادر، جمع آوری پنجره 7/30/90.
تمیز کردن: deduplication، اصلاح منطقه زمانی، تساوی فرکانس، دست زدن به پرش (مدل های interpolation/forward-fill/recovery).
استاندارد سازی/استحکام: RobustScaler/ranks/vinzorization برای مقاومت در برابر انتشار.
درستی نقطه در زمان: بدون نشت آینده در هنگام تولید ویژگی های.

3) روش های تشخیص

3. 1. آمار و قوانین

z-score/strong z (median, MAD), IQR/box plot, هموارسازی نمایی با راهروهای اطمینان.
کارت های کنترل (Shewhart، CUSUM، EWMA): برای فرآیندهای تولید و معیارهای جریان.
آستانه های چندک (پویا توسط پنجره ها)، آستانه های چندک فصلی.

3. 2. فاصله، تراکم، خوشه

فاصله kNN، فاکتور محلی محلی (LOF) یک نادر محلی است.
DBSCAN/HDBSCAN - نقاط سر و صدا در خارج از خوشه.

PCA/مقاوم PCA - ناهنجاری → خطای باقی مانده بالا/آمار SPE ؛ ² تی هتلینگ

3. 3. گروه ها و درختان

جنگل انزوا - نقاط نادر را به روش های کوتاه جدا می کند.
آستانه تصادفی/بسته بندی در قوانین اساسی - پایه های سریع برای غذا.

3. 4. بازسازی و احتمالاتی

خودکار رمزگذار/VAE (از جمله LSTM/ترانسفورماتور برای توالی): آنومالی = خطای بازسازی بالا.

پیش بینی احتمالی: فراتر از فواصل پیش بینی شده - سیگنال

مدلهای بیزی/جریانهای تبدیلات نرمالیزه - عدم قطعیت صریح.

3. 5. سری زمان و تغییر حالت

ARIMA/ETS/پیامبر/TBATS - پیش بینی + انحراف.
تشخیص نقطه تغییر: BOCPD، معیارهای RuLSIF/واگرایی، زمان دقیق خطی هرس شده (PELT).
مشخصات ماتریس/کشف اختلاف - جستجو برای «پیامدهای متفاوت».

3. 6. چند بعدی و نمودار

چند متغیره TS: VAR، TCN/TFT، LSTM-VAE ؛ همبستگی متقابل و فواصل اطمینان مشترک.
ستون ها: زیر مسیرها/گره های غیر طبیعی (به عنوان مثال، در ترافیک شبکه یا زنجیره های پرداخت).

4) انتخاب روش: ماتریس عملی

سناریو هاداده هاتوصیه نامه ها
معیارهای فروش، تله متریجریان، فصلی بودنEWMA/CUSUM + راهروهای چندک ؛ سپس جداسازی جنگل به عنوان لایه دوم
کلاهبرداری/معاملاتصفحه عدم تعادلLOF/جداسازی جنگل به عنوان یک پایه → Autoencoder/VAE ؛ اضافه کردن قوانین دامنه
فروش/بازارردیف های روزانهپیامبر/TBATS + فواصل چندک ؛ تغییر نقطه برای ترفند
کیفیت داده هاسیاهههای مربوط خامقوانین کیفیت + آمار ؛ هشدارها به طرح/NULL/تکراری
جریان رویدادزمان واقعینسخه های آنلاین CUSUM/EWMA + مدل های سبک وزن یک کلاس ؛ محدودیت تاخیر

5) ارزیابی کیفیت برای ناهنجاری های نادر

عدم تعادل: ROC-AUC ممکن است گمراه کننده باشد. تمرکز بر PR-AUC، precision @ k، recall@FPR≤x٪، F1، Matthews CC.
متریک زمان: میانگین زمان تشخیص (ATTD)، نسبت «تشخیص اولیه».
ثبات: درصد از flapping (مکرر روشن/خاموش هشدار)، طول متوسط دوره «آرام».
مبتنی بر هزینه: ماتریس هزینه (مثبت کاذب/منفی کاذب)، ارزش حوادث جلوگیری می شود.
اعتبار سنجی: تقسیم زمان، پنجره های خارج از زمان، تقسیم گروه (توسط کاربر/دستگاه)، تست های برگشت.

6) استراتژی های آستانه و کالیبراسیون

آستانه های استاتیک: ساده است، اما به صورت فصلی شکسته می شود.
پویا: در هر بخش/در هر ساعت چندک، انطباق با بارها و ساعات آرام.
درصد با سرعت: 99. 5/99 9 برای دقت بالا ؛ می تواند در هر سطل بر اساس طبقه بندی انجام شود.
کالیبراسیون امتیاز دهی: ایزوتونیک/درجه حرارت برای احتمالات ؛ هشدار صاف کردن (debounce، «N از M»).
Hysteresis: آستانه های مختلف برای ورود/خروج از حالت ناهنجاری.

7) تفسیر پذیری و RCA (تجزیه و تحلیل علت ریشه ای)

جهانی: افزایش/جایگزینی، بارهای PCA، پروفایل های بخش، سهم جزء در خطای بازسازی.
به صورت محلی: SHAP/LIME در رمپ ها یا مدل های کمکی.
تخصیص سری: سهم روند/فصلی/regressors (تعطیلات، کمپین ها).
جزئیات: «قطعه غیر طبیعی → ویژگی غیر طبیعی → اشیاء غیر طبیعی».
علیت: تفاوت در differences/контрфакты برای دفتر اثر بازاریابی ناهنجاری «واقعی».

8) تولید و MLOps

خدمت: همزمان (تاخیر کم، gRPC/REST) و ناهمزمان (دسته ای/microbatch).
Fichestor: سازگاری آنلاین/آفلاین، نقطه در زمان، SLA برای تولید ویژگی.
نسخه بندی: مدل ها، آستانه ها، طرح ها، پیکربندی ها ؛ ذخیره مصنوعات و داده ها «کست».
هشدار: اولویت بندی (P1-P3)، deduplication، سرکوب پنجره ها (شب/تعطیلات)، خودکار بستن در طول عادی سازی.
Fail-safe: تخریب خودکار به قوانین/آشکارسازهای ساده، زمان بندی، محدودیت QPS.
سایه/قناری: مقایسه آشکارساز جدید با فعلی، خارج از خط → سایه - → قناری - → کامل.
حلقه بازخورد: رابط مارک هشدار، رله نیمه اتوماتیک و آموزش.

9) کاهش هشدار خستگی

بسته بندی: هشدارهای گروهی در زمان/بخش به یک حادثه نزدیک می شوند.
SLO در هشدار: هدف برای دقت/تعداد هشدار در هر تغییر.
سیاست تشدید: رشد اولویت در مدت زمان/مقیاس.
محدود کردن نرخ: بیش از N هشدار در هر پنجره ؛ «دوره آرام» پس از راه اندازی.
طرح دو سطح: آشکارساز درشت ارزان (فراخوان بالا) + تایید کننده دقت گران قیمت.

10) چک لیست پیاده سازی

  • انواع ناهنجاری ها و ارزش کسب و کار تشخیص آنها شناسایی شده است
  • فصلی/تقویم در نظر گرفته شده ؛ ویژگی های زمینه ساخته شده است
  • خط پایه سریع + به طور بالقوه روش پیچیده تر انتخاب شده است
  • استراتژی آستانه (پویا/در هر بخش) و هیسترزیس
  • معیارها: PR-AUC، ATTD، معیارهای هزینه، گزارش های بخش
  • تفسیر طرح و RCA ؛ داشبورد مته پایین
  • سیاست های هشدار، سرکوب، deduplication
  • ورود به سیستم به ثمر رساند، نسخه، ویژگی های ورودی ؛ پخش تست برگشت
  • روش های بازآموزی و کنترل رانش (PSI/JS-div)
  • مستندات: قراردادهای داده، SLOs، Runibooks

11) الگوهای معمول

«پیش بینی + انحراف»: ما آموزش پیش بینی احتمالی (چندک 5-95٪)، سیگنال زمانی که فراتر از فاصله.
«بازسازی»: Autoencoder/قوی PCA → هشدار برای خطای بازسازی بالا.
«عایق»: جنگل جداسازی برای جدولی/چند منظوره ؛ سریع، چند تنظیمات.
«نادر محلی»: LOF/kNN-distance - برای بخش هایی با تراکم های مختلف مناسب است.
«تغییر رژیم»: BOCPD/PELT + باعث اعتبار (آزادی، ارتقاء، حادثه) می شود.
«دو مرحله»: فیلتر مبتنی بر قانون → ML-verifier (کاهش نادرست).

12) نظارت بر آشکارساز

کیفیت: PR-AUC/precision @ k/ATTD در پنجره کشویی، سهم هشدارهای تأیید شده.
داده ها: حذفیات، تاخیر، cardinality غیر معمول، انفجار از حوادث.
رانش: PSI/KL/JS با ویژگی های کلیدی و سرعت، رانش هدف (اگر مشخص شده).
سیستم عامل: تاخیر در استنباط، QPS، تحمل خطا، سهم تخریب.

13) علامت گذاری و آموزش فعال

استراتژی های علامت گذاری: از بالا به K در سرعت، تنوع در خوشه، «مرز» موارد.
Synthetics: تزریق ناهنجاری (کنترل شده) برای تست استرس.
یادگیری فعال: ما از تحلیلگران برای برچسب ها برای حوادث بحث برانگیز درخواست می کنیم.
نظارت ضعیف: قوانین/اکتشافات به عنوان برچسب های ضعیف + جمع کننده های برچسب.

14) ایمنی، اخلاق، انطباق

حریم خصوصی: به حداقل رساندن زمینه ها، pseudonymization، دسترسی به نقش.
شفافیت: توضیح علل هشدار و اقدامات اتوماسیون.
حسابرسی: ورود به سیستم تصمیم گیری، تکرارپذیری آستانه/نسخه/داده ها.
عدالت: کنترل تعصب توسط بخش (به ویژه برای ضد تقلب/نمره).

واژه نامه کوتاه

Change point: لحظه تغییر توزیع/حالت سری.
PR-AUC: منطقه زیر منحنی دقیق فراخوانی، پایدار در مثبت نادر است.
PSI: شاخص ثبات جمعیت، متریک رانش توزیع.
Matrix Profile/Discord: راهی برای پیدا کردن «متفاوت ترین» زیر مجموعه.

مجموع

یک حلقه تشخیص ناهنجاری مؤثر یک الگوریتم «هوشمند» نیست، بلکه ترکیبی است: زمینه صحیح (فصلی/تقویم)، ویژگی های قوی، یک سیاست آستانه خوب فکر شده توسط RCA، یک سیستم عامل سفت و سخت (سیاست های SLO/هشدار) و چرخه بهبود از طریق بازخورد. این رویکرد آلارم های دروغین را کاهش می دهد و مزایای واقعی ناهنجاری ها را افزایش می دهد - از تشخیص زودهنگام شکست ها تا پیشگیری از دست دادن.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.