GH GambleHub

Անոմալիայի հայտնաբերումը

Անոմալիաների հայտնաբերումը

Անոմալիայի հայտնաբերումը (Anomaly Detair) անսովոր դիտարկումների, պաթոգենների կամ տվյալների փոփոխությունների հայտնաբերումն է, որոնք շեղվում են «նորմայից» և կարող են ազդել ձախողումների, խարդախությունների, անվտանգության, տվյալների սխալների կամ հազվագյուտ բիզնեսի իրադարձությունների մասին։ Ներքևում համակարգային տեսանկյունն է 'առաջադրանքների ձևակերպումից մինչև ալտերտերի շահագործումը և կառավարումը։

1) Անոմալիաների և արտադրությունների տեսակները

Կետային (anomalies) 'մեկ դիտարկումներ նորմայից դուրս (ավանդների աճը մեկ օգտագործողի միջոցով)։

Կոնտեքստուալ. շեղումները հաշվի առնելով ենթատեքստը (բարձր պարամետրը գիշերը 'ok, օր' անոմալիա)։

Կոլեկտիվ 'սովորական կետերի մի խումբ անսովոր հաջորդականությամբ (մի շարք փոքր գործարքներ)։

Կառուցվածքային 'ռեժիմի/բաշխման փոփոխությունը (change-point; նոր սեզոնային)։

Տվյալների որակի անոմալիաները ՝ բացթողումներ, կրկնօրինակներ, սկլեյքեր, ժամանակի չափերի ռասինխրոնիզացիա, «հարթ» սենսորներ։

Ուսուցման ռեժիմները

Սալվադոր 'կան փակցված անոմալիաներ (հազվադեպ, թանկ)։

Հատակը-դեկորատիվ (one-class) 'մենք սովորեցնում ենք «նորմա», մնացած ամեն ինչ աննորմալ է։

Մենք փնտրում ենք «հազվագյուտ/հեռավոր» առանց նշանների։

2) Տվյալները և պատրաստումը

Նորմայի սահմանները ՝ հորիզոնը և սեզոնայնությունը (ժամ/օր/շաբաթ), օրացույցի իրադարձությունները, հանգստյան օրերը, ակցիաները։

Ֆիչին 'բայեր, սայթաքող վիճակագրություններ (mean/www.ian/EMA), քվանտային նշաններ, կատեգորիաների encodings, հազվադեպ հաշվիչներ, 7/30/90 պատուհանների ագրեգատներ։

Մաքրումը 'deduplication, աշխատանքային գոտիների շտկում, հաճախականության հավասարեցում, handling բացթողումներ (ինտերպոլացիա/forward-corl/վերականգնման մոդելներ)։

Ստանդարտացում/ռոբաստիա ՝ RobustScaler/ranga/vinzorization արտանետումների դիմադրության համար։

Point-in-time ճկունությունը 'առանց ապագայի արտահոսքի դելֆիչի։

3) Հայտնաբերման մեթոդներ

3. 1. Վիճակագրությունը և կանոնները

z-score/brobaste z (Javian, MAD), IQR/բռնցքամարտի պլոտ, էքսպոնենցիալ հարթեցում վստահելի միջանցքներով։

Վերահսկողական քարտեզները (Shewhart, CUSUUM, EWMA) 'տեխնոլոգիական գործընթացների և հոսքային մետրի համար։

Քվանտային շեմերը (դինամիկ պատուհաններ), սեզոնային քվանտային շեմերը։

3. 2. Հեռավորություններ, խտություն, 108

KNN dist.ru, Dronal Medier Factor (LOF) տեղական հազվադեպ է։

DBSCAN/HDBSCAN - աղմկոտ կետեր կլաստերից դուրս։

PCA/Robust PCA-ն անոմալիաներ է, որոնք ունեն բարձր հիբրիդային սխալ/SPE վիճակագրությունը։ Hotelling’s T².

3. 3. Անսամբլին և ծառերը

Isolation Forest-ը կարճ ճանապարհներով հեռացնում է հազվագյուտ կետերը։

Randomized Thresholding/Bagging-ը հիմնական կանոնների վրա արագ բեյսլեյն է։

3. 4. Վերակառուցում և հավանական

Autoencoder/VSA (ներառյալ LSTM/Transformer հաջորդականության համար) 'անոմալիա = վերակառուցման բարձր սխալ։

Probabilistic forecasting (քվանտային կանխատեսումներ) 'կանխատեսված ընդմիջումների համար ելքը ազդանշան է։

Բայեսովի մոդելները/նորմալացնող փոխակերպումների հոսքերը ակնհայտ անորոշություն են։

3. 5. Ժամանակավոր շարքերը և ռեժիմների փոփոխությունը

ARIMA/EAST/Prophet/TBATS-ը կանխատեսում է + շեղումը։

Change-point detics: BOCPD, RuLSIF/դիսերգենցիայի չափանիշներ, Pruned Exact Linear Time (PELT)։

Matault Profile/Wincord discovery-ը «ամենասարսափելի հետաքննության» որոնումն է։

3. 6. Բազմաչափ և գրաֆիկական

Multivariate TS: VAR, TCN/TFT, LSTM-VAE; Քրոս-հարաբերությունները և վստահության համատեղ ընդմիջումները։

Գրաֆիկները ՝ աննորմալ ստորգետնյա/105 (օրինակ, ցանցային բջիջներում կամ հիբրիդային շղթաներում)։

4) Մեթոդի ընտրություն 'գործնական մատրիցա

ՍցենարըՏվյալներըԱռաջարկություն
Չափումներ, հեռուստաչափությունՀոսք, սեզոնայինEWMA/CUSUM + քվանտային միջանցքներ; Isolation Forest որպես երկրորդ շերտ
Ֆրոդ/գործարքներՊլանշետ անհավասարակշռությամբLOF/Isolation Forest-ը որպես Autoencoder/VTS բեյսլին։ ավելացրեք տիրույթի կանոնները
Խնայողություններ/շուկաԱմենօրյա շարքերըProphet/TBATS + քվանտային ընդմիջումներ; change point հերթափոխի համար
Տվյալների որակըՀում լույսերՈրակի կանոնները + վիճակագրությունը; ալտերտերը սխեմայի վրա/NFC/կրկնօրինակներ/
Իրադարձությունների հոսքերըReal-timmCUSUM/EWMA + առցանց տարբերակները թեթև one-class մոդելներ; ձերբակալման սահմանափակում

5) Հազվագյուտ անոմալիաների ժամանակ որակի գնահատումը

Անհավասարակշռություն ՝ ROC-AUC-ն կարող է մոլորեցնել։ կենտրոնացեք PR-AUC, precision @ k, recall @ FPR 24x, F1, Matthews CC։

Ժամանակավոր մետրիկան 'Average To Detics (ATTD), «վաղ դետեկտիվների» մասը։

Իսպանիան 'ֆլամպինգի մասնաբաժինը (հաճախակի ներառումը/ալերտի անջատումը), «հանգիստ» ժամանակահատվածների միջին երկարությունը։

Cost-based: մատրիցա (կեղծ դրական/կեղծ), կանխված բջիջների արժեքը։

Վալիդացիա 'ժամանակավոր համախմբումներ, out-of-time պատուհաններ, խմբակային համախմբումներ (ըստ պարամետրերի/սարքերի), փորձարկումներ։

6) Շեմի ռազմավարություններ և տրամաչափումներ

Ստատիկ շեմեր 'պարզ, բայց կոտրվում են սեզոնային։

Դինամիկ ՝ per-segram/per-hour քվանտային, հարմարվում են բեռներին և «հանգիստ ժամերին»։

Պերցենտիլը ժայռով ՝ 99։ 5-րդ/99։ 9-րդ high-precision; կարող եք կատարել per-bucket կատեգորիաներով։

Սկորինգի տրամաբանությունը 'isotonic/temperature հավանականության համար։ Alerts (debounce, «N M»)։

Հիստերե)։ Տարբեր շեմեր ՝ անոմալիայի վիճակից դուրս գալու համար։

7) Մեկնաբանությունը և RCA (root cause analysis)

Գլոբալ 'ֆիչի կարևորությունը (gain/permutation), PCA բեռը, հատվածների ավելցուկը, բաղադրիչների ներդրումը վերակառուցման սխալի մեջ։

Տեղական 'SHAP/LIME սկուտերների վրա կամ օժանդակ մոդելներում։

Ուղղափառությունը շարքերով 'միտման/սեզոնային/ռեգրեսպորների ներդրումը (արձակուրդներ, քարոզարշավներ)։

Մանրամասները ՝ «աննորմալ սեգմենտը» անոմալ ֆիչն է։

Քաուզալությունը 'wwww.ference-in-wwww.ferences/wwww.fakts մարքեթինգային էֆեկտը բաժանելու համար «իրական» անոմալիայից։

8) Prodacshen և MLOps-ը

Սերվինգ 'սինխրոն (ցածր ուշացում, gRPC/REST) և ասինխրոն (բատ/միկրոբատչ)։

Ֆիչեստորը 'առցանց/օֆլինի, point-in-time, SLA-ի համաձայն նշանների արտադրման համար։

Տարբերակումը 'մոդելներ, շեմեր, սխեմաներ, դելիգներ։ պահեք արտեֆակտները և «կույր» տվյալները։

Alerting: գերակայություն (P1-P3), deduplication, supression պատուհանը (գիշեր/արձակուրդներ), avto-2019 նորարարության ժամանակ։

Fail-safe 'ավտոմատ դեգրադացիա կանոններին/պարզ դետեկտորներին, թայմաուտներին, QPS-ի սահմանափակմանը։

Shadow/Canary: նոր դետեկտորի համեմատությունը ներկա, www.line - www.shadow- www.canary- ը։

Feedback loop: Ալտերի գծանշման ինտերֆեյսը, սեռի ավտոմատ ռելեյբլինգը և դոթրենիրովը։

9) Alert-fatigue նվազումը

Բանդլինգ 'խմբավորեք ժամանակը/սեգմենտը մեկ պատահականության մեջ։

SLO ալտերտերի վրա 'precision/alerts-ի նպատակը փոփոխության մեջ։

Escalation policy 'գերակայություն տևողության/մասշտաբի ժամանակ։

Rate limiting: ոչ ավելի քան N ալտերտեր պատուհանի ետևում։ «Հանգիստ ժամանակահատվածը» գործարկումից հետո։

Երկաստիճան սխեմա 'էժան կոպիտ դետեկտոր (բարձր recall) + թանկ precificator։

10) Ներդրման թուղթ

  • Որոշվում են անոմալիաների տեսակները և դրանց դետեկտորի բիզնեսի արժեքը
  • Հաշվի առնելով սեզոնայնությունը/օրացույցը; կառուցվում են համատեքստային նշաններ
  • Ընտրված մեթոդը 'արագ բեյսլին + պոտենցիալ ավելի բարդ է
  • Շեմի ռազմավարությունը (դինամիկ/105-հատվածներ) և հիստերեվիչը
  • Metriki: PR-AUC, ATTD, cost-metr.ru, հատվածների հաշվետվություններ
  • Մեկնաբանության պլանը և RCA; dashbords Corill-down
  • Ալերթ քաղաքականությունը, supression, deduplication
  • Սկորինգի տրամաբանությունը, տարբերակները, մուտքային ֆիգը; վերամշակման փորձարկումներ
  • Ռետրեյնինգի ընթացակարգերը և դրեյֆի վերահսկումը (PSI/JS-dance)
  • Lenta.ru: Տվյալների պայմանագրեր, SLO, runibuks

11) Տիպիկ փամփուշտներ

«Կանխատեսումը + շեղումը», մենք սովորեցնում ենք հավանականության կանխատեսումը (5-95%), ազդանշանը, երբ դուրս ենք գալիս արտասահման։

«Վերակառուցողը»: Autoencoder/Robust PCA-ն ալերտ է բարձր reconstruction error-ով։

«Մեկուսիչ» 'Isolation Forest պլանշետային/բազմաֆիչի համար; արագ, քիչ է։

«Տեղական հազվադեպ» ՝ LOF/kNN-dist.ru - լավ է հատվածների համար տարբեր խտությամբ։

«Ռեժիմի փոփոխությունը» ՝ BOCPD/PELT + պատճառների վալիդացիա (ռելիզացիա, ակցիա, պատահականություն)։

«Երկբևեռ» ՝ rule-based ֆիլտրը ML-verificator (կեղծ նվազեցում)։

12) Դետեկտորի պաշտպանությունը

Որակը ՝ PR-AUC/precision @ k/ATTD սայթաքող պատուհանում, ապացուցված ալերտների մասը։

Տվյալները ՝ բացթողումներ, ճամբարներ, անսովոր կարդինալություն, իրադարձությունների աճը։

Դրեյֆը ՝ PSI/KL/JS հիմնական փուլերով և ժայռերով, dreeft-ը (եթե կա 108)։

Վիրահատություն 'ինֆիսի ուշացում, QPS, ձախողում, դեգրադացիայի մասը։

13) Նշումներ և ակտիվ ուսուցում

Գծագրման ռազմավարությունները 'top-k-skora, բազմազանություն կլաստերներով, «սահմանային»։

Սինթետիկ 'անոմալիաների (վերահսկվող) ներարկումները սթրեսի թեստերի համար։

Action learning: Մենք ավելացնում ենք վերլուծաբանների արտադրանքը հակասական գործողությունների համար։

Weak supervision: կանոնները/evristices որպես թույլ պարամետրեր + պիտակների ագրեգատորներ։

14) Անվտանգություն, էթիկա, համեմատություն

Գաղտնիությունը 'դաշտերի նվազեցումը, կեղծանունացումը, դերերի հասանելիությունը։

Թափանցիկությունը 'ալերտի պատճառների և ավտոմատացման գործողությունների բացատրությունը։

Աուդիտ 'լուծումների ամսագիր, շեմերի/տարբերակների/տվյալների վերարտադրություն։

Արդարություն 'բիասի վերահսկումը հատվածներում (հատկապես հակաֆրոդի/սկորինգի համար)։

Mini-glossaria

Change-point: Բաշխման/ռեժիմի փոփոխման պահ։

PR-AUC: տարածքը precision-recall կորի տակ, դիմացկուն է հազվագյուտ դրական։

PSI 'բնակչության կայունության ինդեքսը, բաշխման մետրը։

Matault Profile/Wincord: միջոց գտնել «ամենաանհրաժեշտ» հետևողականությունը։

Արդյունքը

Անոմալիաների հայտնաբերման պարամետրերը ոչ թե մեկ խելացի ալգորիթմ են, այլ համադրություն 'ճիշտ համատեքստը (սեզոնային/օրացույցը), ռոբաստիկ նշանները, մտածված շեմի քաղաքականությունը, որը մեկնաբանվում է RCA-ի կողմից, կոշտ վիրահատություն (SLO/alert-քաղաքականություն) և հետադարձ կապի միջոցով բարելավումների ցիկլը։ Այս մոտեցումը նվազեցնում է կեղծ անհանգստությունները և իրական օգուտներ է բերում անոմալիաներից ՝ ձախողումների վաղ հայտնաբերումից մինչև կանխումը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։