विसंगति का पता लगाना
विसंगति का पता लगाना
विसंगति का पता लगाना असामान्य टिप्पणियों, पैटर्न, या डेटा में बदलाव की पहचान है जो "आदर्श" से विचलित होते हैं और विफलताओं, धोखाधड़ी, सुरक्षा घटनाओं, डेटा त्रुटियों या दुर्लभ व्यावसायिक घटनाओं का संकेत दे सकते हैं। नीचे एक व्यवस्थित दृश्य है: कार्यों के निर्माण से लेकर अलर्ट के संचालन और प्रबंधन तक।
1) विसंगतियों और कथनों के प्रकार
बिंदु विसंगतियाँ: आदर्श के बाहर एकल अवलोकन (एक उपयोगकर्ता के लिए जमा में वृद्धि)।
प्रासंगिक: संदर्भ-संवेदनशील विचलन (रात में उच्च भार - ठीक है, दिन के दौरान - विसंगति)।
सामूहिक: एक असामान्य अनुक्रम में सामान्य बिंदुओं का एक समूह (छोटे लेनदेन की एक श्रृंखला)।
संरचनात्मक: परिवर्तन-बिंदु; नई मौसमी)।
डेटा गुणवत्ता विसंगतियाँ: चूक, डुप्लिकेट, गोंद, समय टिकटों की मिसलिग्नमेंट, "फ्लैट" सेंसर।
प्रशिक्षण मोड:- पर्यवेक्षी: चिह्नित विसंगतियां (दुर्लभ, महंगी) हैं।
- अर्ध-पर्यवेक्षी (एक-वर्ग): हम "आदर्श" सिखाते हैं, बाकी सब कुछ असामान्य है।
- गैर-पर्यवेक्षी: हम टैग के बिना "दुर्लभ/दूर" की तलाश कर रहे हैं।
2) डेटा और तैयारी
सामान्य सीमाएं: क्षितिज और मौसमी (घंटे/दिन/सप्ताह), कैलेंडर की घटनाएं, सप्ताहांत, पदोन्नति।
विशेषताएं: लैग्स, स्लाइडिंग सांख्यिकी (माध्य/मध्य/ईएमए), मात्रा सुविधाएँ, श्रेणी एन्कोडिंग, दुर्लभता काउंटर, खिड़की 7/30/90।
सफाई: डीडुप्लीकेशन, टाइम ज़ोन सुधार, फ्रीक्वेंसी बराबरी, स्किप हैंडलिंग (इंटरपोलेशन/फॉरवर्ड-फिल/रिकवरी मॉडल)।
मानकीकरण/मजबूती: उत्सर्जन प्रतिरोध के लिए RobustScaler/रैंक/vinzorization।
प्वाइंट-इन-टाइम शुद्धता: सुविधाएँ पैदा करते समय भविष्य में कोई लीक नहीं होता है।
3) पता लगाने के तरीके
3. 1. सांख्यिकी और नियम
z-स्कोर/मजबूत z (मध्य, MAD), IQR/बॉक्स प्लॉट, विश्वास गलियारों के साथ घातीय चिकना।
नियंत्रण कार्ड (Shewhart, CUSUM, EWMA): उत्पादन प्रक्रियाओं और प्रवाह मैट्रिक्स के लिए।
परिमाण थ्रेसहोल्ड (खिड़कियों द्वारा गतिशील), मौसमी मात्रा थ्रेसहोल्ड।
3. 2. दूरी, घनत्व, समूह
kNN दूरी, स्थानीय बाहरी कारक (LOF) एक स्थानीय दुर्लभता है।
DBSCAN/HDBSCAN - समूहों के बाहर शोर बिंदु।
पीसीए/मजबूत पीसीए - विसंगतियाँ → उच्च अवशिष्ट त्रुटि/एसपीई आंकड़े; होटेलिंग का T²।
3. 3. पहनावा और पेड़
अलगाव वन - छोटे तरीकों से दुर्लभ बिंदुओं को अलग करता है।
बुनियादी नियमों पर यादृच्छिक थ्रेसहोल्डिंग/बैगिंग - भोजन के लिए फास्ट बेसलाइन।
3. 4. पुनर्निर्माण और संभाव्यतावादी
ऑटोएनकोडर/VAE (अनुक्रमों के लिए LSTM/ट्रांसफॉर्मर सहित): विसंगति = उच्च पुनर्निर्माण त्रुटि।
संभाव्य पूर्वानुमान: अनुमानित अंतराल से परे जाना - संकेत।
बायेसियन मॉडल/सामान्य परिवर्तनों की धाराएं - स्पष्ट अनिश्चितता।
3. 5. समय श्रृंखला और मोड परिवर्तन
ARIMA/ETS/पैगंबर/TBATS - पूर्वानुमान + विचलन।
परिवर्तन-बिंदु का पता लगाना: BOCPD, RuLSIF/Divergence मानदंड, Pruned सटीक रैखिक समय (PELT)।
मैट्रिक्स प्रोफाइल/डिस्कॉर्ड खोज - "सबसे अधिक असमान बाद" के लिए खोज करें।
3. 6. बहुआयामी और ग्राफ
बहुभिन्नरूपी टीएस: VAR, TCN/TFT, LSTM-VAE; क्रॉस-सहसंबंध और संयुक्त विश्वास अंतराल।
स्तंभ: असामान्य उप-पथ/नोड्स (उदाहरण के लिए, नेटवर्क यातायात या भुगतान श्रृंखला में)।
4) विधि चयन: व्यावहारिक मैट्रिक्स
5) दुर्लभ विसंगतियों के लिए गुणवत्ता मूल्यांकन
असंतुलन: ROC-AUC भ्रामक हो सकता है; पीआर-एयूसी, सटीक @ k, recall@FPR≤x%, एफ 1, मैथ्यूज सीसी पर ध्यान केंद्रित करें।
समय मीट्रिक: औसत समय का पता लगाने (ATTD), "शुरुआती हिरासत" का अनुपात।
स्थिरता: फड़फड़ाने का प्रतिशत (अक्सर/बंद चेतावनी), "शांत" अवधि की औसत लंबाई।
लागत-आधारित: लागत मैट्रिक्स (झूठी सकारात्मक/झूठी नकारात्मक), घटनाओं का मूल्य समाप्त हो गया।
सत्यापन: समय विभाजन, आउट-ऑफ-टाइम विंडो, समूह विभाजन (उपयोगकर्ता/उपकरण द्वारा), बैक परीक्षण।
6) थ्रेशोल्ड रणनीतियाँ और अंशांकन
स्थैतिक थ्रेसहोल्ड: सरल, लेकिन मौसमी रूप से टूटने पर।
गतिशील: प्रति-खंड/प्रति घंटे की मात्रा, भार और शांत घंटों के लिए अनुकूल।
गति से प्रतिशत: 99। 5 वीं/99। उच्च-परिशुद्धता के लिए 9 वां; श्रेणी द्वारा प्रति-बाल्टी किया जा सकता है।
स्कोरिंग अंशांकन: संभावनाओं के लिए आइसोटोनिक/तापमान; अलर्ट स्मूथिंग (debounce, "N of M")।
हिस्टेरिसिस: विसंगति अवस्था में प्रवेश करने/बाहर निकलने के लिए अलग-अलग थ्रेसहोल्ड।
7) व्याख्या और आरसीए (मूल कारण विश्लेषण)
ग्लोबल: गेन/क्रमपरिवर्तन, पीसीए लोड, सेगमेंट प्रोफाइल, पुनर्निर्माण त्रुटि में घटक योगदान।
स्थानीय रूप से: रैंप पर या सहायक मॉडल पर SHAP/लाइम।
श्रृंखला विशेषता: प्रवृत्ति/मौसमी/रजिस्टर्स (छुट्टियां, अभियान) का योगदान।
विस्तार: "असामान्य खंड - असामान्य विशेषता - असामान्य वस्तुएं।"
कारण: "सच" विसंगति के विपणन प्रभाव के कार्यालय के लिए अंतर-in-।
8) उत्पादन और MLOps
सेवारत: तुल्यकालिक (कम विलंबता, gRPC/REST) और अतुल्यकालिक (बैच/माइक्रोबैच)।
Fichestor: फीचर जनरेशन के लिए ऑनलाइन/ऑफ़लाइन स्थिरता, पॉइंट-इन-टाइम, SLA।
संस्करण: मॉडल, थ्रेसहोल्ड, योजनाएं, कॉन्फ़िग; स्टोर कलाकृतियों और डेटा "कास्ट"।
अलर्टिंग: प्राथमिकता (P1-P3), डीडुप्लीकेशन, खिड़कियों का दमन (रात/छुट्टियां), सामान्यीकरण के दौरान ऑटो-क्लोजिंग।
विफल-सुरक्षित: नियमों/सरल डिटेक्टरों, टाइमआउट, क्यूपीएस सीमा के लिए स्वचालित गिरावट।
छाया/कैनरी: वर्तमान एक के साथ नए डिटेक्टर की तुलना, ऑफलाइन - →shadow - →canary →full।
फीडबैक लूप: अलर्ट मार्किंग इंटरफ़ेस, अर्ध-स्वचालित रिले और प्रशिक्षण।
9) अलर्ट-थकान में कमी
बंडलिंग: समूह एक घटना में समय/खंड में बंद अलर्ट।
अलर्ट पर एसएलओ: प्रति शिफ्ट अलर्ट की सटीकता/संख्या के लिए लक्ष्य।
वृद्धि नीति: अवधि/पैमाने पर प्राथमिकता का विकास।
दर सीमित: प्रति विंडो N अलर्ट से अधिक नहीं; ट्रिगर करने के बाद "शांत अवधि"।
दो-स्तरीय योजना: सस्ते मोटे डिटेक्टर (उच्च रिकॉल) + महंगा सटीक सत्यापन सत्यापन।
10) कार्यान्वयन चेकलिस्ट
- उनकी पहचान के विसंगतियों और व्यावसायिक मूल्य के प्रकार की पहचान की गई
- मौसमी/कैलेंडर को ध्यान में रखा गया; संदर्भ विशेषताओं का निर्माण
- फास्ट बेसलाइन + संभावित रूप से अधिक जटिल विधि चय
- थ्रेशोल्ड रणनीति (गतिशील/प्रति-खंड) और हिस्टेरिसिस
- मेट्रिक्स: पीआर-एयूसी, एटीडी, लागत-मैट्रिक्स, खंड रिपोर्ट
- व्याख्या योजना और आरसीए; डैशबोर्ड ड्रिल-डाउन
- अलर्ट नीतियां, दमन, डीडुप्लिकेशन
- लॉगिंग स्कोरिंग, संस्करण, इनपुट सुविधाएँ; रीप्ले बैक टेस्ट
- प्रक्रियाओं और बहाव नियंत्रण को वापस लेना (PSI/JS-div)
- प्रलेखन: डेटा अनुबंध, एसएलओ, रनिबुक
11) विशिष्ट पैटर्न
"पूर्वानुमान + विचलन": हम संभाव्य पूर्वानुमान (मात्रा 5-95%) को प्रशिक्षित करते हैं, अंतराल से परे जाने पर संकेत।
"पुनर्निर्माता": उच्च पुनर्निर्माण त्रुटि के लिए ऑटोएनकोडर/रोबस्ट पीसीए → अलर्ट।
"इन्सुलेटर": टैबुलर/मल्टीफिक के लिए अलगाव वन; तेज, कुछ सेटिंग्स।
"स्थानीय दुर्लभता": LOF/kNN-दूरी - विभिन्न घनत्वों वाले खंडों के लिए अच्छा है।
"शासन परिवर्तन": BOCPD/PELT + कारण सत्यापन (रिलीज, पदोन्नति, घटना)।
"टू-स्टेज": नियम-आधारित फिल्टर → एमएल-वेरिफायर (झूठी कमी)।
12) डिटेक्टर मॉनिटरिंग
गुणवत्ता: पीआर-एयूसी/सटीक @ k/ATTD स्लाइडिंग विंडो में, पुष्ट अलर्ट का हिस्सा।
डेटा: चूक, लैग्स, असामान्य कार्डिनैलिटी, घटनाओं के फटने।
बहाव: मुख्य विशेषताओं और गति द्वारा पीएसआई/केएल/जेएस, लक्ष्य बहाव (यदि चिह्नित हो)।
ऑपरेटिंग सिस्टम: अनुमान में देरी, QPS, गलती सहिष्णुता, गिरावट का हिस्सा।
13) अंकन और सक्रिय प्रशिक्षण
चिह्नित रणनीतियाँ: गति में शीर्ष-k, समूहों में विविधता, "सीमा" मामले।
सिंथेटिक्स: तनाव परीक्षणों के लिए विसंगति इंजेक्शन (नियंत्रित)।
सक्रिय सीखने: हम विवादास्पद घटनाओं के लिए विश्लेषकों से लेबल मांग
कमजोर पर्यवेक्षण: कमजोर लेबल + लेबल एग्रीगेटर के रूप में नियम/अनुमान।
14) सुरक्षा, नैतिकता, अनुपालन
गोपनीयता: क्षेत्रों को कम करना, छद्म नाम, भूमिका पहुंच।
पारदर्शिता: सतर्क कारणों और स्वचालन क्रियाओं की व्याख्या।
ऑडिट: निर्णय लॉग, थ्रेसहोल्ड/संस्करण/डेटा की प्रजनन क्षमता।
निष्पक्षता: खंड द्वारा पूर्वाग्रह नियंत्रण (विशेष रूप से विरोधी धोखाधड़ी/स्को
मिनी शब्दावली
परिवर्तन बिंदु: श्रृंखला वितरण/मोड परिवर्तन का क्षण।
PR-AUC: सटीक-रिकॉल वक्र के तहत क्षेत्र, दुर्लभ सकारात्मक पर स्थिर।
पीएसआई: जनसंख्या स्थिरता सूचकांक, वितरण बहाव मीट्रिक।
मैट्रिक्स प्रोफाइल/डिस्कॉर्ड: बाद में "सबसे अधिक असंतुष्ट" खोजने का एक तरीका।
कुल
एक प्रभावी विसंगति का पता लगाने वाला लूप एक "स्मार्ट" एल्गोरिथ्म नहीं है, लेकिन एक संयोजन: सही संदर्भ (मौसमी/कैलेंडर), मजबूत विशेषताएं, आरसीए द्वारा व्याख्या की गई एक अच्छी तरह से सोची-समझी नीति। यह दृष्टिकोण झूठे अलार्म को कम करता है और विसंगतियों के वास्तविक लाभों को बढ़ाता है - विफलताओं का शुरुआती पता लगाने से लेकर नुकसान की रोकथाम