मॉडल निगरानी
1) क्यों
लक्ष्य एसएलए/एसएलओ, आरजी/एएमएल/कानूनी और बजट का अनुपालन करते हुए बिक्री में मॉडल के समाधानों की गुणवत्ता और सुरक्षा को बनाए रखना है। निगरानी को प्रारंभिक गिरावट (डेटा, अंशांकन, विलंबता, लागत) का पता लगाना चाहिए, त्रुटियों की अपेक्षित लागत को कम करना चाहिए और प्रजनन/ऑडिट सुनिश्चित करना चाहिए।
2) निगरानी क्षेत्र (नक्शा)
1. उपलब्धता और प्रदर्शन: विलंबता p95/p99, त्रुटि-दर, आरपीएस, ऑटोस्केल।
2. भविष्यवाणी की गुणवत्ता: पीआर-एयूसी/केएस (ऑनलाइन लेबल पर), अंशांकन (ईसीई), अपेक्षित-लागत @ थ्रेशोल्ड।
3. बहाव और स्थिरता: सुविधाओं और गति द्वारा पीएसआई/केएल, वितरण/श्रेणियों का परिवर्तन।
4. कवरेज और पूर्णता: सफलतापूर्वक परोसे गए अनुरोधों का हिस्सा, "खाली" सुविधाओं का हिस्सा, हिट-रेट कैश।
5. स्लाइस/निष्पक्षता: बाजार/प्रदाता/उपकरण/खाता आयु द्वारा मैट्रिक्स।
6. गार्ड (आरजी/एएमएल): नीति उल्लंघन, हस्तक्षेप आवृत्तियां, झूठी सकारात्मकता/नकारात्मक।
7. लागत: लागत/अनुरोध, लागत/सुविधा, जीपीयू/सीपीयू-घड़ी, छोटी-फ़ाइलें/आईओ (बैच/निकट-आरटी के लिए)।
8. डेटा/अनुबंध: सुविधा योजना, संस्करण, ऑनलाइन/ऑफ़लाइन समतुल्यता।
3) SLI/SLO (iGaming के लिए स्थल)
लेटेंसी p95: निजीकरण ≤ 150 ms, RG/AML अलर्ट e2e के साथ ≤ 5।
उपलब्धता: ≥ 99। 9%.
त्रुटि दर 5xx: ≤ 0। 5 मिनट की खिड़की में 5%।
कवरेज: ≥ 99% अनुरोधों को एक वैध गति और समाधान मिला।
ऑनलाइन मूल्यांकन के लिए लेबल की ताजगी: डी + 1 (दैनिक), फास्ट प्रॉक्सी के लिए - ≤ 1 घंटा।
बहाव पीएसआई: सुविधा/दर <0। 2 (चेतावनी с 0। 1).
ECE अंशांकन: ≤ 0। 05.
Expected-cost_live: बेस मॉडल + X% से अधिक नहीं (लक्ष्य X व्यवसाय द्वारा चुना जाता है)।
4) संकेत और सूत्र
4. 1 बहाव
पीएसआई: वितरण में अंतर (ट्रेन बनाम प्रॉड) द्वारा संक्षेप में प्रस्तुत करें।
केएल-विचलन: "पतली" पूंछ के प्रति संवेदनशील; प्रमुख विशेषताओं/गति के लिए मॉनीटर
दरों के लिए केएस (यदि लेबल मौजूद हैं): सकारात्मक/नकारात्मक के लिए सीडीएफ अंतर।
4. 2 कैलिब्रेशन
4. 3 अपेक्षित-लागत
कार्यशील सीमा पर न्यूनतम (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); विलंबित लेबल के साथ स्लाइडिंग विंडो में ऑनलाइन गणना।
5) लेबल स्रोत
ऑनलाइन लेबल (फास्ट प्रॉक्सी): 7-दिवसीय डिपॉजिट इवेंट, क्लिक/रूपांतरण, आरजी केस पूरा।
विलंबित लेबल: चार्जबैक/धोखाधड़ी (45-90 दिन), दीर्घकालिक मंथन/एलटीवी।
नियम: समय के रूप में रखें; "भविष्य से" घटनाओं का उपयोग न करें।
6) डैशबोर्ड (न्यूनतम रचना)
1. ऑपरेटिंग: RPS, p50/p95/p99 लेटेंसी, 4xx/5xx, संतृप्ति, ऑटोस्कलिंग।
2. गुणवत्ता: स्कोर-वितरण, पीआर-एयूसी (प्रॉक्सी लेबल पर), ईसीई, अपेक्षित-लागत, केएस।
3. बहाव: शीर्ष सुविधाओं, नवीनता श्रेणियों, गुम-दर, सुविधा-लाभ विलंबता द्वारा पीएसआई/केएल।
4. स्लाइस/निष्पक्षता: पीआर-एयूसी/ईसीई/बाजार/प्रदाता/डिवाइस द्वारा अपेक्षित-लागत।
5. गार्ड: आरजी/एएमएल उल्लंघन, हस्तक्षेप/1k अनुरोध, झूठी-रोक दर।
6. लागत: लागत/अनुरोध, सीपीयू/जीपीयू समय, कैश हिट-दर, बाहरी लुकअप।
7) अलर्टिंग (उदाहरण नियम)
HighP95Latency: p95> 150 ms (5 min) → पृष्ठ SRE/MLOps।
Burst: 5xx> 0। 5% (5 मिनट) → रोलबैक स्क्रिप्ट उपलब्ध है।
PSI_Drift: पीएसआई (amount_base)> 0। 2 (15 मिनट) → वार्म-अप रिट्रेन।
ECE_Bad: ईसीई> 0। 07 (30 मिनट) → पुनर्निर्माण अंशांकन/थ्रेसहोल्ड।
ExpectedCost_Up: + X% को बेंचमार्क (1 दिन) पर → रोलबैक/ओवरलोड पर विचार करें।
: आर बाजार में पीआर-एयूसी गिर गया> वाई% (1 दिन) - टिकट डोमेन का मालिक।
Guardrails_Breach: आक्रामक ऑफर> कैप → तत्काल किल-स्विच का हिस्सा।
8) लॉगिंग और ट्रेसिंग
क्वैरी लॉग्स (न्यूनतम): 'अनुरोध _ आईडी', 'ट्रेस _ आईडी', 'मॉडल _ आईडी/संस्करण', 'फीचर _ स्टेट्स' (लापता%, चरम), 'स्कोर', 'निर्णय', 'पॉलिसी _ आईडी', 'गार्ड _ मास्क', 'वैकल्पिक) स्पष्टीकरण (SHAP टॉप-के)।
OTel- : 'feature _ featch' 'preprocess' 'स्कोर' पोस्टप्रोसेस ' ' रेलिंग '।
PII: केवल एलियास/टोकन; नीति मास्किंग, प्रमुख निवास।
9) ऑनलाइन गुणवत्ता मूल्यांकन
फास्ट लेबल (घंटा/दिन) द्वारा पीआर-एयूसी/केएस के लिए स्लाइडिंग विंडो।
रिटेन किए गए लेबल: D + 7/D + 30/D + 90 पूर्वव्यापी रिपोर्ट, अपेक्षित-लागत समायोजन।
अंशांकन: डी + 1 पर आइसोटोनिक/प्लाट पुनर्मूल्यांकन, ऑटो-रिफ्रेश कलाकृतियों।
10) निर्णय सीमा और नीति
हम रजिस्टर में एक कॉन्फ़िग के रूप में दहलीज रखते हैं; ऑनलाइन हम अपेक्षित लागत पर विचार करते हैं और अनुमेय सीमा (दर-सीमित) के भीतर समायोजित करते हैं।
सुरक्षा-कैप: कार्रवाई की ऊपरी/निचली सीमा; अनुपालन के लिए मैनुअल ओवरराइड।
बैकटेस्टिंग थ्रेसहोल्ड: कल के डेटा पर रात का सिमुलेशन।
11) स्लाइस और निष्पक्षता
खंड: बाजार/अधिकार क्षेत्र, प्रदाता, उपकरण/एएसएन, खाता आयु, जमा शक्ति।
मेट्रिक्स: पीआर-एयूसी, ईसीई, अपेक्षित-लागत, एफपीआर/टीपीआर अंतर (समान बाधाओं), असमान प्रभाव।
क्रियाएं: स्लाइस के लिए अंशांकन/सीमा, तराजू के साथ पीछे हटना, सुविधा का संशोधन।
12) तुल्यता ऑनलाइन/ऑफ़लाइन
समानता परीक्षण सुविधा: नियंत्रण नमूने पर MAE/MAPE; > दहलीज डायवर्ट करते समय सतर्क रहें।
संस्करण: 'feature _ spec _ version', 'logic _ version'; WORM संग्रह।
सर्किट अनुबंध: डबल एंट्री (v1/v2) के बिना ब्रेकिंग-चेंज की अनुमति नहीं है।
13) गार्ड (आरजी/एएमएल)
प्री-/पोस्ट-फ़िल्टर क्रियाएं, आवृत्ति सीमा, शीतलन, निषेधों की सूची।
Логи 'पॉलिसी _ आईडी/प्रवृत्ति/मास्क/निर्णय'; रिपोर्ट उल्लंघन।
समय-से-साक्षात्कार और झूठी-हस्तक्षेप दर मेट्रिक्स।
14) घटनाएं और रनबुक
परिदृश्य और कदम:1. : बाहरी फीचर प्रदाताओं की जाँच करें - यदि आवश्यक हो तो कैश/टाइमआउट स्केल रोलबैक सक्षम करें।
2. पीएसआई/ईसीई/अपेक्षित-लागत बिगड़ गई: फ्रीज ट्रैफिक (canary↓), फॉलबैक थ्रेसहोल्ड/मॉडल सक्षम करें, रेट्रेन चलाएं।
3. स्लाइस विफलता: अस्थायी स्लाइस-विशिष्ट सीमा, डोमेन मालिक को टिकट।
4. गार्ड ब्रीच: किल-स्विच, केस ऑडिट, पोस्ट-सी।
15) लागत और प्रदर्शन
प्रोफाइलिंग: फीचर-लाने बनाम स्कोर बनाम IO में समय का अंश।
कैश रणनीतियाँ: टीटीएल/निष्कासन, रैम में गर्म सुविधाएँ, ठंडे लोग - आलसी।
मॉडल परिमाणीकरण/अनुकूलन: FP16/INT8 गुणवत्ता बनाए रखते हुए।
चार्जबैक: लागत/अनुरोध, टीम/बाजार द्वारा लागत/सुविधा।
16) उदाहरण (टुकड़े)
अपेक्षित-लागत सीमा (स्यूडोकोड):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
प्रोमेथियस (मीट्रिक विचार):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
अलर्ट (विचार):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) प्रक्रियाएं और आरएसीआई
आर (जिम्मेदार): MLOps (अवलोकन/अलर्ट/रजिस्ट्री), डेटा विज्ञान (गुणवत्ता मैट्रिक्स/अंशांकन/सीमा), डेटा इंग (सुविधाएँ/अनुबंध/समतुल्यता)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/डीपीओ (पीआईआई/आरजी/एएमएल/डीएसएआर), सुरक्षा (केएमएस/लेखा परीक्षा), एसआरई (एसएलओ/घटनाएं), वित्त (लागत)।
I (सूचित): उत्पाद/विपणन/संचालन/सहायता।
18) रोडमैप
एमवीपी (2-4 सप्ताह):1. बेसिक SLI/SLO (विलंबता/5xx/कवरेज) + डैशबोर्ड।
2. शीर्ष 10 सुविधाओं और स्कोर-वितरण के लिए पीएसआई; प्रॉक्सी लेबल पर ईसीई और अपेक्षित लागत।
3. निर्णय लॉग + ओटेल ट्रेल्स; ऑनलाइन/ऑफ़लाइन समतुल्यता परीक्षण।
4. अलर्ट HighP95Latency/PSI_Drift/ECE_Bad + रनबुक 'और।
चरण 2 (4-8 सप्ताह):- स्लाइस/फेयरनेस पैनल, विलंबित लेबल पर रात के बैकफिल मेट्रिक्स।
- ऑटो-रिकैलिब्रेशन और थ्रेशोल्ड सिम्युलेटर।
- सुविधाओं/रिप्ले पर लागत-डैशबोर्ड और कोटा/सीमाएं।
- कैनरी नियंत्रण के साथ ऑटो-रिलीज ़/रिट्रेन बहाव।
- गुणवत्ता रिपोर्ट और कलाकृतियों के WORM अभिलेखागार।
- अराजकता निगरानी परीक्षण और डीआर अभ्यास।
19) डिलीवरी चेकलिस्ट
- SLI/SLO ने छाया/कैनरी ≥ 24 घंटे पर सहमति और निगरानी की।
- पीएसआई/केएल, ईसीई, अपेक्षित-लागत और पीआर-एयूसी को ऑनलाइन माना जाता है; थ्रेसहोल्ड और अलर्ट निर्दिष्ट हैं।
- स्लाइस/निष्पक्षता पैनल सक्षम हैं; खंड मालिकों को सौंपा गया है।
- लॉग/ट्रेल्स पूर्ण (निर्णय, थ्रेसहोल्ड, मास्क), पीआईआई मास्किंग, और निवास मिले।
- तुल्यता परीक्षण ऑनलाइन/ऑफ़लाइन ग्रीन; अनुबंध के तहत आरेख की सुविधा।
- रनबुक 'और वन-क्लिक रोलबैक परीक्षण; किल-स्विच для रेलिंग।
- लागत बजट में फिट बैठती है; कैश/कोटा/सीमा सक्रिय हैं।
- मैट्रिक्स/कलाकृतियों और गुणवत्ता रिपोर्ट के WORM संग्रह को बचाया जाता है।
20) एंटी-पैटर्न और जोखिम
ऑनलाइन लेबल और पूर्वव्यापी मूल्यांकन की कमी।
आरओसी-एयूसी केवल अपेक्षित लागत और अंशांकन के बिना निगरानी करता है।
स्लाइस/फेयरनेस - क्षेत्रों/उपकरणों में छिपी विफलताओं को अनदेखा करें।
ऑनलाइन/ऑफ़लाइन सुविधा - "डबल रियलिटी" कोई समतुल्यता नहीं है।
शून्य रेलिंग: विषाक्त प्रस्ताव, आरजी/एएमएल उल्लंघन।
कोई रोलबैक/डीआर योजना नहीं, कोई WORM संग्रह नहीं।
21) नीचे की रेखा
मॉडल निगरानी सप्ताह में एक बार देखने के बजाय एक प्रारंभिक चेतावनी और जोखिम/लागत प्रबंधन प्रणाली है। "एसएलओ दर्ज करें, बहाव/अंशांकन/अपेक्षित-लागत, ट्रैक स्लाइस और रेलिंग मापें, रोलबैक/किल-स्विच बटन पकड़ें, रिपोर्ट और रिट्रेन स्वचालित करें। इसलिए मॉडल डेटा और ट्रैफ़िक की किसी भी अशांति के साथ उपयोगी, नैतिक और आज्ञाकारी रहेंगे।