ניטור מודלים
1) מדוע
המטרה היא לשמור על איכות ובטיחות של פתרונות המודל במכירה, תוך עמידה בתקציבי SLA/SLO, RG/AML/Legal ו-SLO. ניטור צריך לזהות השפלה מוקדמת (נתונים, כיול, איחוי, עלות), למזער את העלות הצפויה של שגיאות ולהבטיח רבייה/ביקורת.
2) אזורי ניטור (מפה)
1. זמינות וביצועים: latency p95/p99, שגיאה-קצב, RPS, אוטוסקלה.
2. איכות תחזית: PR-AUC/KS (בתוויות מקוונות), כיול (ECE), סף @ cost צפוי.
3. סחיפה ויציבות: PSI/KL לפי תכונות ומהירות, שינוי הפצות/קטגוריות.
4. כיסוי ושלמות: החלק של בקשות מוגשות בהצלחה, החלק של תכונות ”ריקות”, מטמונים בקצב להיט.
5. פרוסה/הוגנות: מדדים על ידי שוק/ספק/התקן/גיל חשבון.
6. מעקות בטיחות (RG/AML): הפרות מדיניות, תדרי התערבות, תוצאות חיוביות/שליליות שגויות.
7. עלות: עלות/בקשה, עלות/תכונה, שעון GPU/מעבד, קבצים קטנים/IO (עבור אצווה/כמעט RT).
8. נתונים/חוזים: ערכת תכונה, גרסאות, מקוון/מקוון.
3) SLI/SLO (ציוני דרך עבור iGaming)
Latency p95: personalization low 150 ms, RG/AML מתריע על 5 עם e2e.
זמינות: 99. 9%.
שגיאה בשיעור 5xx: סימון 0. 5% בחלון של 5 דקות.
כיסוי: 99% מהבקשות קיבלו מהירות ופתרון תקפים.
טריות של תוויות להערכה מקוונת: D + 1 (יומי), עבור פרוקסים מהירים - 1 שעה.
סחיפה PSI: תכונה/קצב <0. 2 (אזהרה 0. 1).
כיול ECE: סימון 0. 05.
Expected-cost_live: לא גבוה יותר ממודל הבסיס + X% (היעד X נבחר על ידי העסק).
4) אותות ונוסחאות
4. סחיפה 1
PSI: לסכם באמצעות bin את ההפרש בהפצות (רכבת נגד פרוד).
סטייה של KL: רגיש לזנבות ”דקים”; צג לתווי מפתח/מהירות.
KS לשיעורים (אם קיימות תוויות): הפרשי CDF עבור חיוביים/שליליים.
4. 2 כיול
4. 3 עלות צפויה
מזעור (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) על סף העבודה; ספירה מקוונת בחלון הזזה עם תוויות מעוכבות.
5) מקורות תווית
תוויות מקוונות (פרוקסי מהירות): אירוע הפקדה של 7 ימים, קליק/המרה, הושלם תיק RG.
תוויות מאוחרות: צ 'ארג' בק/הונאה (45-90 ימים), נזיפה לטווח ארוך/LTV.
חוקים: לשמור על הזמן; אל תשתמש באירועים ”מהעתיד”.
6) לוחות מחוונים (הרכב מינימלי)
1. הפעלה: RPS, p50/p95/p99 latency, 4xx/5xx, רוויה, אוטוסקלינג.
2. איכות: ניקוד-הפצה, יחסי ציבור (על תוויות פרוקסי), ECE, עלות צפויה, KS.
3. סחיפה: PSI/KL לפי תכונות עליונות, קטגוריות חידוש, איחוי חסר-קצב, תכונה-להביא.
4. פרוסה/הוגנות: PR-AUC/ECE/עלות צפויה על ידי שוק/ספק/התקן.
5. מעקות בטיחות: הפרות RG/AML, התערבויות/1 K בקשות, קצב עצירה כוזב.
6. עלות: עלות/בקשה, זמן מעבד/GPU, קצב חיסול מטמון, חיפושים חיצוניים.
7) התראה (כללי דוגמה)
HighP95Latency: p95> 150 ms (5 min) □ עמוד SRE/MLOps.
ברסט: 5xx> 0. 5% (5 דקות) Lollback script זמין.
PSI_Drift: pSI (amount_base)> 0. 2 (15 דקות) = אימוני חימום מחדש.
ECE_Bad: ECE> 0. 07 (30 דקות) * לבנות מחדש כיול/סף.
ExpectedCost_Up: + X% לספסל (יום 1) = לשקול רולבק/עומס יתר.
Slice_Failure: יחסי ציבור בשוק ה-R נפלו> Y (יום 1) = הבעלים של תחום הכרטיסים.
Guardrails_Breach: נתח של הצעות אגרסיביות> cap = מתג-להרוג מיידי.
8) כריתת עצים ואיתור
רישומי בקשות (מינימום): ”בקשה”, ”trace _ id',” model _ id/version ”,” feature _ version ”,” feature _ stats' (חסר%, קיצוניות), ”ציון”, ”החלטה”, ”סף”, ”מדיניות _ id',” guard _ mask ”,” latency _ mass' AP top-k).
Otel-tellectorious: state _ frience _ fetch "preprocess' ac" score "" abc "postprocess' ac" fostrovercess' warrile ".
PII: כינויים/אסימונים בלבד; מיסוך מדיניות, תושבות מפתח.
9) הערכת איכות מקוונת
הזזת חלונות עבור יחסי ציבור/KS על ידי תוויות מהירות (שעה/יום).
תוויות שנשמרו: D + 7/D + 30/D + 90 דיווחים רטרוספקטיביים, התאמות בעלות צפויה.
כיול: הערכה מחדש איזוטונית/פלאט על D + 1, פריט רענון אוטומטי.
10) סף החלטה ומדיניות
אנחנו שומרים את הסף כתצורה בקופה; באופן מקוון אנו שוקלים עלות צפוייה ולהתאים בטווח המותר (דרגה מוגבלת).
כובעי בטיחות: גבולות עליונים/תחתונים של פעולות; לעקוף ידני לציות.
סימולציה לילית על הנתונים מאתמול.
11) פרוסה והוגנות
מגזרים: שוק/תחום שיפוט, ספק, התקן/ASN, גיל חשבון, כוח הפקדה.
מטריצות: יחסי ציבור, ECE, עלויות צפויות, הבדלי FPR/TPR (סיכויים משווים), השפעות שונות.
פעולות: כיול/סף לפרוסות, אימון מחדש עם מאזניים, שינוי התכונה.
12) מקוון/לא מקוון
מאפיין מבחן השוויון: MAE/MAPE על מדגם הבקרה; התראה בעת הסטה> סף.
Versioning: ”feature _ spec _ version”, ”logic _ version”; ארכיון התולעת.
חוזים מעגליים: שבירת שינוי אינה מותרת ללא כניסה כפולה (v1/v2).
13) מעקות בטיחות (RG/AML)
פעולות פרה/פוסט-סינון, מגבלות תדירות, התקררות, רשימות של איסורים.
policy _ id/tensity/mask/decision "; הפרות דו "ח.
זמן לראיון ומדדי שיעור התערבות שווא.
14) אירועים וספר ריצות
תרחישים וצעדים:1. Latency brough/5xx: בדוק ספקי תכונה חיצוניים * אפשר מטמון/פסקי זמן * rollback אם יש צורך.
2. PSI/ECE/Extended-cost הידרדרה: להקפיא את התנועה (canary out), לאפשר סף פלג/מודל, להפעיל מחדש.
3. כישלון חתך: סף זמני פרוסה ספציפי, כרטיס לבעל התחום.
4. פריצת מעקות בטיחות: מתג חיסול, ביקורת תיקים, אחרי הים.
15) עלות וביצועים
פרופילים: חלקיק זמן במאפיין-להביא נגד ציון נגד IO.
אסטרטגיות מטמון: TTL/פינוי, תכונות חמות ב ־ RAM, קרות - עצלות.
קוונטיזציה/אופטימיזציה מודל: FP16/INT8 תוך שמירה על איכות.
Chargback: עלות/בקשה, עלות/תכונה על ידי צוות/שוק.
16) דוגמאות (קטעים)
סף עלות צפוי (פסאודו-קוד):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
פרומתאוס (רעיונות מטריים):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
התראה (רעיון):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) תהליכים ו ־ RACI
R (אחראי): MLops (יכולת תצפית/התראות/רישום), Data Science (מדדים/כיול/סף), Data Eng (תכונות/חוזים/שוויון).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/RG/AML/DSAR), אבטחה (KMS/Audit), SRE (SLO/Generations), פיננסים (עלות).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.
18) מפת דרכים
MVP (2-4 שבועות):1. SLI/SLO בסיסי (latency/5xx/cover) + לוח מחוונים.
2. PSI עבור 10 התכונות הטובות ביותר והפצת נקודות; ECE ועלות צפויה על תוויות פרוקסי.
3. רישומי החלטות + שבילי Otel; מבחן מקוון/לא מקוון.
4. התראות HighP95Latency/PSI_Drift/ECE_Bad + runbook "ו.
שלב 2 (שבועות 4-8):- לוחות פרוסה/הגינות, מדדים לאחור לילה על תוויות מעוכבות.
- כיול אוטומטי וסימולטור סף.
- לוח מחוונים ומכסות/מגבלות על תכונות/הילוכים חוזרים.
- שחרור אוטומטי/נסיעה חוזרת עם בקרת הקנרית.
- ארכיון של דוחות איכות וחפצים.
- בדיקות מעקב כאוס ותרגילי ד "ר.
19) רשימת משלוחים
[ ] SLI/SLO הסכימו ועקבו אחרי צל/כנרית 24 שעות.
[ ] PSI/KL, ECE, עלות צפויה ויחסי ציבור נחשבים באינטרנט; הסף וההתראות מצוינים.
[ ] לוחות פרוסה/הגינות מופעלים; בעלי פלחים מוקצים.
[ ] לוגים/שבילים להשלים (החלטות, סף, מסכות), מיסוך מח "ש, ותושבות נפגשה.
[ מבחן ] Acqualence online/offline green; דיאגרמות תכונה תחת החוזה.
[ ] Runbook "ו rollback קליק אחד נבדק; מתג הריגה מעקות בטיחות.
[ עלות ] מתאימה לתקציבים; מטמון/מכסות/גבולות פעילים.
[ ] ארכיון תולעת של מדדים/חפצים ודוחות איכות נשמר.
20) אנטי דפוסים וסיכונים
מחסור בתוויות מקוונות והערכה רטרוספקטיבית.
ROC-AUC רק ניטור ללא עלות צפויה וכיול.
התעלם מפרוסה/הגינות * כשלים חבויים באזורים/התקנים.
אין שוויון בין תכונה מקוונת/לא מקוונת = ”מציאות כפולה”.
אפס מעקות בטיחות: הצעות רעילות, הפרות RG/AML.
בלי תוכניות גלגיליות, בלי ארכיון תולעת.
21) השורה התחתונה
ניטור מודלים הוא אזהרה מוקדמת ומערכת ניהול סיכונים/עלויות במקום ”להסתכל פעם בשבוע”. ”הזן SLO, מדידת סחיפה/כיול/עלות צפויה, פרוסות מסלול ומעקות בטיחות, החזקת כפתורי rollback/kill-switch, דו” חות אוטומטיים ואימונים מחדש. אז המודלים יישארו שימושיים, אתיים ותאימים לכל מערבולת של נתונים ותנועה.