GH GambleHub

ניטור מודלים

1) מדוע

המטרה היא לשמור על איכות ובטיחות של פתרונות המודל במכירה, תוך עמידה בתקציבי SLA/SLO, RG/AML/Legal ו-SLO. ניטור צריך לזהות השפלה מוקדמת (נתונים, כיול, איחוי, עלות), למזער את העלות הצפויה של שגיאות ולהבטיח רבייה/ביקורת.

2) אזורי ניטור (מפה)

1. זמינות וביצועים: latency p95/p99, שגיאה-קצב, RPS, אוטוסקלה.
2. איכות תחזית: PR-AUC/KS (בתוויות מקוונות), כיול (ECE), סף @ cost צפוי.
3. סחיפה ויציבות: PSI/KL לפי תכונות ומהירות, שינוי הפצות/קטגוריות.
4. כיסוי ושלמות: החלק של בקשות מוגשות בהצלחה, החלק של תכונות ”ריקות”, מטמונים בקצב להיט.
5. פרוסה/הוגנות: מדדים על ידי שוק/ספק/התקן/גיל חשבון.
6. מעקות בטיחות (RG/AML): הפרות מדיניות, תדרי התערבות, תוצאות חיוביות/שליליות שגויות.
7. עלות: עלות/בקשה, עלות/תכונה, שעון GPU/מעבד, קבצים קטנים/IO (עבור אצווה/כמעט RT).
8. נתונים/חוזים: ערכת תכונה, גרסאות, מקוון/מקוון.

3) SLI/SLO (ציוני דרך עבור iGaming)

Latency p95: personalization low 150 ms, RG/AML מתריע על 5 עם e2e.
זמינות: 99. 9%.
שגיאה בשיעור 5xx: סימון 0. 5% בחלון של 5 דקות.
כיסוי: 99% מהבקשות קיבלו מהירות ופתרון תקפים.
טריות של תוויות להערכה מקוונת: D + 1 (יומי), עבור פרוקסים מהירים - 1 שעה.
סחיפה PSI: תכונה/קצב <0. 2 (אזהרה 0. 1).
כיול ECE: סימון 0. 05.
Expected-cost_live: לא גבוה יותר ממודל הבסיס + X% (היעד X נבחר על ידי העסק).

4) אותות ונוסחאות

4. סחיפה 1

PSI: לסכם באמצעות bin את ההפרש בהפצות (רכבת נגד פרוד).
סטייה של KL: רגיש לזנבות ”דקים”; צג לתווי מפתח/מהירות.
KS לשיעורים (אם קיימות תוויות): הפרשי CDF עבור חיוביים/שליליים.

4. 2 כיול

ECE (שגיאת כיול צפויה):חזה-אבחון אמפירי קצבעל סלים.
עקומת אמינות: דיוק גרף נגד הסתברות.

4. 3 עלות צפויה

מזעור (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) בסף העבודה; ספירה מקוונת בחלון הזזה עם תוויות מעוכבות.

5) מקורות תווית

תוויות מקוונות (פרוקסי מהירות): אירוע הפקדה של 7 ימים, קליק/המרה, הושלם תיק RG.
תוויות מאוחרות: צ 'ארג' בק/הונאה (45-90 ימים), נזיפה לטווח ארוך/LTV.
חוקים: לשמור על הזמן; אל תשתמש באירועים ”מהעתיד”.

6) לוחות מחוונים (הרכב מינימלי)

1. הפעלה: RPS, p50/p95/p99 latency, 4xx/5xx, רוויה, אוטוסקלינג.
2. איכות: ניקוד-הפצה, יחסי ציבור (על תוויות פרוקסי), ECE, עלות צפויה, KS.
3. סחיפה: PSI/KL לפי תכונות עליונות, קטגוריות חידוש, איחוי חסר-קצב, תכונה-להביא.
4. פרוסה/הוגנות: PR-AUC/ECE/עלות צפויה על ידי שוק/ספק/התקן.
5. מעקות בטיחות: הפרות RG/AML, התערבויות/1 K בקשות, קצב עצירה כוזב.
6. עלות: עלות/בקשה, זמן מעבד/GPU, קצב חיסול מטמון, חיפושים חיצוניים.

7) התראה (כללי דוגמה)

HighP95Latency: p95> 150 ms (5 min) □ עמוד SRE/MLOps.
ברסט: 5xx> 0. 5% (5 דקות) Lollback script זמין.
PSI_Drift: pSI (amount_base)> 0. 2 (15 דקות) = אימוני חימום מחדש.
ECE_Bad: ECE> 0. 07 (30 דקות) * לבנות מחדש כיול/סף.
ExpectedCost_Up: + X% לספסל (יום 1) = לשקול רולבק/עומס יתר.
Slice_Failure: יחסי ציבור בשוק ה-R נפלו> Y (יום 1) = הבעלים של תחום הכרטיסים.
Guardrails_Breach: נתח של הצעות אגרסיביות> cap = מתג-להרוג מיידי.

8) כריתת עצים ואיתור

רישומי בקשות (מינימום): ”בקשה”, ”trace _ id',” model _ id/version ”,” feature _ version ”,” feature _ stats' (חסר%, קיצוניות), ”ציון”, ”החלטה”, ”סף”, ”מדיניות _ id',” guard _ mask ”,” latency _ mass' AP top-k).
Otel-tellectorious: state _ frience _ fetch "preprocess' ac" score "" abc "postprocess' ac" fostrovercess' warrile ".
PII: כינויים/אסימונים בלבד; מיסוך מדיניות, תושבות מפתח.

9) הערכת איכות מקוונת

הזזת חלונות עבור יחסי ציבור/KS על ידי תוויות מהירות (שעה/יום).
תוויות שנשמרו: D + 7/D + 30/D + 90 דיווחים רטרוספקטיביים, התאמות בעלות צפויה.
כיול: הערכה מחדש איזוטונית/פלאט על D + 1, פריט רענון אוטומטי.

10) סף החלטה ומדיניות

אנחנו שומרים את הסף כתצורה בקופה; באופן מקוון אנו שוקלים עלות צפוייה ולהתאים בטווח המותר (דרגה מוגבלת).
כובעי בטיחות: גבולות עליונים/תחתונים של פעולות; לעקוף ידני לציות.
סימולציה לילית על הנתונים מאתמול.

11) פרוסה והוגנות

מגזרים: שוק/תחום שיפוט, ספק, התקן/ASN, גיל חשבון, כוח הפקדה.
מטריצות: יחסי ציבור, ECE, עלויות צפויות, הבדלי FPR/TPR (סיכויים משווים), השפעות שונות.
פעולות: כיול/סף לפרוסות, אימון מחדש עם מאזניים, שינוי התכונה.

12) מקוון/לא מקוון

מאפיין מבחן השוויון: MAE/MAPE על מדגם הבקרה; התראה בעת הסטה> סף.
Versioning: ”feature _ spec _ version”, ”logic _ version”; ארכיון התולעת.
חוזים מעגליים: שבירת שינוי אינה מותרת ללא כניסה כפולה (v1/v2).

13) מעקות בטיחות (RG/AML)

פעולות פרה/פוסט-סינון, מגבלות תדירות, התקררות, רשימות של איסורים.
policy _ id/tensity/mask/decision "; הפרות דו "ח.
זמן לראיון ומדדי שיעור התערבות שווא.

14) אירועים וספר ריצות

תרחישים וצעדים:

1. Latency brough/5xx: בדוק ספקי תכונה חיצוניים * אפשר מטמון/פסקי זמן * rollback אם יש צורך.

2. PSI/ECE/Extended-cost הידרדרה: להקפיא את התנועה (canary out), לאפשר סף פלג/מודל, להפעיל מחדש.

3. כישלון חתך: סף זמני פרוסה ספציפי, כרטיס לבעל התחום.

4. פריצת מעקות בטיחות: מתג חיסול, ביקורת תיקים, אחרי הים.

15) עלות וביצועים

פרופילים: חלקיק זמן במאפיין-להביא נגד ציון נגד IO.
אסטרטגיות מטמון: TTL/פינוי, תכונות חמות ב ־ RAM, קרות - עצלות.
קוונטיזציה/אופטימיזציה מודל: FP16/INT8 תוך שמירה על איכות.
Chargback: עלות/בקשה, עלות/תכונה על ידי צוות/שוק.

16) דוגמאות (קטעים)

סף עלות צפוי (פסאודו-קוד):
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]
פרומתאוס (רעיונות מטריים):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
התראה (רעיון):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) תהליכים ו ־ RACI

R (אחראי): MLops (יכולת תצפית/התראות/רישום), Data Science (מדדים/כיול/סף), Data Eng (תכונות/חוזים/שוויון).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/RG/AML/DSAR), אבטחה (KMS/Audit), SRE (SLO/Generations), פיננסים (עלות).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.

18) מפת דרכים

MVP (2-4 שבועות):

1. SLI/SLO בסיסי (latency/5xx/cover) + לוח מחוונים.

2. PSI עבור 10 התכונות הטובות ביותר והפצת נקודות; ECE ועלות צפויה על תוויות פרוקסי.

3. רישומי החלטות + שבילי Otel; מבחן מקוון/לא מקוון.

4. התראות HighP95Latency/PSI_Drift/ECE_Bad + runbook "ו.

שלב 2 (שבועות 4-8):
  • לוחות פרוסה/הגינות, מדדים לאחור לילה על תוויות מעוכבות.
  • כיול אוטומטי וסימולטור סף.
  • לוח מחוונים ומכסות/מגבלות על תכונות/הילוכים חוזרים.
שלב 3 (8-12 שבועות):
  • שחרור אוטומטי/נסיעה חוזרת עם בקרת הקנרית.
  • ארכיון של דוחות איכות וחפצים.
  • בדיקות מעקב כאוס ותרגילי ד "ר.

19) רשימת משלוחים

[ ] SLI/SLO הסכימו ועקבו אחרי צל/כנרית 24 שעות.
[ ] PSI/KL, ECE, עלות צפויה ויחסי ציבור נחשבים באינטרנט; הסף וההתראות מצוינים.
[ ] לוחות פרוסה/הגינות מופעלים; בעלי פלחים מוקצים.
[ ] לוגים/שבילים להשלים (החלטות, סף, מסכות), מיסוך מח "ש, ותושבות נפגשה.
[ מבחן ] Acqualence online/offline green; דיאגרמות תכונה תחת החוזה.
[ ] Runbook "ו rollback קליק אחד נבדק; מתג הריגה מעקות בטיחות.
[ עלות ] מתאימה לתקציבים; מטמון/מכסות/גבולות פעילים.
[ ] ארכיון תולעת של מדדים/חפצים ודוחות איכות נשמר.

20) אנטי דפוסים וסיכונים

מחסור בתוויות מקוונות והערכה רטרוספקטיבית.
ROC-AUC רק ניטור ללא עלות צפויה וכיול.
התעלם מפרוסה/הגינות * כשלים חבויים באזורים/התקנים.
אין שוויון בין תכונה מקוונת/לא מקוונת = ”מציאות כפולה”.
אפס מעקות בטיחות: הצעות רעילות, הפרות RG/AML.
בלי תוכניות גלגיליות, בלי ארכיון תולעת.

21) השורה התחתונה

ניטור מודלים הוא אזהרה מוקדמת ומערכת ניהול סיכונים/עלויות במקום ”להסתכל פעם בשבוע”. ”הזן SLO, מדידת סחיפה/כיול/עלות צפויה, פרוסות מסלול ומעקות בטיחות, החזקת כפתורי rollback/kill-switch, דו” חות אוטומטיים ואימונים מחדש. אז המודלים יישארו שימושיים, אתיים ותאימים לכל מערבולת של נתונים ותנועה.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.