GH GambleHub

ניטור מודלים

1) מדוע

המטרה היא לשמור על איכות ובטיחות של פתרונות המודל במכירה, תוך עמידה בתקציבי SLA/SLO, RG/AML/Legal ו-SLO. ניטור צריך לזהות השפלה מוקדמת (נתונים, כיול, איחוי, עלות), למזער את העלות הצפויה של שגיאות ולהבטיח רבייה/ביקורת.


2) אזורי ניטור (מפה)

1. זמינות וביצועים: latency p95/p99, שגיאה-קצב, RPS, אוטוסקלה.
2. איכות תחזית: PR-AUC/KS (בתוויות מקוונות), כיול (ECE), סף @ cost צפוי.
3. סחיפה ויציבות: PSI/KL לפי תכונות ומהירות, שינוי הפצות/קטגוריות.
4. כיסוי ושלמות: החלק של בקשות מוגשות בהצלחה, החלק של תכונות ”ריקות”, מטמונים בקצב להיט.
5. פרוסה/הוגנות: מדדים על ידי שוק/ספק/התקן/גיל חשבון.
6. מעקות בטיחות (RG/AML): הפרות מדיניות, תדרי התערבות, תוצאות חיוביות/שליליות שגויות.
7. עלות: עלות/בקשה, עלות/תכונה, שעון GPU/מעבד, קבצים קטנים/IO (עבור אצווה/כמעט RT).
8. נתונים/חוזים: ערכת תכונה, גרסאות, מקוון/מקוון.


3) SLI/SLO (ציוני דרך עבור iGaming)

Latency p95: personalization low 150 ms, RG/AML מתריע על 5 עם e2e.
זמינות: 99. 9%.
שגיאה בשיעור 5xx: סימון 0. 5% בחלון של 5 דקות.
כיסוי: 99% מהבקשות קיבלו מהירות ופתרון תקפים.
טריות של תוויות להערכה מקוונת: D + 1 (יומי), עבור פרוקסים מהירים - 1 שעה.
סחיפה PSI: תכונה/קצב <0. 2 (אזהרה 0. 1).
כיול ECE: סימון 0. 05.
Expected-cost_live: לא גבוה יותר ממודל הבסיס + X% (היעד X נבחר על ידי העסק).


4) אותות ונוסחאות

4. סחיפה 1

PSI: לסכם באמצעות bin את ההפרש בהפצות (רכבת נגד פרוד).
סטייה של KL: רגיש לזנבות ”דקים”; צג לתווי מפתח/מהירות.
KS לשיעורים (אם קיימות תוויות): הפרשי CDF עבור חיוביים/שליליים.

4. 2 כיול

ECE (שגיאת כיול צפויה):חזה-אבחון אמפירי קצבעל סלים.
עקומת אמינות: דיוק גרף נגד הסתברות.

4. 3 עלות צפויה

מזעור (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) על סף העבודה; ספירה מקוונת בחלון הזזה עם תוויות מעוכבות.


5) מקורות תווית

תוויות מקוונות (פרוקסי מהירות): אירוע הפקדה של 7 ימים, קליק/המרה, הושלם תיק RG.
תוויות מאוחרות: צ 'ארג' בק/הונאה (45-90 ימים), נזיפה לטווח ארוך/LTV.
חוקים: לשמור על הזמן; אל תשתמש באירועים ”מהעתיד”.


6) לוחות מחוונים (הרכב מינימלי)

1. הפעלה: RPS, p50/p95/p99 latency, 4xx/5xx, רוויה, אוטוסקלינג.
2. איכות: ניקוד-הפצה, יחסי ציבור (על תוויות פרוקסי), ECE, עלות צפויה, KS.
3. סחיפה: PSI/KL לפי תכונות עליונות, קטגוריות חידוש, איחוי חסר-קצב, תכונה-להביא.
4. פרוסה/הוגנות: PR-AUC/ECE/עלות צפויה על ידי שוק/ספק/התקן.
5. מעקות בטיחות: הפרות RG/AML, התערבויות/1 K בקשות, קצב עצירה כוזב.
6. עלות: עלות/בקשה, זמן מעבד/GPU, קצב חיסול מטמון, חיפושים חיצוניים.


7) התראה (כללי דוגמה)

HighP95Latency: p95> 150 ms (5 min) □ עמוד SRE/MLOps.
ברסט: 5xx> 0. 5% (5 דקות) Lollback script זמין.
PSI_Drift: pSI (amount_base)> 0. 2 (15 דקות) = אימוני חימום מחדש.
ECE_Bad: ECE> 0. 07 (30 דקות) * לבנות מחדש כיול/סף.
ExpectedCost_Up: + X% לספסל (יום 1) = לשקול רולבק/עומס יתר.
Slice_Failure: יחסי ציבור בשוק ה-R נפלו> Y (יום 1) = הבעלים של תחום הכרטיסים.
Guardrails_Breach: נתח של הצעות אגרסיביות> cap = מתג-להרוג מיידי.


8) כריתת עצים ואיתור

רישומי בקשות (מינימום): ”בקשה”, ”trace _ id',” model _ id/version ”,” feature _ version ”,” feature _ stats' (חסר%, קיצוניות), ”ציון”, ”החלטה”, ”סף”, ”מדיניות _ id',” guard _ mask ”,” latency _ mass' AP top-k).
Otel-tellectorious: state _ frience _ fetch "preprocess' ac" score "" abc "postprocess' ac" fostrovercess' warrile ".
PII: כינויים/אסימונים בלבד; מיסוך מדיניות, תושבות מפתח.


9) הערכת איכות מקוונת

הזזת חלונות עבור יחסי ציבור/KS על ידי תוויות מהירות (שעה/יום).
תוויות שנשמרו: D + 7/D + 30/D + 90 דיווחים רטרוספקטיביים, התאמות בעלות צפויה.
כיול: הערכה מחדש איזוטונית/פלאט על D + 1, פריט רענון אוטומטי.


10) סף החלטה ומדיניות

אנחנו שומרים את הסף כתצורה בקופה; באופן מקוון אנו שוקלים עלות צפוייה ולהתאים בטווח המותר (דרגה מוגבלת).
כובעי בטיחות: גבולות עליונים/תחתונים של פעולות; לעקוף ידני לציות.
סימולציה לילית על הנתונים מאתמול.


11) פרוסה והוגנות

מגזרים: שוק/תחום שיפוט, ספק, התקן/ASN, גיל חשבון, כוח הפקדה.
מטריצות: יחסי ציבור, ECE, עלויות צפויות, הבדלי FPR/TPR (סיכויים משווים), השפעות שונות.
פעולות: כיול/סף לפרוסות, אימון מחדש עם מאזניים, שינוי התכונה.


12) מקוון/לא מקוון

מאפיין מבחן השוויון: MAE/MAPE על מדגם הבקרה; התראה בעת הסטה> סף.
Versioning: ”feature _ spec _ version”, ”logic _ version”; ארכיון התולעת.
חוזים מעגליים: שבירת שינוי אינה מותרת ללא כניסה כפולה (v1/v2).


13) מעקות בטיחות (RG/AML)

פעולות פרה/פוסט-סינון, מגבלות תדירות, התקררות, רשימות של איסורים.
policy _ id/tensity/mask/decision "; הפרות דו "ח.
זמן לראיון ומדדי שיעור התערבות שווא.


14) אירועים וספר ריצות

תרחישים וצעדים:

1. Latency brough/5xx: בדוק ספקי תכונה חיצוניים * אפשר מטמון/פסקי זמן * rollback אם יש צורך.

2. PSI/ECE/Extended-cost הידרדרה: להקפיא את התנועה (canary out), לאפשר סף פלג/מודל, להפעיל מחדש.

3. כישלון חתך: סף זמני פרוסה ספציפי, כרטיס לבעל התחום.

4. פריצת מעקות בטיחות: מתג חיסול, ביקורת תיקים, אחרי הים.


15) עלות וביצועים

פרופילים: חלקיק זמן במאפיין-להביא נגד ציון נגד IO.
אסטרטגיות מטמון: TTL/פינוי, תכונות חמות ב ־ RAM, קרות - עצלות.
קוונטיזציה/אופטימיזציה מודל: FP16/INT8 תוך שמירה על איכות.
Chargback: עלות/בקשה, עלות/תכונה על ידי צוות/שוק.


16) דוגמאות (קטעים)

סף עלות צפוי (פסאודו-קוד):
python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
פרומתאוס (רעיונות מטריים):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
התראה (רעיון):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m

17) תהליכים ו ־ RACI

R (אחראי): MLops (יכולת תצפית/התראות/רישום), Data Science (מדדים/כיול/סף), Data Eng (תכונות/חוזים/שוויון).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/RG/AML/DSAR), אבטחה (KMS/Audit), SRE (SLO/Generations), פיננסים (עלות).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.


18) מפת דרכים

MVP (2-4 שבועות):

1. SLI/SLO בסיסי (latency/5xx/cover) + לוח מחוונים.

2. PSI עבור 10 התכונות הטובות ביותר והפצת נקודות; ECE ועלות צפויה על תוויות פרוקסי.

3. רישומי החלטות + שבילי Otel; מבחן מקוון/לא מקוון.

4. התראות HighP95Latency/PSI_Drift/ECE_Bad + runbook "ו.

שלב 2 (שבועות 4-8):
  • לוחות פרוסה/הגינות, מדדים לאחור לילה על תוויות מעוכבות.
  • כיול אוטומטי וסימולטור סף.
  • לוח מחוונים ומכסות/מגבלות על תכונות/הילוכים חוזרים.
שלב 3 (8-12 שבועות):
  • שחרור אוטומטי/נסיעה חוזרת עם בקרת הקנרית.
  • ארכיון של דוחות איכות וחפצים.
  • בדיקות מעקב כאוס ותרגילי ד "ר.

19) רשימת משלוחים

[ ] SLI/SLO הסכימו ועקבו אחרי צל/כנרית 24 שעות.
[ ] PSI/KL, ECE, עלות צפויה ויחסי ציבור נחשבים באינטרנט; הסף וההתראות מצוינים.
[ ] לוחות פרוסה/הגינות מופעלים; בעלי פלחים מוקצים.
[ ] לוגים/שבילים להשלים (החלטות, סף, מסכות), מיסוך מח "ש, ותושבות נפגשה.
[ מבחן ] Acqualence online/offline green; דיאגרמות תכונה תחת החוזה.
[ ] Runbook "ו rollback קליק אחד נבדק; מתג הריגה מעקות בטיחות.
[ עלות ] מתאימה לתקציבים; מטמון/מכסות/גבולות פעילים.
[ ] ארכיון תולעת של מדדים/חפצים ודוחות איכות נשמר.

20) אנטי דפוסים וסיכונים

מחסור בתוויות מקוונות והערכה רטרוספקטיבית.
ROC-AUC רק ניטור ללא עלות צפויה וכיול.
התעלם מפרוסה/הגינות * כשלים חבויים באזורים/התקנים.
אין שוויון בין תכונה מקוונת/לא מקוונת = ”מציאות כפולה”.
אפס מעקות בטיחות: הצעות רעילות, הפרות RG/AML.
בלי תוכניות גלגיליות, בלי ארכיון תולעת.


21) השורה התחתונה

ניטור מודלים הוא אזהרה מוקדמת ומערכת ניהול סיכונים/עלויות במקום ”להסתכל פעם בשבוע”. ”הזן SLO, מדידת סחיפה/כיול/עלות צפויה, פרוסות מסלול ומעקות בטיחות, החזקת כפתורי rollback/kill-switch, דו” חות אוטומטיים ואימונים מחדש. אז המודלים יישארו שימושיים, אתיים ותאימים לכל מערבולת של נתונים ותנועה.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.