הדרכת מודלים

1) מטרה ועקרונות

מטרת ההכשרה היא להשיג מודל בר-קיימא, בר-רבייה ויעיל לעלויות שמשפר את המדדים העסקיים (Net Emotions, Churn, Money Action) תוך ציות ל-RG/AML/Legal.

עקרונות:

Program # Metrical Ac.Data: עלות משימה ראשונה ותפעול מטרי/שגיאה, לאחר מכן נתונים.
אין תכונה/תווית משתמשת בעתיד.
רבייה: זרעים/גרסאות קבועות, בקרת חפץ.
פשטות תחילה: התחל במודלים בסיסיים/תכונה; לסבך רק עם תועלת מוכחת.
פרטיות לפי עיצוב: PII-מזעור, תושבות, ביקורת.

2) פורמליזציה של משימות ומדדים

סיווג: Furn/pedit/hong/RG * PR-AUC, F1 @ operas. סף, קיי-אס, עלות צפויה.
רגרסיה/תחזית: LTV/GGR * WAPE/SMAPE, שגיאה P50/P90, כיסוי PI.
דירוג/המלצות: NDCG @ K, MAP @ K, כיסוי/גיוון.
מדדים מקוונים: העלאה במס הכנסה, CTR/CVR, זמן לראיון (RG), שיעור התעללות.

סף עלות (פסאודו קוד):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) נתונים ומחיצות

הצטרפות נקודתית ומדידות תואמות SCD.

חוסר איזון כיתתי: דגימה מרוצפת, class_weight, אובדן ממוקד,

מחיצות זמן/שוק/דייר: פער train↔val↔test לדליפות.

פיצול זמני (רעיון SQL):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) הכנת מאפיינים

חלונות ויחידות: 10m/1h/1d/7d/30d, R/F/M, מהירויות/שברים.
קטגוריות: חשיש/חד-חם; קידוד מטרות (זמן מודע).
נורמליזציה/הגדלה: פרמטרים מרכבת, שמירת חפצים.
גרף/NLP/Geo: לבנות אצווה, לפרסם ב Feature Store (מקוון/לא מקוון).

5) אלגוריתמים בסיסיים

GBDT: XGBoost/LightGBM/CatBost הוא בסיס נתונים חזק עבור נתונים טבולריים.
רגרסיה לוגיסטית/El Net: ניתן לפירוש/זול.
ייעוץ: LAMBDAMART, פירוק, seq2rec.
חריגות: יער בידוד, הצופן אוטומטי.
סדרת זמן: Prophet/ETS/GBDT-by.

6) סדירות ומניעת הכשרה מחדש

GBDT: ”max _ עומק”, ”num _ leaves”, ”min _ data _ in _ leaf”, ”subample”, ”colsample _ bytree”, ”lambda _ l1/l2”.
נ: נשירה/דעיכת משקל/עצירה מוקדמת.
עצירה מוקדמת: במטר על ואל עם סבלנות ושיפור מינימלי.

7) בחירת היפרפרמטרים

רשת/אקראי לחיפוש טיוטה; Bayesian/Hyperband לכוונון טוב.
מגבלות: איטרציה/זמן/תקציב עלות, ”לא בכושר יתר” על val (בדיקה מוצלבת על פיצולי זמן מרובים).

סקיצה:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) כיול הסתברותי

פלאט/איזוטוני הולדוט; לאחסן את פונקציית הכיול כחפץ.
בדוק את יכולת ה ־ ECE/Relayability; לדון מחדש בסף על ידי עלות צפויה.

9) יכולת פרשנות והסברים

גלובלי: חשיבות תכונה/SHAP, תרומה לפרמוטציה.
מקומי: SHAP עבור פתרונות יחידה (RG/AML cases).
תיעד את הסיכונים והקבלה של שימוש בהסברים באינטרנט.

10) רבייה וחפצים

זרעים בכל מקום: נתונים/מודל/כושר/פיצול.
פריטים: גרסת נתונים, צינור תכונה, משקולות, כיול, סף, תצורה.
בניינים דטרמיניסטיים: מכולות/תלויות קבועות.

11) ניסויי מעקב

אנו נרשמים: git-poice, dataset/feature grasses, model config, metrics (off/online), חפצים והערות.
כללים למתן שמות לניסויים, תגיות (domain/market/model).

12) offline # העברה מקוונת

קוד טרנספורמציה מאוחד (Feature Store); מבחן מקוון/לא מקוון.
הגשה: מנוחה/gRPC, פסקי זמן/מגשים/מטמון; משיכות קנריות/שלב אחר שלב.
סף/מדיניות: הגדרה (דגלים), ביקורת חשבונות וגלגול לאחור.

13) מעקב וסחף

נתונים/קצב: PSI/KL; התראות כאשר הסף הוא חרג.
כיול ומדדים: ECE, PR-AUC/KS על תוויות הזרמה.
מדדים עסקיים: העלאה במס הכנסה, הונאה שנשמרה, התערבויות אר-ג 'י, אס-אל-איי.
Train Tragers: By Drift/Seasonality/Releases/Apperting Date.

14) פרטיות, תושבות, הגינות

מזעור PII: שמות בדויים, CLS/RLS, מפיות בודדות.
תושבות: ספריות/מפתחות בודדים (EEA/UK/BR); לאסור מצטרפים צולבים-אזוריים ללא סיבה.
הגינות: ניתוח פרוסות (גיל שוק/התקן/חשבון), השפעה שונה, סיכויים שווים; תיקון תכונות/סף/משקולות.

15) עלות-הנדסה

עלות אימון: שעות מעבד/GPU, I/O, מספר ריצות.
עלות הסקת המסקנות: latency/עלות לכל בקשה; מגבלות על מאפיינים מקוונים וגודל מודל.
התממשות: תכונות כבדות - מנותקות; באינטרנט - מהר, מטמון.
תקציבים ניסיוניים/הילוך חוזר.

16) דוגמאות (קטעים)

LightGBM (סיווג, סקיצה פייתון):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

דגימה נקודתית בזמן (רעיון SQL):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

אומדן עלות צפוי ובחירת סף:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) תהליכים ו ־ RACI

R (אחראי): Data Science (מודלים/ניסויים), Data Eng (נתונים/תכונות/Features Store), MLOPs (שירות/ניטור/CI-CD-CT).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/RG/AML/DSAR), אבטחה (KMS/סודות/ביקורת), SRE (SLO/ערך), פיננסים (ROI).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.

18) מימוש מפת דרכים

MVP (3-6 שבועות):

1. ספרייה של משימות ומדדים (עלות צפויה), נתונים נקודתיים בזמן.

2. מודלים בסיסיים (LogReg/GBDT) + כרטיסי מודל.

3. ניסויי מעקב, זרעים/חפצים קבועים, בניות רבייה.

4. גלישה באינטרנט קנרית, סף כמו קונפיג, מדדים התראה/סחיפה.

שלב 2 (שבועות 6-12):

בחירת Bayesian/Hyperband, ניתוח פרוסה/הגינות, הפעלה מחדש.
תכונת כלכלה/הסקה, מטמון/TTL, צ 'ארג' בק.
תיעוד של נוסחאות מטריות/סף, מה-אם סימולציות.

שלב 3 (שבועות 12-20):

צינורות רב-אזוריים, תרגילי ד "ר/תרגילים, ארכיון התולעת לשחרור.
דור אוטומטי של דוחות איכות/כיול, אימון יתר אוטומטי על ידי אירועים.
ניסויי A/B/N עם בדיקות רציפות וכיבוי אוטומטי.

19) רשימת בדיקות לפני המכירה

[ ] משימות ועסקים מטריים מיושרים; חישב את עלות הטעויות.

[ ] Datacet Point-in-time; אין חלוקה בזמן/שוק.

[ ] בחירה/סדירות, עצירה מוקדמת, כיול הסתברות.

[ כרטיס מודל ]: נתונים, תכונות, מדדים, סיכונים, הגינות, בעלים.

[ ] חפצים שנשמרו (משקולות, צינור תכונה, כיול, סף).

[ ] מבחן מקוון/לא מקוון עבר; גלישה עם דגל עליון.

[ ] ניטור סחף/כיול/מדדים עסקיים; להכשיר מחדש/להחזיר תוכניות.

[ ] מתנהלים מדיניות PII/DSAR/RTBF, תושבות וביקורת גישה.

[ ] עלות האימונים/הסקת המסקנות כלולה בתקציב; התראות SLA.

20) אנטי דפוסים וסיכונים

אגם: תכונות/תוויות מהעתיד, ללא תיאום SCD.
כוונון ”לכחול” על דגימת פיר אחת: אין פיצול זמני/בדיקה צולבת.
אין כיול וסף עלות.
חוסר התאמה ברשת/תכונה לא מקוונת: תוצאות שונות של הפרוד.
מתעלם מהגינות/פרוסות: כשלים נסתרים בשווקים/מכשירים.
הילוך חוזר בלתי מוגבל ותכונות יקרות: ערך עולה ללא תועלת.

21) השורה התחתונה

אימוני מודל הם תהליך שניתן לשלוט בו: משימה ברורה ומשמעת נקודתית, כוונון אינטליגנטי עם סדרים, כיול ורבייה, העברה שקופה לרשת וניטור מתמשך של איכות, עלות וסיכון. על ידי ביצוע ספר המהלכים הזה, אתה מקבל מודלים שמשפרים מוצר, שימור וציות באופן צפוי - במהירות, אתי ואמין.

הדרכת מודלים

צרו קשר

חיבור מהיר

הווידאו יעודכן בקרוב

אנחנו עמוסים מאוד בפרויקטים כרגע