מלמד עם וללא מורה
1) מדוע ומתי
תחת פיקוח: יש תווית = אנו חוזים את ההסתברות/רמה/ערך. אנו משתמשים בו כאשר ”התשובה הנכונה” ברורה ויש סיפור: הפקדה של 7 ימים, סיכון RG/AML, הסתברות לתגובה להצעה, תחזית LTV.
ללא השגחה: אין סימנים * אנו מוצאים מבנים/אשכולות/חריגות/גורמים סמויים: קטגמנטציה של שחקנים, טבעות הונאה, פרופילים ענייניים של משחקים, זיהוי של כשלים מספקים, דחיסת סימנים.
כלל בחירה: אם ההחלטה העסקית תלויה בתחזית הסתברותית מסויימת. אם המטרה היא לפתוח תבניות/אותות לא ידועים או להפחית את מימד הנתונים ללא השגחה. בפועל, הם משולבים.
2) מקרים טיפוסיים של iGaming
תחת פיקוח
Churn/reactivation: סיווג בינארי (go/not go), מודלים מרוממים להשפעה.
נטייה להפקיד/רכישה: הסתברות לאירוע באופק T.
RG/AML: שיעור סיכון, הסתברות מבנית, הפעלה חשודה.
בונוס נגד ניצול לרעה: הסבירות לשימוש במרמה בפרומו.
המלצות (דירוג): הסתברות ללחיצה/הימור על המשחק (listwise/pointwise).
ללא השגחה
קטעי נגן: k-אמצעים, GMM, HDBSCAN על ידי RFM/התנהגות/ז 'אנר.
חריגות: בידוד יער, LOF, Autoencoder על דפוסי תשלומים/משחק.
ניתוח גרף: התקבצות בטור ”התקן-שחקן-כרטיס-IP”.
צמצום: PCA/UMAP עבור הדמיה והנדסת תכונה.
מודלים תימאטיים: NMF/LDL לתיאורי משחק/שיחות תמיכה.
3) נתונים ותכונות
חיבורים נקודתיים שלא כוללים דליפת מידע.
חלונות אופייניים: 10 min/1 h/1 יום/7 ימים/30 ימים (חזרה, תדירות, כסף).
הקשר: שוק/תחום שיפוט/DST/חגים, ספק/ז 'אנר, התקן/ASN.
מאפייני הגרף: מספר הקלפים/התקנים/IP/ייחודיים, מרכזיים.
נורמליזציה של אזור המטבע/זמן, SCD II למשתמשים/משחקים/ספקים.
4) אלגוריתמים ומדדים
עם המורה
אלגוריתמים: LogReg, XGBoost/LightGBM/CatBoost, TabNet; לדירוג - LAMBDMART/GBDT; סדרת זמן - Prophet/ETS/Gradient Hosted TS.
Metrics: ROC-AUC/PR-AUC, F1 @ operational sefhold, KS (סיכון), NDCG/MAP @ K (המלצות), MAPE/WAPE (תחזיות), עלות צפויה עם משקלי FP N N.
ללא מורה
התקבצות: k-means/GMM (מספר אשכולות - מרפק/צללית), HDBSCAN (צפיפות).
חריגות: בידוד יער/LOF/AutoEncoder; metrics - דיוק @ k בסימון מומחה, AUTPRA על אנומליות סינתטיות.
ממד: PCA/UMAP לעיצוב תכונה וחיזוי.
5) גישות משולבות
חצי מפוקח: בועות פסאודו לחלק של נתונים לא מוקצים (אימון עצמי), רגולציה עקבית.
פיקוח עצמי: משימות מנוגדות/מסכות (session/game productions) = שימוש במורד הזרם בפיקוח.
למידה פעילה: המערכת מציעה סימון מועמדים (מקסימום אי ודאות/גיוון) * חוסכת את עבודתם של מומחי AML/RG.
פיקוח חלש: היוריסטיקה/כללים/סימון מרוחק יוצרים תוויות ”חלשות”, ואז לכייל.
6) תהליך: מחובר לגלישה באינטרנט
1. Offline: איסוף/הכנה = פיצול לפי זמן/שווקים * אימון/אימות = מבחן אחורי.
2. סמנטיקה מטרית: נוסחאות אחידות (לדוגמה, churn_30d) וחלונות זמן קבועים.
3. חנות תכונה: נוסחאות תכונה אחידות באינטרנט/לא מקוונות; בדיקות ציות.
4. גלישה מקוונת: gRPC/Rest endpoints, SLA by latency, AB routing/canary flights.
5. ניטור: סחיפת נתונים/חיזוי (PSI/KL), latency p95, שגיאת מדדים עסקיים, התראות.
7) פרטיות וציות
מזעור PII: פסאודונימיזציה, מיפוי בידוד, CLS/RLS.
תושבות: צינורות בודדים/מפתחות הצפנה לפי אזור (EEA/UK/BR).
DSAR/RTBF: מחק/ערוך תכונות ורישומים; לשמור על העילה החוקית לחריגים.
פריטי חקירה/דיווח מקפיאים.
הגינות: Audit Proxy Feature, Impact Reports (SHAP), RG Intervention Policy.
8) כלכלה ופרודוקטיביות
עלות חישוב התכונה (עלות/תכונה) והסקת מסקנות (עלות/בקשה).
התממשות של אגרגטים לא מקוונים; באינטרנט - רק חלונות קריטיים.
מטמון של הרשאות/ניקוד תוצאות עבור TTL קצר, lookups asynchronous עם פסקי זמן.
מכסות ותקציבים להילוך חוזר/מסעות אחוריים; שרטוט על ידי פיקוד/מודל.
9) דוגמאות (קטעים)
9. 1 בחירת נקודת זמן churn_30d
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 חריגות תשלום (פסאודו-קוד, יער בידוד)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 סגמנטציה של k-אמצעים (ז 'אנרים של RFM +)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. סף עלות 4 למודל בינארי
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) הערכה, אימות וניסויים
Offline: פיצול זמני (רכבת/ואל/מבחן לפי זמן/שווקים), חזרה אחורה, אמון אתחול.
מקוון: A/B/N, בדיקות רצף, CUPED/diff-in-diff.
מחוץ למדיניות: IPS/DR למדיניות התאמה אישית.
כיול: פלאט/איזוטוני עבור הסתברויות נכונות.
בקרת הידרדרות: התראות על ידי מדדים עסקיים ויחסי ציבור/KS.
11) ראסי (RACI)
R (אחראי): Data Science (מודלים/ניסויים), MLOps (פלטפורמה/הגשה), Data Eng (תכונות/צינורות).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/RG/AML), אבטחה (KMS/סודות), SRE (SLO/value), פיננסים (ROI).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.
12) מימוש מפת דרכים
MVP (4-6 שבועות):1. קטלוג מטרות/תוויות ואותות (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 תכונות), דגמי XGBoost בסיסיים, לוחות מחוונים לא מקוונים.
3. קטעים של k-אמצעים (8 אשכולות) + תיאור של מקטעים; יער בידוד לתשלומים.
4. גלישה באינטרנט עם מטמון, p95 <150 ms; א/ב עבור 10-20% מהתנועה.
שלב 2 (שבועות 6-12):- Active/Semi-Observed for Label Scarcity (AML/RG).
- שחרורי כנרת, ניטור סחף, אימון אוטומטי.
- שכבה סמנטית יחידה של מדדים ותכונה התאמה מקוונת/מקוונת.
- סימני גרף וטבעות הונאה; דוגמניות בונוס מרוממות.
- הגשה רב-אזורית, מכסות/שרצים; ארכיון התולעת של שחרור.
- ביקורת הוגנת, בדיקות לחץ, תקריות ספרים.
13) רשימת בדיקות לפני המכירה
[ ] דגימה נקודתית ובדיקות נגד דליפה.
[ כיול הסתברות ]; בחר את סף העלות הצפוי.
[ כרטיסי מודל ] (בעלים, נתונים, מדדים, סיכונים, הגינות).
[ ] סטור מקוון/Offline Complition Test.
[ ] סחיפה/ניטור שגיאות, התראות וחזרה אוטומטית.
[ ] מדיניות PII/DSAR/RTBF/Legal Hold; כריתת עצים היא לא אישית.
[ ] תוכנית א/ב וכוח סטטיסטי מחושב; פנקס ההמראה מוכן.
14) אנטי דפוסים
ערבוב אירועים חדשים לתוויות (דליפה) והיעדר נקודה בזמן.
”מודל אחד לכולם” במקום פירוק תחום.
כמה הסתברויות ספריות כפול סף עסקי שגוי.
טיסה עיוורת: אין סחיפה מקוונת/ניטור איכות.
חיבור יתר מקוון (חיצוני-מצטרף כבד ללא מטמון ופסקי זמן).
קטעים ללא פרשנות עסקית ובעלים.
15) השורה התחתונה
למידה מפוקחת מספקת פרוגנוזה מדידה וניהול סיכונים/הכנסה; בלי מבנה של מורה ואותות שאין בהם סימנים. השילוב שלהם (למידה אקטיבית חצי-תחת פיקוח עצמי) בדיסציפלינת מידע (Point-in-Time, Feature Store), ציות ו-MLOps מעניקים לפלטפורמת ה-iGaming גידול קבוע בהכנסות נט, ירידה בהונאה והתערבויות RG בזמן - עם רבייה, בקרת עלות ומוכנות לביקורת.