מודלים של התאמה אישית
מודלים פרסונליזציה
Personalization היא מערכת בה מודלים של data action action action action action feedback. המטרה היא למקסם ערך אינקרמנטלי (הכנסה/שימור/סיפוק) תוך כדי מפגש אילוצים (אתיקה/RG, כיפות תדר, מגוון, רעננות, SLA).
1) נתונים ותצוגות
חומרי גלם: אירועים (תצוגות/קליקים/משחקים/רכישות/הפקדות), קטלוג תוכן (תכונות), פרופילי משתמש, הקשר (זמן/גאו/התקן/ערוץ), אותות איכות (בוט/הונאה).
פיצ 'י:- משתמש: RFM, העדפות קטגוריות, רגישות מחירים, זמן ביום, התקן.
- פריט: ז 'אנר/קטגוריה, סטודיו/ספק, שפה, מחיר/תנודתיות, ”רעננות”.
- הקשר: דאו/הוד, פרומו/אירועים, הפעלה, ערוץ התחברות.
- סממנים: מרחבים שיתופיים של משתמש/פריט (MF/Word2Vec2Rec/Transformers), מולטימודלים (טקסט/תמונות).
- איכות: נקודה בזמן (ללא פנים), זמן UTC, אידמפוטנטיות של אירועים, מיסוך PII.
2) פרדיגמות בסיסיות
1. קרבה מבוססת תוכן לפי התכונות של הכתובת ופרופיל המשתמש.
2. סינון שיתופי (CF) - משתמשים/אייטמים דומים המבוססים על אותות אינטראקציה.
3. Matrix pertorization/embedings - גורמים נסתרים, Squot-Product/MLP לניקוד.
4. למידה-אל-דרגה (LTR) - הגדלת גרדיאנט/רשתות עצביות עבור רשימות דירוג (pairwise/listwise).
5. דירוג מחדש של השכבה - לאחר עיבוד, לוקח בחשבון גיוון/חידוש/הגבלות.
6. שודדים מקשרים - למידה מקוונת עם ניצול-חקר.
7. המלצות RL/seq-המלצות - אופטימיזציה נתיב/סשן (multi-step award).
3) צינור החלטה
1. זכור (בחירת מועמדים מהירה, 200-5k): אן על ידי שיבוץ, כלל-בסיס/קטגוריה, פופולריות.
2. דרגה (ניקוד מדויק, 20-200): LTR/MLP עם תכונות עשירות.
3. Re-rank/Policy (רשימה, 5-30): אופטימיזציה רב תכליתית + אילוצים וגיוון.
4. פעולה: הצג/דחיפה/דואר אלקטרוני/תצוגה אישית עם שומרי פה ו ”שעון שקט”.
5. משוב: אותות מרומזים/מפורשים * אימון מחדש/עדכון שודד.
4) מטרות ומגבלות רב תכליתיות
מטרות: CTR/CTCVR, שימור, הכנסות, מרווח, LTV, שביעות רצון, מהירות.
הגבלות: תדירות מגע, RG/ציות, מגוון קטגוריות, מכסות מותג/ספק, הגינות.
[
\ max\sum _ i w_i\cdot\text {Objective} i\quad
\ טקסט {s. t .\text @ caps, RG, גיוון, SLA
]
פרקטיקה: לעשות מדיני-מודע לדירוג מחדש (ראו # 7), שבו מהירות משולבת עם כללים.
5) התחלה קרה ונתונים קטנים
משתמשים חדשים: פופולריות לפי קטע/ערוץ/גיאו, תוכן מבוסס על ידי שאלון/לחיצה ראשונה, שודד עם אינטליגנציה רחבה.
אייטמים חדשים: שיבוץ תוכן (טקסט/תגיות), metadata, ”כפיל” על ידי ספק/ז 'אנר.
כמה יריות: הטבעת העברה/מגדל משותף.
6) מדדים ניקוד
לא מקוון
סיווג/דירוג: AUC/PR-AUC, NDCG @ k, MAP, recall @ k.
עסקים: eCPM/eRPM, הכנסות/מרווח צפויות, פרוקסי LTV.
רב תכליתיות: מדדים משוקללים (לדוגמה: NDCG עם רווח = ערך).
כיול: Brier, ECE (להסתברויות).
סיקור/גיוון/חידוש/סרנדיפיות.
Online
A/B ובדיקות שודד: CTR, CTCVR, הכנסה/הפעלה, שימור D1/D7, תלונות/אי-שימוש במעקות בטיחות, Latency/SLA.
עלייה: להרים%, CUPED/quasi-ניסויים באקראיות מורכבת.
7) גיוון ודירוג מחדש מודע למדיניות
MMR/PM-2/xQuAD: איזון של ”רלוונטיות × חידוש”.
מכסות: מין/מקס על ידי ז 'אנר/ספק/קטגוריה סיכון.
הגבלת מניות כדי להימנע משיפוד שיטתי.
[
/ textstyle/text {Score} =\alpha\cdot\hot {p} @ text _ click @ beta\cdot\text {Novelty} -gamma\cdot\text {fatigue} +\delta\cdot\text}
]
היסטריזה: לא ”למצמץ” רשימות; עדכן פריטים עם אינרציה.
8) שודדים קונטקסטואלי ו ־ RLs
שודדים (LINUCB, תומפסון): בקרת מחקר מהירה באינטרנט. טוב לעמדה הראשונה/ערוץ יצירתי.
שודדים מפלים: אופטימיזציה למעלה-k.
RL (DQN/Policy Gradient/SlateQ): פרסונליזציה של הפעלה, אופטימיזציה של תגמול רב שלבים (החזר/הכנסה/הפעלה ארוכה).
בטיחות: הערכה מחוץ למדיניות (IPS/DR), סימולטורים, כיפות למחקר, RL בטוח.
9) התאמה אישית לאפקט סיבתי
מודלים מרוממים: מי צריך להיות נגע (משכנעים), קיני/AUUC, uplift @ k.
דירוג מודעות לטיפול: כלל הסתברות עלייה במקום סי-טי-אר גולמי.
קטעים לא-הפרעות, חוקי אר-ג 'י, הגינות.
10) ארכיטקטורה ו ־ MLOPs
חנות תכונה: זוגיות מקוונת/לא מקוונת, נקודה בזמן, TTL לתכונות הפעלה.
שירותי מועמדות: ANN/FAISS/SCANN, Capting/Sharding by port.
Ranker: שיפוע/MLP/Tower architectures, כיול.
מדיניות/דרגה מחדש: חוקים/הגבלות, גיוון, שכבת שודד.
תזמורת: בקשת אידמפוטנטיות, p95 latency/100-300 ms, DLQ/retray.
תצפית: correlation _ id trace, PSI, מדדים איכותיים, stopcock.
11) ביטחון, פרטיות, אתיקה
מזעור PII: אסימונים, RLS/CLS, מיסוך.
הסברים: תכונות עליונות/סיבות להצגה; נתיב ערעור.
אתיקה/ר "ג: פקקי תדר, שעות שקטות, איסורים על הצעות תוקפניות מקבוצות פגיעות.
ציות: ביקורת של החלטות/יומנים, גרסאות של מדיניות ויצירות.
12) דרכונים ושולחנות החלטות
תעודת התייחסות (דוגמה)
זיהוי/גרסה: "REC _ HYBRID _ RANK _ v5&poss
זכור: ANN (שיבוץ משתמש/פריט), top-500
רנקר: LTR-GBM + MLP (תכונות: משתמש RFM, פריט meta, הקשר)
דרגה מחודשת: PM-2 (מגוון), מכסות מותג, מסנני RG, פקקי תדר
מטרות/מטריות: NDCG @ 10, eRPM, ז 'לובי, Kh, latency p95 ms 150
א/ב: 14 ימים, CUPED; מעקות בטיחות - RG/ישועה
בעלים/כריתת עצים/רחיצה
שולחן החלטות
13) פסאודו קוד (סקיצה)
א. זיכרון היברידי + דרגה + דרגה מחדש
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling for Creatives
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) אבחון וניטור
איכות: NDCG/Recall @ k, eRPM, כיסוי/מגוון, כיול.
מקוון: CTR/CTCVR, הכנסה/הפעלה, שימור, תלונות/אי-ציות, latency/timeout.
סחיפה: PSI/KL לפי מאפייני מפתח, טיפת oflayn↔onlayn.
הגבלות: מימוש מכסות/גיוון, השפעות על מסנני RG, כיפות תדר.
Runibooks: Remember Delegradation (ירידה ב-ANN), עלייה בתלונות, נחשול בפסקי זמן, folback חירום (פופולרי-בטוח).
15) שגיאות תכופות
אופטימיזציה של ”CTR גולמי” במקום הגדלה/ערך.
אין שכבה מדורגת מחדש * גיוון רך, ”מנהרת ראייה”.
פרצופים מהעתיד, טי-זי ערבוב, הגדרות אותות לא עקביות.
חוסר כיול וסיפים * תקציב וכיפות תדר ”להידרדר”.
התעלמו מתלונות, סיכונים, בעיות רגולטוריות.
תכונת אונליין/offline non-synchron = כשל במכירות.
16) רשימת בדיקות אישיות טרום שחרור
[ דרכון מודל ] (מטרות, מגבלות, מדדים, בעלים, גרסאות)
[ ] Recall/Rank/Re-Rank פורסם; אן והמקרים התחממו
[ ] תכונות בור וכיול, ספסל לא מקוון (NDCG/PR-AUC) עבר
[ ] A/B עיצוב ומעקות בטיחות; דו "ח מוכן להחלטה
[ ] RG/Frequency/Versional/Quate Contraints - מיושם ומוניטור
[ ] תצפית, התראות, עצור-מנוף, עממיות (פופולרי-בטוח)
[ תיעוד ] ורניבוקים, תוכנית לשיפור אינקרמנטלי
סך הכל
מודלי Personalization יעילים רק כמערכת מודעת למדיניות: נתונים והטמעות עשירים = = Recall/Rank/Re-Re-rank hybrid ec bandits/RL עבור התאמה מקוונת = מטרות רב תכליתיות להגבלות ואתיקה נוקשה = MLOPs ממושמעים וניטור. מעגל זה מספק לא רק ”המלצות”, אלא גם פתרונות הניתנים לניהול המגבירים את ROMI, LTV וסיפוק - בבטחה, בשקיפות ובהתרבות.