مدل های شخصی سازی
مدل های شخصی سازی
شخصی سازی یک سیستم است که در آن داده ها → مدل ها → سیاست نمایش → عمل → بازخورد. هدف این است که به حداکثر رساندن ارزش افزایشی (درآمد/حفظ/رضایت) در حالی که محدودیت های ملاقات (اخلاق/RG، کلاه فرکانس، تنوع، طراوت، SLA).
1) داده ها و دیدگاه ها
مواد اولیه: رویدادها (نمایش/کلیک/بازی/خرید/سپرده)، کاتالوگ محتوا (ویژگی ها)، پروفایل کاربر، زمینه (زمان/جغرافیایی/دستگاه/کانال)، سیگنال های کیفیت (ربات/تقلب).
فیکی:- کاربر: RFM، تنظیمات دسته، حساسیت قیمت، زمان روز، دستگاه.
- مورد: ژانر/دسته، استودیو/ارائه دهنده، زبان، قیمت/نوسانات، «طراوت».
- زمینه: داو/هود، تبلیغی/رویدادها، جلسه، کانال ورود به سیستم.
- جاسازی: فضاهای مشترک کاربر/مورد (MF/Word2Vec2Rec/ترانسفورماتور)، چند منظوره (متن/تصاویر).
- کیفیت: نقطه در زمان (بدون چهره)، زمان UTC، idempotence از حوادث، PII ماسک.
2) پارادایم های اساسی
1. مبتنی بر محتوا - نزدیکی با توجه به ویژگی های آدرس و مشخصات کاربر.
2. فیلتر همکاری (CF) - کاربران مشابه/aytems بر اساس سیگنال های تعامل.
3. فاکتور ماتریس/جاسازی - عوامل پنهان، نقطه محصول/MLP برای نمره.
4. Learning-to-Rank (LTR) - شبکه های تقویت گرادیان/عصبی برای لیست های رتبه بندی (دو طرفه/لیست).
5. رتبه بندی مجدد لایه - پس از پردازش، با توجه به تنوع/نوآوری/محدودیت ها.
6. راهزنان متنی - یادگیری آنلاین با اکتشاف-بهره برداری.
7. RL/seq-recommendations - بهینه سازی مسیر/جلسه (جایزه چند مرحله ای).
3) خط لوله تصمیم گیری
1. به یاد بیاورید (انتخاب نامزد سریع, 200-5K): ANN با تعبیه, قانون پایه/دسته, محبوبیت.
2. رتبه (نمره دقیق، 20-200): LTR/MLP با ویژگی های غنی.
3. رتبه بندی مجدد/سیاست (لیست نهایی، 5-30): بهینه سازی چند منظوره + محدودیت ها و تنوع.
4. اقدام: نمایش/فشار/ایمیل/ویترین شخصی با نگهبانان دهان و «ساعت آرام».
5. بازخورد: سیگنالهای ضمنی/صریح → بازآموزی/به روز رسانی راهزنی.
4) اهداف و محدودیت های چند منظوره
اهداف: CTR/CTCVR، حفظ، درآمد، حاشیه، LTV، رضایت، سرعت.
محدودیت ها: فرکانس تماس، RG/انطباق، انواع دسته ها، سهمیه نام تجاری/ارائه دهنده، انصاف.
[
\ max\sum _ i w_i\cdot\text {هدف} _ i\quad
\ متن {ها. t. }\text {کلاه، RG، تنوع، SLA}
]
تمرین: انجام دوباره رتبه بندی سیاست آگاه (نگاه کنید به § 7)، که در آن سرعت با قوانین ترکیب شده است.
5) شروع سرد و داده های کوچک
کاربران جدید: محبوبیت توسط بخش/کانال/جغرافیایی، محتوا بر اساس پرسشنامه/اولین کلیک، راهزن با هوش گسترده.
ابزارهای جدید: تعبیه محتوا (متن/برچسب ها)، ابرداده، «نگاه به طور یکسان» توسط ارائه دهنده/ژانر.
چند شات: تعبیه انتقال/برج مشترک.
6) معیارهای امتیاز دهی
آفلاین شدن
طبقه بندی/رتبه بندی: AUC/PR-AUC، NDCG @ k، MAP، Recall @ k.
کسب و کار: eCPM/eRPM، درآمد/حاشیه مورد انتظار، پروکسی LTV.
چند منظوره: معیارهای وزن (به عنوان مثال،. NDCG با بهره = ارزش).
کالیبراسیون: بریر، ECE (برای احتمالات).
Списки: پوشش/تنوع/نوآوری/خوشبختی.
آنلاین
تست های A/B و باند: CTR، CTCVR، درآمد/جلسه، حفظ D1/D7، شکایات/لغو اسناد (گارد محافظ)، تاخیر/SLA.
افزایش: آسانسور٪، CUPED/شبه آزمایش در تصادفی پیچیده است.
7) تنوع و سیاست آگاه دوباره رتبه بندی
MMR/PM-2/xQuAD: تعادل «ارتباط × تازگی».
سهمیه ها: حداقل/حداکثر بر اساس ژانر/ارائه دهنده/رده ریسک.
عدالت: محدود کردن سهام برای جلوگیری از انحراف سیستماتیک.
[
\ text\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {خستگی} +\delta\cdot\text {تازگی}
]
هیسترزیس: لیست ها را «چشمک نزنید» ؛ به روز رسانی موارد با اینرسی.
8) راهزنان متنی و RLs
راهزنان (LinUCB، تامپسون): سریع آنلاین یادگیری، کنترل اکتشاف. خوب برای موقعیت اول/خلاق/کانال.
راهزنان آبشار: بهینه سازی بالا-K.
RL (DQN/Policy Gradient/SlateQ): شخصی سازی جلسه، بهینه سازی پاداش چند مرحله ای (بازگشت/درآمد/جلسه طولانی).
ایمنی: ارزیابی خارج از سیاست (IPS/DR)، شبیه سازی، کلاه برای تحقیق، RL امن است.
9) شخصی سازی برای اثر علی
مدل های ارتقاء: چه کسی باید لمس شود (متقاعد کننده)، Qini/AUUC، uplift @ k.
رتبه بندی آگاه از درمان: شامل احتمال افزایش به جای CTR خام است.
بخش های Guardrails: Do-Not-Disturb، قوانین RG، عدالت.
10) معماری و MLOps
فروشگاه ویژگی: برابری آنلاین/آفلاین، نقطه در زمان، TTL برای ویژگی های جلسه.
خدمات کاندید: ANN/FAISS/ScaNN، ذخیره/تقسیم بر اساس بخش.
رانکر: افزایش گرادیان/MLP/معماری برج، کالیبراسیون.
سیاست/رتبه بندی مجدد: قوانین/محدودیت ها، تنوع، لایه باند.
ارکستراسیون: درخواست idempotency، تاخیر p95 ≤ 100-300 میلی ثانیه، DLQ/retray.
قابلیت مشاهده: همبستگی _ id ردیابی، PSI، معیارهای کیفیت، stopcock.
11) امنیت، حریم خصوصی، اخلاق
به حداقل رساندن PII: نشانه گذاری، RLS/CLS، ماسک کردن.
توضیح: ویژگی های بالا/دلایل نشان دادن ؛ مسیر درخواست تجدید نظر
اخلاق/RG: کلاه های فرکانس، «ساعت های آرام»، ممنوعیت پیشنهادات تهاجمی از گروه های آسیب پذیر.
انطباق: ممیزی تصمیمات/سیاهههای مربوط، نسخه های سیاست ها و خلاقیت ها.
12) گذرنامه و جداول تصمیم گیری
گواهی مرجع (مثال)
شناسه/نسخه: «REC _ HYBRID _ RANK _ v5»
به یاد بیاورید: ANN (جاسازی کاربر/مورد)، بالا 500
Ranker: LTR-GBM + MLP (ویژگی ها: RFM کاربر، متا مورد، زمینه)
رتبه بندی مجدد: PM-2 (تنوع)، سهمیه بندی برند، فیلترهای RG، کلاه های فرکانس
اهداف/معیارها: NDCG @ 10، eRPM، zhaloby≤Kh، تأخیر p95≤150 ms
A/B: 14 روز، CUPED ؛ guardrails - RG/تحویل
صاحبان/ورود به سیستم/Runibook
جدول تصمیم گیری
13) کد شبه (طرح)
A. فراخوان ترکیبی + رتبه + رتبه مجدد
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. تامپسون نمونه برای خلاقیت
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) تشخیص و نظارت
کیفیت: NDCG/Recall @ k، eRPM، پوشش/تنوع، کالیبراسیون.
آنلاین: CTR/CTCVR، درآمد/جلسه، نگهداری، شکایات/لغو اشتراک، تاخیر/زمان.
رانش: PSI/KL توسط ویژگی های کلیدی، افت همبستگی oflayn↔onlayn.
محدودیت ها: تحقق سهمیه/تنوع، تأثیرات فیلترهای RG، کلاه های فرکانس.
Runibooks: کاهش یادآوری (افت ANN)، افزایش شکایات، افزایش زمان خروج، folback اضطراری (محبوب امن).
15) خطاهای مکرر
بهینه سازی «CTR خام» به جای افزایش/ارزش.
هیچ لایه رتبه بندی مجدد وجود ندارد → تنوع کمی، «تونل دید».
چهره از آینده، مخلوط کردن TZ، تعاریف سیگنال متناقض.
عدم کالیبراسیون و آستانه → بودجه و کلاه فرکانس «خراب».
RG/اخلاق و انصاف - شکایات، خطرات، مسائل نظارتی را نادیده بگیرید.
ویژگی آنلاین/آفلاین غیر synchron → شکست در فروش.
16) چک لیست شخصی قبل از انتشار
- گذرنامه مدل (اهداف، محدودیت ها، معیارها، صاحبان، نسخه ها)
- به یاد آوردن/رتبه/رتبه مجدد ارسال شده ؛ ANN و مخازن گرم
- ویژگی های PIT و کالیبراسیون، معیارهای آفلاین (NDCG/PR-AUC) گذشت
- طراحی A/B و guardrails ؛ گزارش آماده تصمیم گیری
- RG/فرکانس/تنوع/محدودیت سهمیه - اجرا و نظارت
- مشاهده، هشدار، توقف جرثقیل، folbacks (محبوب امن)
- مستندات و Runibooks، برنامه بهبود افزایشی
مجموع
مدل های شخصی سازی فقط به عنوان یک سیستم آگاه از سیاست موثر هستند: داده های غنی و تعبیه → ترکیبی از فراخوان/رتبه/رتبه مجدد → راهزنان/RL برای سازگاری آنلاین → اهداف چند منظوره برای محدودیت های سختگیرانه و اخلاق → MLOps و نظارت منظم. چنین مدار فراهم می کند نه تنها «توصیه»، اما راه حل های قابل کنترل است که افزایش ROMI، LTV و رضایت - با خیال راحت، شفاف و تجدید.