مدل های شخصی سازی

شخصی سازی یک سیستم است که در آن داده ها → مدل ها → سیاست نمایش → عمل → بازخورد. هدف این است که به حداکثر رساندن ارزش افزایشی (درآمد/حفظ/رضایت) در حالی که محدودیت های ملاقات (اخلاق/RG، کلاه فرکانس، تنوع، طراوت، SLA).

1) داده ها و دیدگاه ها

مواد اولیه: رویدادها (نمایش/کلیک/بازی/خرید/سپرده)، کاتالوگ محتوا (ویژگی ها)، پروفایل کاربر، زمینه (زمان/جغرافیایی/دستگاه/کانال)، سیگنال های کیفیت (ربات/تقلب).

فیکی:

کاربر: RFM، تنظیمات دسته، حساسیت قیمت، زمان روز، دستگاه.
مورد: ژانر/دسته، استودیو/ارائه دهنده، زبان، قیمت/نوسانات، «طراوت».
زمینه: داو/هود، تبلیغی/رویدادها، جلسه، کانال ورود به سیستم.
جاسازی: فضاهای مشترک کاربر/مورد (MF/Word2Vec2Rec/ترانسفورماتور)، چند منظوره (متن/تصاویر).
کیفیت: نقطه در زمان (بدون چهره)، زمان UTC، idempotence از حوادث، PII ماسک.

2) پارادایم های اساسی

1. مبتنی بر محتوا - نزدیکی با توجه به ویژگی های آدرس و مشخصات کاربر.
2. فیلتر همکاری (CF) - کاربران مشابه/aytems بر اساس سیگنال های تعامل.
3. فاکتور ماتریس/جاسازی - عوامل پنهان، نقطه محصول/MLP برای نمره.
4. Learning-to-Rank (LTR) - شبکه های تقویت گرادیان/عصبی برای لیست های رتبه بندی (دو طرفه/لیست).
5. رتبه بندی مجدد لایه - پس از پردازش، با توجه به تنوع/نوآوری/محدودیت ها.
6. راهزنان متنی - یادگیری آنلاین با اکتشاف-بهره برداری.
7. RL/seq-recommendations - بهینه سازی مسیر/جلسه (جایزه چند مرحله ای).

3) خط لوله تصمیم گیری

1. به یاد بیاورید (انتخاب نامزد سریع, 200-5K): ANN با تعبیه, قانون پایه/دسته, محبوبیت.
2. رتبه (نمره دقیق، 20-200): LTR/MLP با ویژگی های غنی.
3. رتبه بندی مجدد/سیاست (لیست نهایی، 5-30): بهینه سازی چند منظوره + محدودیت ها و تنوع.
4. اقدام: نمایش/فشار/ایمیل/ویترین شخصی با نگهبانان دهان و «ساعت آرام».
5. بازخورد: سیگنالهای ضمنی/صریح → بازآموزی/به روز رسانی راهزنی.

4) اهداف و محدودیت های چند منظوره

اهداف: CTR/CTCVR، حفظ، درآمد، حاشیه، LTV، رضایت، سرعت.
محدودیت ها: فرکانس تماس، RG/انطباق، انواع دسته ها، سهمیه نام تجاری/ارائه دهنده، انصاف.

جمله بندی:

[
\ max\sum _ i w_i\cdot\text {هدف} _ i\quad
\ متن {ها. t. }\text {کلاه، RG، تنوع، SLA}
]

تمرین: انجام دوباره رتبه بندی سیاست آگاه (نگاه کنید به § 7)، که در آن سرعت با قوانین ترکیب شده است.

5) شروع سرد و داده های کوچک

کاربران جدید: محبوبیت توسط بخش/کانال/جغرافیایی، محتوا بر اساس پرسشنامه/اولین کلیک، راهزن با هوش گسترده.
ابزارهای جدید: تعبیه محتوا (متن/برچسب ها)، ابرداده، «نگاه به طور یکسان» توسط ارائه دهنده/ژانر.
چند شات: تعبیه انتقال/برج مشترک.

6) معیارهای امتیاز دهی

آفلاین شدن

طبقه بندی/رتبه بندی: AUC/PR-AUC، NDCG @ k، MAP، Recall @ k.
کسب و کار: eCPM/eRPM، درآمد/حاشیه مورد انتظار، پروکسی LTV.
چند منظوره: معیارهای وزن (به عنوان مثال،. NDCG با بهره = ارزش).
کالیبراسیون: بریر، ECE (برای احتمالات).
Списки: پوشش/تنوع/نوآوری/خوشبختی.

آنلاین

تست های A/B و باند: CTR، CTCVR، درآمد/جلسه، حفظ D1/D7، شکایات/لغو اسناد (گارد محافظ)، تاخیر/SLA.
افزایش: آسانسور٪، CUPED/شبه آزمایش در تصادفی پیچیده است.

7) تنوع و سیاست آگاه دوباره رتبه بندی

MMR/PM-2/xQuAD: تعادل «ارتباط × تازگی».
سهمیه ها: حداقل/حداکثر بر اساس ژانر/ارائه دهنده/رده ریسک.
عدالت: محدود کردن سهام برای جلوگیری از انحراف سیستماتیک.

مثال امتیاز دهی:

[
\ text\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {خستگی} +\delta\cdot\text {تازگی}
]

هیسترزیس: لیست ها را «چشمک نزنید» ؛ به روز رسانی موارد با اینرسی.

8) راهزنان متنی و RLs

راهزنان (LinUCB، تامپسون): سریع آنلاین یادگیری، کنترل اکتشاف. خوب برای موقعیت اول/خلاق/کانال.
راهزنان آبشار: بهینه سازی بالا-K.
RL (DQN/Policy Gradient/SlateQ): شخصی سازی جلسه، بهینه سازی پاداش چند مرحله ای (بازگشت/درآمد/جلسه طولانی).
ایمنی: ارزیابی خارج از سیاست (IPS/DR)، شبیه سازی، کلاه برای تحقیق، RL امن است.

9) شخصی سازی برای اثر علی

مدل های ارتقاء: چه کسی باید لمس شود (متقاعد کننده)، Qini/AUUC، uplift @ k.
رتبه بندی آگاه از درمان: شامل احتمال افزایش به جای CTR خام است.
بخش های Guardrails: Do-Not-Disturb، قوانین RG، عدالت.

10) معماری و MLOps

فروشگاه ویژگی: برابری آنلاین/آفلاین، نقطه در زمان، TTL برای ویژگی های جلسه.
خدمات کاندید: ANN/FAISS/ScaNN، ذخیره/تقسیم بر اساس بخش.
رانکر: افزایش گرادیان/MLP/معماری برج، کالیبراسیون.
سیاست/رتبه بندی مجدد: قوانین/محدودیت ها، تنوع، لایه باند.
ارکستراسیون: درخواست idempotency، تاخیر p95 ≤ 100-300 میلی ثانیه، DLQ/retray.
قابلیت مشاهده: همبستگی _ id ردیابی، PSI، معیارهای کیفیت، stopcock.

11) امنیت، حریم خصوصی، اخلاق

به حداقل رساندن PII: نشانه گذاری، RLS/CLS، ماسک کردن.

توضیح: ویژگی های بالا/دلایل نشان دادن ؛ مسیر درخواست تجدید نظر

اخلاق/RG: کلاه های فرکانس، «ساعت های آرام»، ممنوعیت پیشنهادات تهاجمی از گروه های آسیب پذیر.
انطباق: ممیزی تصمیمات/سیاهههای مربوط، نسخه های سیاست ها و خلاقیت ها.

12) گذرنامه و جداول تصمیم گیری

گواهی مرجع (مثال)

شناسه/نسخه: «REC _ HYBRID _ RANK _ v5»

به یاد بیاورید: ANN (جاسازی کاربر/مورد)، بالا 500

Ranker: LTR-GBM + MLP (ویژگی ها: RFM کاربر، متا مورد، زمینه)

رتبه بندی مجدد: PM-2 (تنوع)، سهمیه بندی برند، فیلترهای RG، کلاه های فرکانس

اهداف/معیارها: NDCG @ 10، eRPM، zhaloby≤Kh، تأخیر p95≤150 ms

A/B: 14 روز، CUPED ؛ guardrails - RG/تحویل

صاحبان/ورود به سیستم/Runibook

جدول تصمیم گیری

شرایط استفاده	زمینه کاری	فعالیت ها	محدودیت ها	نظر دادن
'new _ user' & 'low _ history'	در حال سوار شدن	@segment محبوب + بذر مبتنی بر محتوا	کلاه فرکانس، RG	شروع سرد
'session _ len> 3' و 'تنوع _ low'	جلسه	رتبه بندی مجدد с MMR	حداقل 3 دسته بندی	خوشبختی
'uplift_push≥τ'	پیشنهادات	فشار شخصی	مزاحم نشوید، zhaloby≤Kh	اثرات، نه CTR

13) کد شبه (طرح)

A. فراخوان ترکیبی + رتبه + رتبه مجدد

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. تامپسون نمونه برای خلاقیت

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) تشخیص و نظارت

کیفیت: NDCG/Recall @ k، eRPM، پوشش/تنوع، کالیبراسیون.
آنلاین: CTR/CTCVR، درآمد/جلسه، نگهداری، شکایات/لغو اشتراک، تاخیر/زمان.
رانش: PSI/KL توسط ویژگی های کلیدی، افت همبستگی oflayn↔onlayn.
محدودیت ها: تحقق سهمیه/تنوع، تأثیرات فیلترهای RG، کلاه های فرکانس.
Runibooks: کاهش یادآوری (افت ANN)، افزایش شکایات، افزایش زمان خروج، folback اضطراری (محبوب امن).

15) خطاهای مکرر

بهینه سازی «CTR خام» به جای افزایش/ارزش.
هیچ لایه رتبه بندی مجدد وجود ندارد → تنوع کمی، «تونل دید».
چهره از آینده، مخلوط کردن TZ، تعاریف سیگنال متناقض.
عدم کالیبراسیون و آستانه → بودجه و کلاه فرکانس «خراب».
RG/اخلاق و انصاف - شکایات، خطرات، مسائل نظارتی را نادیده بگیرید.
ویژگی آنلاین/آفلاین غیر synchron → شکست در فروش.

16) چک لیست شخصی قبل از انتشار

گذرنامه مدل (اهداف، محدودیت ها، معیارها، صاحبان، نسخه ها)
به یاد آوردن/رتبه/رتبه مجدد ارسال شده ؛ ANN و مخازن گرم
ویژگی های PIT و کالیبراسیون، معیارهای آفلاین (NDCG/PR-AUC) گذشت
طراحی A/B و guardrails ؛ گزارش آماده تصمیم گیری
RG/فرکانس/تنوع/محدودیت سهمیه - اجرا و نظارت
مشاهده، هشدار، توقف جرثقیل، folbacks (محبوب امن)
مستندات و Runibooks، برنامه بهبود افزایشی

مجموع

مدل های شخصی سازی فقط به عنوان یک سیستم آگاه از سیاست موثر هستند: داده های غنی و تعبیه → ترکیبی از فراخوان/رتبه/رتبه مجدد → راهزنان/RL برای سازگاری آنلاین → اهداف چند منظوره برای محدودیت های سختگیرانه و اخلاق → MLOps و نظارت منظم. چنین مدار فراهم می کند نه تنها «توصیه»، اما راه حل های قابل کنترل است که افزایش ROMI، LTV و رضایت - با خیال راحت، شفاف و تجدید.

مدل های شخصی سازی