سیستم های توصیه شده

سیستم توصیه فقط یک مدل CTR نیست. "این یک خط لوله از داده ها → نامزدها → رتبه بندی → سیاست → عمل، → بازخورد است که بهینه سازی ارزش افزایشی تحت محدودیت های دنیای واقعی (سرعت، کلاه فرکانس، تنوع، اخلاق/انطباق).

1) داده ها، سیگنال ها و نمایندگی ها

رویدادها: نمایش/کلیک/اضافه می کند/خرید/سپرده، ساکن زمان، لغو.
محتوا/کاتالوگ: ویژگی ها (دسته ها/ژانرها/استودیوها/قیمت/طراوت/نوسانات).
پروفایل های کاربر: RFM، تنظیمات، دستگاه ها/کانال ها، زمان بندی ها.
زمینه: ساعت/روز/تعطیلات/مسابقات، محلی/TZ، سایت نمایش.
کیفیت: دستور العمل های نقطه در زمان، idempotency از حوادث، deadup/antiboot، ماسک PII.
جاسازی: کاربر/مورد/زمینه در فضای مشترک (MF/Word2Vec2Rec/ترانسفورماتور)، چند منظوره (متن/تصاویر).

2) معماری: یادآوری → رتبه → رتبه مجدد → عمل

1. فراخوان نامزدها (200-5000 نامزد): ANN (FAISS/ScaNN)، محبوبیت/روند، فیلترهای مبتنی بر قانون.
2. رتبه بندی (20-200): LTR (GBM/NN)، معماری برج، اهداف باینری/چند هدف (کلیک، تبدیل، ارزش).
3. رتبه بندی مجدد سیاست آگاه (5-30 در لیست نهایی): تنوع/تازگی/خوشبختی، سهمیه نام تجاری/رده، RG/انطباق، کلاه فرکانس، انصاف.
4. اقدام: نشان می دهد/فشار/ایمیل/ویترین شخصی با cooldowns و «ساعت آرام».
5. بازخورد: ورود «تصور → کلیک → عمل → ارزش»، بازخورد منفی (جست و خیز، شکایت).

3) پارادایم های مدل

مبتنی بر محتوا: مجاورت با ویژگی های فناوری اطلاعات و مشخصات ؛ ایده آل برای شروع سرد برای اقلام.
فیلتر مشارکتی: کاربر-کاربر/آیتم توسط ماتریس تعامل.
Factorization/embedding: MF/BPR/NeuMF, دو برج MLP (برج کاربر × برج مورد).
یادگیری به رتبه: دو طرفه/listwise (LambdaMART، RankNet)، بهینه سازی NDCG @ k.
جلسه/متوالی: GRU4Rec، SASRec، ترانسفورماتور (T5-style) - سفارش/زمینه در جلسه.
راهزنان متنی: LinUCB/Thompson برای سازگاری سریع و خلاقانه آنلاین.
RL: SlateQ/DQN/سیاست گرادیان برای جایزه چند مرحله ای (حفظ/LTV).
رویکردهای علّی/صعودی: توصیه هایی که افزایش را در نظر می گیرند، و نه «CTR خام».

4) اهداف، محدودیت ها و تدوین وظیفه

اهداف: CTR/CTCVR، درآمد/حاشیه/LTV، حفظ، رضایت، سرعت.
محدودیت ها: تنوع، سهمیه ارائه دهنده/دسته، کلاه فرکانس، RG/انطباق، انصاف/اخلاق، SLA p95.

رتبه بندی مجدد آگاهی از سیاست (مثال مقیاس بندی):

[
\ textstyle امتیاز =\alpha\cdot\hat p_{\text{click}} +\beta\cdot\text {Value}

\gamma\cdot\text {خستگی} +\delta\cdot\text {تازگی} -\sum _ j\lambda _ j\cdot\text {مجازات} _ j
]

که در آن مجازات نقض سهمیه/RG/فرکانس/یکنواختی است.

5) معیارها و امتیاز دهی

آفلاین شدن

ارتباط/رتبه بندی: AUC/PR-AUC، Recall @ k، MAP، NDCG @ k.
کسب و کار: eRPM/eCPM، پروکسی LTV، حاشیه مورد انتظار.
کالیبراسیون: Brier، ECE (مهم برای آستانه/سیاست).
Списки: پوشش/تنوع/نوآوری/خوشبختی.

آنلاین

تست A/B/چند برچسب: CTR، CTCVR، درآمد/جلسه، نگهداری، شکایات/لغو اسناد (guardrails)، تاخیر/زمان بندی.
ارزیابی علیت: CUPED، شبه آزمایش (DiD/کنترل مصنوعی) در تصادفی محدود است.
معیارهای بالا بردن: Qini/AUUC، uplift @ k - برای توصیه های آگاهانه درمان.

6) شروع سرد و پراکنده

کاربران جدید: محبوب @ بخش، بررسی محتوا، محتوا بر اساس اولین کلیک، راهزن با هوش گسترده.
آیتم های جدید: ابرداده/تعبیه متن/تصاویر + نگاه به طور یکسان توسط استودیو/دسته.
دامنه های کوچک: یادگیری انتقال، چند وظیفه (برج مشترک)، تقطیر متقابل دامنه.

7) تنوع، نوآوری، خوشبختی

الگوریتم: MMR، xQuAD، PM-2 ؛ جریمه برای یکنواختی

سهمیه بندی: حداقل/حداکثر بر اساس طبقه/نام تجاری/کلاس ریسک.
ثبات لیست: بی تحرکی موقعیت، هیسترزیس به روز رسانی ؛ خروجی را «فلاش» نکنید.

8) زیرساخت و MLOps

فروشگاه ویژگی: دستور العمل های PIT، TTL برای ویژگی های جلسه، برابری آنلاین/آفلاین.
خدمات ANN: FAISS/ScaNN، sharding/cache، replication.
Ranker: ویژگی های زمان واقعی، کالیبراسیون، امضای نسخه.
لایه سیاست/رتبه بندی مجدد: محدودیت/سهمیه/RG/فرکانس/تنوع.
SLA: پایان دادن به پایان p95 ≤ 100-300 мс ؛ عقب نشینی (محبوب امن) تحت تخریب.
قابلیت مشاهده: ردیابی همبستگی _ id، رانش ویژگی (PSI)، معیارهای کیفیت آنلاین، جرثقیل توقف.

9) امنیت، حریم خصوصی، اخلاق

به حداقل رساندن PII، RLS/CLS، ماسک.
فیلترهای RG/انطباق قبل از نمایش، کلاه فرکانس، ساعت آرام.

تشخیص عدالت توسط بخش ؛ توضیح دلایل برگزاری نمایشگاه ؛ مسیر درخواست تجدید نظر

10) شبه کد: یادآوری → رتبه → هیبرید مجدد رتبه

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

نمونه برداری تامپسون برای خلاقیت (طرح)

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11) Pseudo-SQL: بازخورد منفی و کلاهک فرکانس

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12) جدول تصمیم گیری

شرایط استفاده	زمینه کاری	فعالیت ها	محدودیت ها	نظر دادن
'جدید _ کاربر و low_history'	در حال سوار شدن	@segment محبوب + محتوای دانه	کلاه فرکانس، RG	شروع سرد
'session _ len> 3 & diversity_low'	جلسه	MMR/xQuAD رتبه بندی مجدد	حداقل 3 دسته بندی	خوشبختی
'uplift_push≥τ'	پیشنهادات	فشار شخصی	مزاحم نشوید، zhaloby≤Kh	افزایش، CTR نیست
'risk_RG≥τ'	هر کدام	بلوک محتوای خطر	RG/انطباق	امنیت

13) ضد الگوهای

بهینه سازی «CTR خام» به جای افزایش و ارزش.
فقدان لایه رتبه مجدد → یکنواختی بیش از حد، «تونل دید».
چهره هایی از آینده مخلوط کردن TZ ؛ تعاریف سیگنال غیر آشنا.
بدون کالیبراسیون احتمالات → آستانه/سیاست های نادرست.
RG/اخلاق/انصاف → شکایات/خطرات/جریمه را نادیده بگیرید.
ویژگی و معیارهای ناهمزمان آنلاین/آفلاین - «drawdown» در مواد غذایی.
عدم وجود دریچه عقب و توقف.

14) چک لیست راه اندازی توصیه

گذرنامه سیستم - اهداف، محدودیت ها، معیارها، صاحبان، نسخه ها
به یاد آوردن/رتبه/رتبه مجدد طلاق ؛ ANN گرم، ذخیره سازی پیکربندی شده است
ویژگی های PIT، کالیبراسیون، معیارهای آفلاین (NDCG/PR-AUC) گذشت
طراحی A/B و guardrails ؛ گزارش آماده تصمیم گیری
محدودیت ها: تنوع/سهمیه/RG/کلاه فرکانس - اجرا و نظارت
SLA p95، ردیابی، هشدار، توقف جرثقیل و سقوط ایمن محبوب
مستندات، Runibooks، برنامه بهبود تدریجی

مجموع

یک سیستم توصیه قوی خط لوله آگاه از سیاست است: یک فراخوان ترکیبی/رتبه/رتبه بندی مجدد که ارزش افزایشی را تحت محدودیت های سرعت، اخلاق و تنوع بهینه می کند. با اضافه کردن راهزنان/RL برای انطباق آنلاین، نظم و انضباط MLOps و ارزیابی علت و معلولی درست، شما نه «لیست به خاطر لیست»، اما راه حل های مدیریت که افزایش ROMI، LTV و رضایت کاربر - پایدار و امن است.

سیستم های توصیه شده