سیستم های توصیه شده
سیستم های توصیه شده
سیستم توصیه فقط یک مدل CTR نیست. "این یک خط لوله از داده ها → نامزدها → رتبه بندی → سیاست → عمل، → بازخورد است که بهینه سازی ارزش افزایشی تحت محدودیت های دنیای واقعی (سرعت، کلاه فرکانس، تنوع، اخلاق/انطباق).
1) داده ها، سیگنال ها و نمایندگی ها
رویدادها: نمایش/کلیک/اضافه می کند/خرید/سپرده، ساکن زمان، لغو.
محتوا/کاتالوگ: ویژگی ها (دسته ها/ژانرها/استودیوها/قیمت/طراوت/نوسانات).
پروفایل های کاربر: RFM، تنظیمات، دستگاه ها/کانال ها، زمان بندی ها.
زمینه: ساعت/روز/تعطیلات/مسابقات، محلی/TZ، سایت نمایش.
کیفیت: دستور العمل های نقطه در زمان، idempotency از حوادث، deadup/antiboot، ماسک PII.
جاسازی: کاربر/مورد/زمینه در فضای مشترک (MF/Word2Vec2Rec/ترانسفورماتور)، چند منظوره (متن/تصاویر).
2) معماری: یادآوری → رتبه → رتبه مجدد → عمل
1. فراخوان نامزدها (200-5000 نامزد): ANN (FAISS/ScaNN)، محبوبیت/روند، فیلترهای مبتنی بر قانون.
2. رتبه بندی (20-200): LTR (GBM/NN)، معماری برج، اهداف باینری/چند هدف (کلیک، تبدیل، ارزش).
3. رتبه بندی مجدد سیاست آگاه (5-30 در لیست نهایی): تنوع/تازگی/خوشبختی، سهمیه نام تجاری/رده، RG/انطباق، کلاه فرکانس، انصاف.
4. اقدام: نشان می دهد/فشار/ایمیل/ویترین شخصی با cooldowns و «ساعت آرام».
5. بازخورد: ورود «تصور → کلیک → عمل → ارزش»، بازخورد منفی (جست و خیز، شکایت).
3) پارادایم های مدل
مبتنی بر محتوا: مجاورت با ویژگی های فناوری اطلاعات و مشخصات ؛ ایده آل برای شروع سرد برای اقلام.
فیلتر مشارکتی: کاربر-کاربر/آیتم توسط ماتریس تعامل.
Factorization/embedding: MF/BPR/NeuMF, دو برج MLP (برج کاربر × برج مورد).
یادگیری به رتبه: دو طرفه/listwise (LambdaMART، RankNet)، بهینه سازی NDCG @ k.
جلسه/متوالی: GRU4Rec، SASRec، ترانسفورماتور (T5-style) - سفارش/زمینه در جلسه.
راهزنان متنی: LinUCB/Thompson برای سازگاری سریع و خلاقانه آنلاین.
RL: SlateQ/DQN/سیاست گرادیان برای جایزه چند مرحله ای (حفظ/LTV).
رویکردهای علّی/صعودی: توصیه هایی که افزایش را در نظر می گیرند، و نه «CTR خام».
4) اهداف، محدودیت ها و تدوین وظیفه
اهداف: CTR/CTCVR، درآمد/حاشیه/LTV، حفظ، رضایت، سرعت.
محدودیت ها: تنوع، سهمیه ارائه دهنده/دسته، کلاه فرکانس، RG/انطباق، انصاف/اخلاق، SLA p95.
[
\ textstyle امتیاز =\alpha\cdot\hat p_{\text{click}} +\beta\cdot\text {Value}
\ gamma\cdot\text {خستگی} +\delta\cdot\text {تازگی} -\sum _ j\lambda _ j\cdot\text {جریمه} _ j
]
که در آن مجازات نقض سهمیه/RG/فرکانس/یکنواختی است.
5) معیارها و امتیاز دهی
آفلاین شدن
ارتباط/رتبه بندی: AUC/PR-AUC، Recall @ k، MAP، NDCG @ k.
کسب و کار: eRPM/eCPM، پروکسی LTV، حاشیه مورد انتظار.
کالیبراسیون: Brier، ECE (مهم برای آستانه/سیاست).
Списки: پوشش/تنوع/نوآوری/خوشبختی.
به صورت آنلاین
تست A/B/چند برچسب: CTR، CTCVR، درآمد/جلسه، نگهداری، شکایات/لغو اسناد (guardrails)، تاخیر/زمان بندی.
ارزیابی علیت: CUPED، شبه آزمایش (DiD/کنترل مصنوعی) در تصادفی محدود است.
معیارهای بالا بردن: Qini/AUUC، uplift @ k - برای توصیه های آگاهانه درمان.
6) شروع سرد و پراکنده
کاربران جدید: محبوب @ بخش، بررسی محتوا، محتوا بر اساس اولین کلیک، راهزن با هوش گسترده.
آیتم های جدید: ابرداده/تعبیه متن/تصاویر + نگاه به طور یکسان توسط استودیو/دسته.
دامنه های کوچک: یادگیری انتقال، چند وظیفه (برج مشترک)، تقطیر متقابل دامنه.
7) تنوع، نوآوری، خوشبختی
الگوریتم: MMR، xQuAD، PM-2 ؛ جریمه برای یکنواختی
سهمیه بندی: حداقل/حداکثر بر اساس طبقه/نام تجاری/کلاس ریسک.
ثبات لیست: بی تحرکی موقعیت، هیسترزیس به روز رسانی ؛ خروجی را «فلاش» نکنید.
8) زیرساخت و MLOps
فروشگاه ویژگی: دستور العمل های PIT، TTL برای ویژگی های جلسه، برابری آنلاین/آفلاین.
خدمات ANN: FAISS/ScaNN، sharding/cache، replication.
Ranker: ویژگی های زمان واقعی، کالیبراسیون، امضای نسخه.
لایه سیاست/رتبه بندی مجدد: محدودیت/سهمیه/RG/فرکانس/تنوع.
SLA: پایان دادن به پایان p95 ≤ 100-300 мс ؛ عقب نشینی (محبوب امن) تحت تخریب.
قابلیت مشاهده: ردیابی همبستگی _ id، رانش ویژگی (PSI)، معیارهای کیفیت آنلاین، جرثقیل توقف.
9) امنیت، حریم خصوصی، اخلاق
به حداقل رساندن PII، RLS/CLS، ماسک.
فیلترهای RG/انطباق قبل از نمایش، کلاه فرکانس، ساعت آرام.
تشخیص عدالت توسط بخش ؛ توضیح دلایل برگزاری نمایشگاه ؛ مسیر درخواست تجدید نظر
10) شبه کد: یادآوری → رتبه → هیبرید مجدد رتبه
python
Recall cand_emb = ann.recall(user_embed, topk=500)
cand_rule = popular.by_segment(user.segment, k=200)
cands = dedup(cand_emb + cand_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker.predict(features) # p(click), value
Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0.3,'B':0.3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0.6, value=0.3, novelty=0.1)
)
return final[:N]
تامپسون نمونه برای خلاقیت (طرح)
python beta priors per creative: (α, β)
samples = {cr: np.random.beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples.get)
show(chosen)
update(alpha, beta, reward=click)
11) Pseudo-SQL: بازخورد منفی و کلاهک فرکانس
sql
-- Последний показ и флаги «скрыть/жалоба» → баним на 7 дней
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l.user_id=:uid AND l.item_id=i.item_id
WHERE COALESCE(l.hidden,false)=false
AND COALESCE(l.reported,false)=false
AND (l.last_ts IS NULL OR l.last_ts < NOW() - INTERVAL '7 day');
12) جدول تصمیم گیری
13) ضد الگوهای
بهینه سازی «CTR خام» به جای افزایش و ارزش.
فقدان لایه رتبه مجدد → یکنواختی بیش از حد، «تونل دید».
چهره هایی از آینده مخلوط کردن TZ ؛ تعاریف سیگنال غیر آشنا.
بدون کالیبراسیون احتمالات → آستانه/سیاست های نادرست.
RG/اخلاق/انصاف → شکایات/خطرات/جریمه را نادیده بگیرید.
ویژگی و معیارهای ناهمزمان آنلاین/آفلاین - «drawdown» در مواد غذایی.
عدم وجود دریچه عقب و توقف.
14) چک لیست راه اندازی توصیه
- گذرنامه سیستم - اهداف، محدودیت ها، معیارها، صاحبان، نسخه ها
- به یاد آوردن/رتبه/رتبه مجدد طلاق ؛ ANN گرم، ذخیره سازی پیکربندی شده است
- ویژگی های PIT، کالیبراسیون، معیارهای آفلاین (NDCG/PR-AUC) گذشت
- طراحی A/B و guardrails ؛ گزارش آماده تصمیم گیری
- محدودیت ها: تنوع/سهمیه/RG/کلاه فرکانس - اجرا و نظارت
- SLA p95، ردیابی، هشدار، توقف جرثقیل و سقوط ایمن محبوب
- مستندات، Runibooks، برنامه بهبود تدریجی
نتیجه گیری
یک سیستم توصیه قوی خط لوله آگاه از سیاست است: یک فراخوان ترکیبی/رتبه/رتبه بندی مجدد که ارزش افزایشی را تحت محدودیت های سرعت، اخلاق و تنوع بهینه می کند. با اضافه کردن راهزنان/RL برای انطباق آنلاین، نظم و انضباط MLOps و ارزیابی علت و معلولی درست، شما نه «لیست به خاطر لیست»، اما راه حل های مدیریت که افزایش ROMI، LTV و رضایت کاربر - پایدار و امن است.