推薦系統
推薦系統
推薦系統不僅是「CTR模型」。這是一個數據流水線→候選者→排名→策略→操作→反饋,可在實際限制(速度,頻率帽,多樣性,道德/合規性)下優化增量價值。
1)數據,信號和表示
活動:觀看/點擊/添加/購買/存款,dwell-time,取消。
內容/目錄:屬性(類別/類型/工作室/價格/新鮮/波動)。
用戶配置文件:RFM、首選項、設備/通道、超時插槽。
背景:小時/天/假日/比賽,地方/TZ,展示場地。
質量:點對點食譜,事件平均性,滯後/反機器人,PII掩蓋。
Embeddings: 共享空間中的用戶/item/context (MF/Word2Vec2Rec/transformers),多模式(文本/圖像)。
2)體系結構: Recall → Rank → Re-rank → Action
1.Candidate recall(200-5,000名候選人):ANN(FAISS/ScaNN),人氣/趨勢,基於規則的過濾器。
2.排名(20-200):LTR(GBM/NN),塔式體系結構,二進制/多目標目標(單擊,轉換,價值)。
3.Policy-aware re-rank(最終列表中的5-30):多樣化/新穎性/偶然性,品牌/類別配額,RG/合規性,頻率帽,公平。
4.行動:放映/push/e-mail/個人展示,放映和「安靜時鐘」。
5.飼料:log' impression→click→action→value',負面反饋(skip,投訴)。
3)模型範式
基於Content的:基於aithem和配置文件的接近性;非常適合寒冷的開始。
協作過濾:通過交互矩陣進行用戶/item-item。
分解/積壓:MF/BPR/NeuMF,雙軸MLP(用戶塔× item塔)。
學習排名:pairwise/listwise(LambdaMART,RankNet),NDCG@k優化。
會期/連續:GRU4Rec、SASRec、Transformers (T5-style)-會話順序/上下文。
上下文匪徒:LinUCB/Thompson,用於快速在線改編和創意。
RL:SlateQ/DQN/Policy Gradient獲得多頭獎(保留/LTV)。
Causal/uplift方法:考慮收益的建議而不是「原始CTR」。
4)任務的目的,限制和表述
目標:CTR/CTCVR,收入/保證金/LTV,保留,滿意,速度。
限制:多樣化,提供商/類別配額,頻率帽,RG/合規性,公平性/倫理,SLA p 95。
[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}
\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]
其中Penalty 是配額/RG/頻率/單調違規行為。
5)度量與評估
離線
相關/排名:AUC/PR-AUC,Recall@k,MAP,NDCG@k。
業務:eRPM/eCPM,proxy-LTV,預期利潤。
校準:Brier,ECE(對於閾值/策略很重要)。
Списки: coverage/diversity/novelty/serendipity.
在線
A/B/多重測試:CTR,CTCVR,收入/會話,保留,投訴/退出(guardrails),後退/定時。
Causal評估:CUPED,具有有限隨機化的準實驗(DiD/合成控制)。
Uplift指標:Qini/AUUC,uplift@k-用於處理獎勵建議。
6)冷啟動和稀疏
新用戶:popular@segment,內容調查,基於第一個點擊的內容,具有廣泛情報的匪徒。
新的aitems:元數據/文本環境數據/圖像+工作室/類別中的外觀。
小域:transfer learning, multi-task(共享塔),cross-domain distillation。
7)多樣化,新穎性,偶發性
算法:MMR,xAD,PM-2;單調處罰。
配額:按類別/品牌/風險等級劃分的min/max。
列表穩定性:位置慣性,更新滯後;不要用發票「閃爍」。
8)基礎設施和MLOps
Feature Store: PIT食譜,TTL用於會議幻想,在線/線下平價。
ANN服務:FAISS/ScaNN,sharding/kesh,復制。
Ranker: real-time fichi,校準,版本簽名。
政策/重排層:限制/配額/RG/頻率/多樣性。
SLA: end-to-end p95 ≤ 100–300 мс;降解後倒退(人口-安全)。
可觀察性:跟蹤「correlation_id」,漂移(PSI),在線質量指標,「停止起重機」。
9)安全,隱私,道德
最小化PII,RLS/CLS,掩蓋。
顯示前的RG/合規濾波器,頻率帽,「安靜時鐘」。
按細分市場進行公平診斷;顯示原因的可解釋性;上訴之路。
10)偽代碼: Recall → Rank → Re-rank混合體
python
Recall cand_emb = ann.recall(user_embed, topk=500)
cand_rule = popular.by_segment(user.segment, k=200)
cands = dedup(cand_emb + cand_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker.predict(features) # p(click), value
Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0.3,'B':0.3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0.6, value=0.3, novelty=0.1)
)
return final[:N]
湯普森采樣創意(素描)
python beta priors per creative: (α, β)
samples = {cr: np.random.beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples.get)
show(chosen)
update(alpha, beta, reward=click)
11)Pseudo-SQL: 負反饋和頻率帽
sql
-- Последний показ и флаги «скрыть/жалоба» → баним на 7 дней
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l.user_id=:uid AND l.item_id=i.item_id
WHERE COALESCE(l.hidden,false)=false
AND COALESCE(l.reported,false)=false
AND (l.last_ts IS NULL OR l.last_ts < NOW() - INTERVAL '7 day');
12)決策表(策略草圖)
13)反模式
優化「原始CTR」而不是填充和價值。
缺少re-rank層→單調過多,「視覺隧道」。
來自未來的利基;TZ混合;不正確的信號定義。
沒有概率校準→錯誤的閾值/策略。
忽視RG/道德/公平 →投訴/風險/罰款。
在線/線下拼寫和度量是銷售中的「縮寫」。
沒有倒退和「停止起重機」。
14)推薦人啟動支票清單
- 系統護照:目標、限制、指標、所有者、版本
- Recall/Rank/Re-rank離婚;ANN融化,腰果定制
- PIT-fici,校準,離線基準(NDCG/PR-AUC)通過
- A/B設計和護欄;決策就緒報告(效果/風險)
- 限制:多樣性/配額/RG/頻率帽-實施和監視
- SLA p95、跟蹤、Alerta、「停止起重機」和大眾安全後退
- 文檔、runibuki、增量改進計劃
結果
強大的推薦系統是一種策略性推薦流水線:混合回收/排名/排名,可在速度,道德和多樣性限制下優化增量價值。通過添加用於在線適應的強盜/RL,MLOps紀律和正確的causic評估,您不會獲得「列表列表」,而是可管理的解決方案,從而提高ROMI,LTV和用戶滿意度-穩定且安全。