推薦系統

推薦系統不僅是「CTR模型」。這是一個數據流水線→候選者→排名→策略→操作→反饋，可在實際限制（速度，頻率帽，多樣性，道德/合規性）下優化增量價值。

1）數據，信號和表示

活動：觀看/點擊/添加/購買/存款，dwell-time，取消。
內容/目錄：屬性（類別/類型/工作室/價格/新鮮/波動）。
用戶配置文件：RFM、首選項、設備/通道、超時插槽。
背景：小時/天/假日/比賽，地方/TZ，展示場地。
質量：點對點食譜，事件平均性，滯後/反機器人，PII掩蓋。
Embeddings：共享空間中的用戶/item/context （MF/Word2Vec2Rec/transformers）,多模式（文本/圖像）。

2）體系結構： Recall → Rank → Re-rank → Action

1.Candidate recall（200-5,000名候選人）：ANN（FAISS/ScaNN），人氣/趨勢，基於規則的過濾器。
2.排名（20-200）：LTR（GBM/NN），塔式體系結構，二進制/多目標目標（單擊，轉換，價值）。
3.Policy-aware re-rank（最終列表中的5-30）：多樣化/新穎性/偶然性，品牌/類別配額，RG/合規性，頻率帽，公平。
4.行動：放映/push/e-mail/個人展示，放映和「安靜時鐘」。
5.飼料：log' impression→click→action→value'，負面反饋（skip，投訴）。

3）模型範式

基於Content的：基於aithem和配置文件的接近性；非常適合寒冷的開始。
協作過濾：通過交互矩陣進行用戶/item-item。
分解/積壓：MF/BPR/NeuMF，雙軸MLP（用戶塔× item塔）。
學習排名：pairwise/listwise（LambdaMART，RankNet），NDCG@k優化。
會期/連續：GRU4Rec、SASRec、Transformers （T5-style）-會話順序/上下文。
上下文匪徒：LinUCB/Thompson，用於快速在線改編和創意。
RL：SlateQ/DQN/Policy Gradient獲得多頭獎（保留/LTV）。
Causal/uplift方法：考慮收益的建議而不是「原始CTR」。

4）任務的目的，限制和表述

目標：CTR/CTCVR，收入/保證金/LTV，保留，滿意，速度。
限制：多樣化，提供商/類別配額，頻率帽，RG/合規性，公平性/倫理，SLA p 95。

Policy-aware re-rank（標量化示例）：

[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}

\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]

其中Penalty 是配額/RG/頻率/單調違規行為。

5）度量與評估

離線

相關/排名：AUC/PR-AUC，Recall@k，MAP，NDCG@k。
業務：eRPM/eCPM，proxy-LTV，預期利潤。
校準：Brier，ECE（對於閾值/策略很重要）。

Списки: coverage/diversity/novelty/serendipity.

在線

A/B/多重測試：CTR，CTCVR，收入/會話，保留，投訴/退出（guardrails），後退/定時。
Causal評估：CUPED，具有有限隨機化的準實驗（DiD/合成控制）。
Uplift指標：Qini/AUUC，uplift@k-用於處理獎勵建議。

6）冷啟動和稀疏

新用戶：popular@segment，內容調查，基於第一個點擊的內容，具有廣泛情報的匪徒。
新的aitems：元數據/文本環境數據/圖像+工作室/類別中的外觀。
小域：transfer learning, multi-task（共享塔）,cross-domain distillation。

7）多樣化，新穎性，偶發性

算法：MMR，xAD，PM-2；單調處罰。
配額：按類別/品牌/風險等級劃分的min/max。
列表穩定性：位置慣性，更新滯後；不要用發票「閃爍」。

8）基礎設施和MLOps

Feature Store： PIT食譜,TTL用於會議幻想,在線/線下平價。
ANN服務：FAISS/ScaNN，sharding/kesh，復制。
Ranker： real-time fichi,校準,版本簽名。
政策/重排層：限制/配額/RG/頻率/多樣性。
SLA: end-to-end p95 ≤ 100–300 мс;降解後倒退（人口-安全）。
可觀察性：跟蹤「correlation_id」，漂移（PSI），在線質量指標，「停止起重機」。

9）安全，隱私，道德

最小化PII，RLS/CLS，掩蓋。
顯示前的RG/合規濾波器，頻率帽，「安靜時鐘」。
按細分市場進行公平診斷；顯示原因的可解釋性；上訴之路。

10）偽代碼： Recall → Rank → Re-rank混合體

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

湯普森創意采樣（素描）

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11）Pseudo-SQL： 負反饋和頻率帽

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12）決策表（策略草圖）

條件是	上下文	行動	限制因素	評論意見
`new_user & low_history`	onbording	popular@segment + content-seed	頻率帽,RG	寒冷的開始
`session_len>3 & diversity_low`	屆會	MMR/xQuAD re-rank	min 3類	偶然性
`uplift_push≥τ`	offers	個人push	Do-Not-Disturb，zhaloby≤Kh	內含,非CTR
`risk_RG≥τ`	任何人	block風險內容	RG/合規性	安全性

13）反模式

優化「原始CTR」而不是填充和價值。
缺少re-rank層→單調過多，「視覺隧道」。
來自未來的利基；TZ混合；不正確的信號定義。
沒有概率校準→錯誤的閾值/策略。
忽視RG/道德/公平 →投訴/風險/罰款。
在線/線下拼寫和度量是銷售中的「縮寫」。
沒有倒退和「停止起重機」。

14）推薦人啟動支票清單

系統護照：目標、限制、指標、所有者、版本
Recall/Rank/Re-rank離婚；ANN融化，腰果定制
PIT-fici,校準,離線基準（NDCG/PR-AUC）通過
A/B設計和護欄；決策就緒報告（效果/風險）
限制：多樣性/配額/RG/頻率帽-實施和監視
SLA p95、跟蹤、Alerta、「停止起重機」和大眾安全後退
文檔、runibuki、增量改進計劃

底線

強大的推薦系統是一種策略性推薦流水線：混合回收/排名/排名，可在速度，道德和多樣性限制下優化增量價值。通過添加用於在線適應的強盜/RL，MLOps紀律和正確的causic評估，您不會獲得「列表列表」，而是可管理的解決方案，從而提高ROMI，LTV和用戶滿意度-穩定且安全。

推薦系統

推薦系統

在線

湯普森創意采樣（素描）

底線

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案