推荐系统

推荐系统不仅是"CTR模型"。这是一个数据流水线→候选者→排名→策略→操作→反馈，可在实际限制（速度，频率帽，多样性，道德/合规性）下优化增量价值。

1）数据，信号和表示

活动：观看/点击/添加/购买/存款，dwell-time，取消。
内容/目录：属性（类别/类型/工作室/价格/新鲜/波动）。
用户配置文件：RFM、首选项、设备/通道、超时插槽。
背景：小时/天/假日/比赛，地方/TZ，展示场地。
质量：点对点食谱，事件平均性，滞后/反机器人，PII掩盖。
Embeddings：共享空间中的用户/item/context （MF/Word2Vec2Rec/transformers）,多模式（文本/图像）。

2）体系结构： Recall → Rank → Re-rank → Action

1.Candidate recall（200-5,000名候选人）：ANN（FAISS/ScaNN），人气/趋势，基于规则的过滤器。
2.排名（20-200）：LTR（GBM/NN），塔式体系结构，二进制/多目标目标（单击，转换，价值）。
3.Policy-aware re-rank（最终列表中的5-30）：多样化/新颖性/偶然性，品牌/类别配额，RG/合规性，频率帽，公平。
4.行动：放映/push/e-mail/个人展示，放映和"安静时钟"。
5.饲料：log' impression→click→action→value'，负面反馈（skip，投诉）。

3）模型范式

基于Content的：基于aithem和配置文件的接近性；非常适合寒冷的开始。
协作过滤：通过交互矩阵进行用户/item-item。
分解/积压：MF/BPR/NeuMF，双轴MLP（用户塔× item塔）。
学习排名：pairwise/listwise（LambdaMART，RankNet），NDCG@k优化。
会期/连续：GRU4Rec、SASRec、Transformers （T5-style）-会话顺序/上下文。
上下文匪徒：LinUCB/Thompson，用于快速在线改编和创意。
RL：SlateQ/DQN/Policy Gradient获得多头奖（保留/LTV）。
Causal/uplift方法：考虑收益的建议而不是"原始CTR"。

4）任务的目的，限制和表述

目标：CTR/CTCVR，收入/保证金/LTV，保留，满意，速度。
限制：多样化，提供商/类别配额，频率帽，RG/合规性，公平性/伦理，SLA p 95。

Policy-aware re-rank（标量化示例）：

[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}

\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]

其中Penalty 是配额/RG/频率/单调违规行为。

5）度量与评估

离线

相关/排名：AUC/PR-AUC，Recall@k，MAP，NDCG@k。
业务：eRPM/eCPM，proxy-LTV，预期利润。
校准：Brier，ECE（对于阈值/策略很重要）。

Списки: coverage/diversity/novelty/serendipity.

在线

A/B/多重测试：CTR，CTCVR，收入/会话，保留，投诉/退出（guardrails），后退/定时。
Causal评估：CUPED，具有有限随机化的准实验（DiD/合成控制）。
Uplift指标：Qini/AUUC，uplift@k-用于处理奖励建议。

6）冷启动和稀疏

新用户：popular@segment，内容调查，基于第一个点击的内容，具有广泛情报的匪徒。
新的aitems：元数据/文本环境数据/图像+工作室/类别中的外观。
小域：transfer learning, multi-task（共享塔）,cross-domain distillation。

7）多样化，新颖性，偶发性

算法：MMR，xAD，PM-2；单调处罚。
配额：按类别/品牌/风险等级划分的min/max。
列表稳定性：位置惯性，更新滞后；不要用发票"闪烁"。

8）基础设施和MLOps

Feature Store： PIT食谱,TTL用于会议幻想,在线/线下平价。
ANN服务：FAISS/ScaNN，sharding/kesh，复制。
Ranker： real-time fichi,校准,版本签名。
政策/重排层：限制/配额/RG/频率/多样性。
SLA: end-to-end p95 ≤ 100–300 мс;降解后倒退（人口-安全）。
可观察性：跟踪"correlation_id"，漂移（PSI），在线质量指标，"停止起重机"。

9）安全，隐私，道德

最小化PII，RLS/CLS，掩盖。
显示前的RG/合规滤波器，频率帽，"安静时钟"。
按细分市场进行公平诊断；显示原因的可解释性；上诉之路。

10）伪代码： Recall → Rank → Re-rank混合体

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

汤普森创意采样（素描）

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11）Pseudo-SQL： 负反馈和频率帽

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12）决策表（策略草图）

条件是	上下文	行动	限制因素	评论意见
`new_user & low_history`	onbording	popular@segment + content-seed	频率帽,RG	寒冷的开始
`session_len>3 & diversity_low`	届会	MMR/xQuAD re-rank	min 3类	偶然性
`uplift_push≥τ`	offers	个人push	Do-Not-Disturb，zhaloby≤Kh	内含,非CTR
`risk_RG≥τ`	任何人	block风险内容	RG/合规性	安全性

13）反模式

优化"原始CTR"而不是填充和价值。
缺少re-rank层→单调过多，"视觉隧道"。
来自未来的利基；TZ混合；不正确的信号定义。
没有概率校准→错误的阈值/策略。
忽视RG/道德/公平 →投诉/风险/罚款。
在线/线下拼写和度量是销售中的"缩写"。
没有倒退和"停止起重机"。

14）推荐人启动支票清单

系统护照：目标、限制、指标、所有者、版本
Recall/Rank/Re-rank离婚；ANN融化，腰果定制
PIT-fici,校准,离线基准（NDCG/PR-AUC）通过
A/B设计和护栏；决策就绪报告（效果/风险）
限制：多样性/配额/RG/频率帽-实施和监视
SLA p95、跟踪、Alerta、"停止起重机"和大众安全后退
文档、runibuki、增量改进计划

底线

强大的推荐系统是一种策略性推荐流水线：混合回收/排名/排名，可在速度，道德和多样性限制下优化增量价值。通过添加用于在线适应的强盗/RL，MLOps纪律和正确的causic评估，您不会获得"列表列表"，而是可管理的解决方案，从而提高ROMI，LTV和用户满意度-稳定且安全。

推荐系统

推荐系统

在线

汤普森创意采样（素描）

底线

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目