个性化模式
个性化模型
个性化是一个系统,其中数据→模型→显示策略→操作→反馈。目的是在遵守限制(道德/RG,频率帽,多样性,新鲜,SLA)的情况下最大化增量价值(收入/保留/满意度)。
1)数据和视图
原材料:事件(观看/点击游戏/购买/存款)、内容目录(属性)、用户配置文件、上下文(时间/地理/设备/频道)、质量信号(机器人/兄弟)。
Fichi:- 用户:RFM,类别偏好,价格灵敏度,白天时间,设备。
- 项目:类型/类别,工作室/提供商,语言,价格/波动,"新鲜"。
- Context: dow/hod, promo/ivents,会话,登录通道。
- Embeddings: user/item协作空间(MF/Word2Vec2Rec/transformers),多模式(文本/图像)。
- 质量:点对点(无字幕),UTC时间,事件平均性,PII掩盖。
2)基本范式
1.基于Content的是Aithem和用户配置文件的接近性。
2.协作过滤(CF)-通过交互信号具有相似的用户/特征。
3.矩阵分解/embeddings-隐藏因子,dot-product/MLP for score。
4.Learning-to-Rank(LTR)是用于列表排名(pairwise/listwise)的梯度增强/神经网络。
5.重排层-后处理,同时考虑到多样化/新颖性/局限性。
6.上下文匪徒-具有探索性解释的在线学习。
7.RL/seq建议-路径/会话优化(多主题奖)。
3)决策输送机
1.Recall(快速候选人选择,200-5k):ANN的embeddings,规则bays/类别,人气。
2.排名(精确得分,20-200):LTR/MLP富有。
3.重新排名/政策(fin。清单,5-30):多用途优化+限制和多样化。
4.行动:显示/push/e-mail/带帽子和"安静时钟"的个人展示。
5.Feedback: implicit/explicit信号→再培训/强盗更新。
4)多用途目标和限制
目标:CTR/CTCVR,保留,收入,保证金,LTV,满意度,速度。
限制:联系频率,RG/合规性,类别多样性,品牌/提供商配额,公平。
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]
实践:做一个策略性的aware重新排名(参见第7节),其中scor与规则结合在一起。
5)冷启动和小数据
新用户:在细分/频道/地质上流行,在问卷/第一个点击中基于内容,具有广泛情报的匪徒。
新的aitems:内容embeddings(文本/标签),元数据,提供商/流派的"外观"。
Few-shot:周转转移/多问题(共享塔)。
6)评估度量
离线
分类/排名:AUC/PR-AUC,NDCG@k,MAP,Recall@k。
业务: eCPM/eRPM,预期收入/保证金,LTV proxy.
多用途:加权度量(例如,带有gain=价值的NDCG)。
校准:Brier,ECE(概率)。
Списки: coverage/diversity/novelty/serendipity.
在线
A/B和帮派测试:CTR,CTCVR,收入/会话,D1/D7保留,投诉/退出(guardrails),latency/SLA。
内置:在复杂的随机化中,lift%,CUPED/准实验。
7)多样化与政策-aware重新排名
MMR/PM-2/xQuAD:"相关性×新颖性"的平衡。
配额:按类型/提供商/风险类别划分的min/max。
公平:限制份额以避免系统性扭曲。
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
滞后:不用列表"闪烁";用惯性更新位置。
8)上下文土匪和RL
强盗(LinUCB,汤普森):快速在线学习,探索控制。有利于第一位置/创意/渠道。
级联强盗:top-k优化。
RL (DQN/Policy Gradient/SlateQ):会话个性化、多页奖励优化(回报/收益/长会话)。
安全性:后息肉评估(IPS/DR),模拟器,研究帽,安全RL。
9)个性化以达到因果效应
Uplift模型:谁值得触摸(persuadables),Qini/AUUC,uplift@k。
处理先行排名:包括增殖概率而不是"原始"CTR。
Guardrails: Do-Not-Disturb段,RG规则,fairness.
10)体系结构和MLOps
Feature Store: 在线/离线平价、点对点时间、TTL for session fich.
Candidate services:ANN/FAISS/ScaNN,按细分市场进行cashing/sharding。
Ranker: 梯度增强/MLP/塔式体系结构,校准。
政策/再排名:规则/限制,多样化,土匪层。
编排:请求的等效性,p95 latency ≤ 100-300 ms,DLQ/retrai。
可观察性:跟踪"correlation_id",漂移(PSI),质量指标,"停止起重机"。
11)安全、隐私、道德
PII最小化:令牌化,RLS/CLS,掩蔽。
可解释:顶级功能/展示原因;上诉之路。
道德/RG:频率帽,"安静时钟",禁止弱势群体进行侵略性离场。
合规性:审核决策/逻辑、策略版本和创意。
12)护照和决策表
推荐人护照(示例)
ID/版本: "REC_HYBRID_RANK_v5"
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
重新排名: PM-2(多样性),品牌配额,RG滤波器,频率帽
目标/指标: NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms
A/B: 14天,CUPED;guardrails-RG/可交付性
所有者/拼写/runibook
决策表(草图)
13)伪代码(草图)
A.混合回收+排名+排名
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B.汤普森创意采样
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14)诊断和监测
质量:NDCG/Recall@k,eRPM,coverage/diversity,校准。
在线:CTR/CTCVR,收入/会话,保留,投诉/退出,迟到/定时。
漂移: PSI/KL按键,oflayn↔onlayn相关性下降.
限制:执行配额/多样性,RG滤波器罢工,频率帽。
Runibuki:反复退化(ANN下降),投诉增加,taymauts激增,紧急倒退(人口-安全)。
15)经常出错
优化"原始CTR"而不是嵌合/价值。
没有重新排名的层→稀缺的多样性,"视觉隧道"。
来自未来,TZ混合,不一致的信号定义。
缺乏校准和阈值→"破坏"预算和频率帽。
忽视RG/道德和公平性 →投诉,风险,监管问题。
非同步在线/离线联想→销售失败。
16)个性化发布前的支票清单
- 模型护照(目标、限制、指标、所有者、版本)
- Recall/Rank/Re-rank分开;ANN和腰果热身
- PIT-fici和校准,离线基准(NDCG/PR-AUC)通过
- A/B设计和护栏;决策就绪报告(效果和风险)
- 限制:RG/频率/多样性/配额-实施和监测
- 观察力、Alerta、"停止起重机"、folbacks(大众安全)
- 文档和runibuki,增量改进计划
底线
个性化模型仅作为政策意识系统有效:丰富的数据和环境→ Recall/Rank/Re-rank混合体→ 用于在线适应的强盗/RL →严格限制下的多用途目标→纪律严明的MLOps和监控。这样的轮廓不仅提供了"推荐",而且可以安全、透明和可重复地提供可提高ROMI、LTV和满意度的托管解决方桉。