个性化模式

个性化模型

个性化是一个系统，其中数据→模型→显示策略→操作→反馈。目的是在遵守限制（道德/RG，频率帽，多样性，新鲜，SLA）的情况下最大化增量价值（收入/保留/满意度）。

1）数据和视图

原材料：事件（观看/点击游戏/购买/存款）、内容目录（属性）、用户配置文件、上下文（时间/地理/设备/频道）、质量信号（机器人/兄弟）。

Fichi：

用户：RFM，类别偏好，价格灵敏度，白天时间，设备。
项目：类型/类别，工作室/提供商，语言，价格/波动，"新鲜"。
Context： dow/hod, promo/ivents,会话,登录通道。
Embeddings： user/item协作空间（MF/Word2Vec2Rec/transformers）,多模式（文本/图像）。
质量：点对点（无字幕），UTC时间，事件平均性，PII掩盖。

2）基本范式

1.基于Content的是Aithem和用户配置文件的接近性。
2.协作过滤（CF）-通过交互信号具有相似的用户/特征。
3.矩阵分解/embeddings-隐藏因子,dot-product/MLP for score。
4.Learning-to-Rank（LTR）是用于列表排名（pairwise/listwise）的梯度增强/神经网络。
5.重排层-后处理，同时考虑到多样化/新颖性/局限性。
6.上下文匪徒-具有探索性解释的在线学习。
7.RL/seq建议-路径/会话优化（多主题奖）。

3）决策输送机

1.Recall（快速候选人选择，200-5k）：ANN的embeddings，规则bays/类别，人气。
2.排名（精确得分，20-200）：LTR/MLP富有。
3.重新排名/政策（fin。清单，5-30）：多用途优化+限制和多样化。
4.行动：显示/push/e-mail/带帽子和"安静时钟"的个人展示。
5.Feedback： implicit/explicit信号→再培训/强盗更新。

4）多用途目标和限制

目标：CTR/CTCVR,保留,收入,保证金,LTV,满意度,速度。
限制：联系频率，RG/合规性，类别多样性，品牌/提供商配额，公平。

措辞：

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]

实践：做一个策略性的aware重新排名（参见第7节）,其中scor与规则结合在一起。

5）冷启动和小数据

新用户：在细分/频道/地质上流行，在问卷/第一个点击中基于内容，具有广泛情报的匪徒。
新的aitems：内容embeddings（文本/标签），元数据，提供商/流派的"外观"。
Few-shot：周转转移/多问题（共享塔）。

6）评估度量

离线

分类/排名：AUC/PR-AUC，NDCG@k，MAP，Recall@k。

业务： eCPM/eRPM,预期收入/保证金,LTV proxy.

多用途：加权度量（例如，带有gain=价值的NDCG）。
校准：Brier，ECE（概率）。

Списки: coverage/diversity/novelty/serendipity.

在线

A/B和帮派测试：CTR，CTCVR，收入/会话，D1/D7保留，投诉/退出（guardrails），latency/SLA。
内置：在复杂的随机化中，lift%，CUPED/准实验。

7）多样化与政策-aware重新排名

MMR/PM-2/xQuAD："相关性×新颖性"的平衡。
配额：按类型/提供商/风险类别划分的min/max。
公平：限制份额以避免系统性扭曲。

得分示例：

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

滞后：不用列表"闪烁"；用惯性更新位置。

8）上下文土匪和RL

强盗（LinUCB，汤普森）：快速在线学习，探索控制。有利于第一位置/创意/渠道。
级联强盗：top-k优化。
RL （DQN/Policy Gradient/SlateQ）：会话个性化、多页奖励优化（回报/收益/长会话）。
安全性：后息肉评估（IPS/DR），模拟器，研究帽，安全RL。

9）个性化以达到因果效应

Uplift模型：谁值得触摸（persuadables），Qini/AUUC，uplift@k。
处理先行排名：包括增殖概率而不是"原始"CTR。

Guardrails： Do-Not-Disturb段,RG规则,fairness.

10）体系结构和MLOps

Feature Store： 在线/离线平价、点对点时间、TTL for session fich.

Candidate services：ANN/FAISS/ScaNN，按细分市场进行cashing/sharding。
Ranker：梯度增强/MLP/塔式体系结构,校准。
政策/再排名：规则/限制，多样化，土匪层。
编排：请求的等效性，p95 latency ≤ 100-300 ms，DLQ/retrai。
可观察性：跟踪"correlation_id"，漂移（PSI），质量指标，"停止起重机"。

11）安全、隐私、道德

PII最小化：令牌化，RLS/CLS，掩蔽。
可解释：顶级功能/展示原因；上诉之路。
道德/RG：频率帽，"安静时钟"，禁止弱势群体进行侵略性离场。
合规性：审核决策/逻辑、策略版本和创意。

12）护照和决策表

推荐人护照（示例）

ID/版本： "REC_HYBRID_RANK_v5"

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

重新排名： PM-2（多样性），品牌配额，RG滤波器，频率帽

目标/指标： NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms

A/B： 14天，CUPED；guardrails-RG/可交付性

所有者/拼写/runibook

决策表（草图）

条件是	上下文	行动	限制因素	评论意见
`new_user` & `low_history`	onbording	popular@segment + content-based seed	频率帽,RG	寒冷的开始
`session_len>3` & `diversity_low`	届会	re-rank с MMR	min 3类	偶然性
`uplift_push≥τ`	offers	个人push	Do-Not-Disturb，zhaloby≤Kh	效果,非CTR

13）伪代码（草图）

A.混合回收+排名+排名

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B.汤普森创意采样

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14）诊断和监测

质量：NDCG/Recall@k，eRPM，coverage/diversity，校准。
在线：CTR/CTCVR，收入/会话，保留，投诉/退出，迟到/定时。

漂移： PSI/KL按键,oflayn↔onlayn相关性下降.

限制：执行配额/多样性，RG滤波器罢工，频率帽。
Runibuki：反复退化（ANN下降），投诉增加，taymauts激增，紧急倒退（人口-安全）。

15）经常出错

优化"原始CTR"而不是嵌合/价值。
没有重新排名的层→稀缺的多样性，"视觉隧道"。
来自未来，TZ混合，不一致的信号定义。
缺乏校准和阈值→"破坏"预算和频率帽。
忽视RG/道德和公平性 →投诉，风险，监管问题。
非同步在线/离线联想→销售失败。

16）个性化发布前的支票清单

模型护照（目标、限制、指标、所有者、版本）
Recall/Rank/Re-rank分开；ANN和腰果热身
PIT-fici和校准，离线基准（NDCG/PR-AUC）通过
A/B设计和护栏；决策就绪报告（效果和风险）
限制：RG/频率/多样性/配额-实施和监测
观察力、Alerta、"停止起重机"、folbacks（大众安全）
文档和runibuki，增量改进计划

底线

个性化模型仅作为政策意识系统有效：丰富的数据和环境→ Recall/Rank/Re-rank混合体→ 用于在线适应的强盗/RL →严格限制下的多用途目标→纪律严明的MLOps和监控。这样的轮廓不仅提供了"推荐"，而且可以安全、透明和可重复地提供可提高ROMI、LTV和满意度的托管解决方桉。

个性化模式

个性化模型

在线

决策表（草图）

B.汤普森创意采样

底线

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目