GH GambleHub

个性化模式

个性化模型

个性化是一个系统,其中数据→模型→显示策略→操作→反馈。目的是在遵守限制(道德/RG,频率帽,多样性,新鲜,SLA)的情况下最大化增量价值(收入/保留/满意度)。

1)数据和视图

原材料:事件(观看/点击游戏/购买/存款)、内容目录(属性)、用户配置文件、上下文(时间/地理/设备/频道)、质量信号(机器人/兄弟)。

Fichi:
  • 用户:RFM,类别偏好,价格灵敏度,白天时间,设备。
  • 项目:类型/类别,工作室/提供商,语言,价格/波动,"新鲜"。
  • Context: dow/hod, promo/ivents,会话,登录通道。
  • Embeddings: user/item协作空间(MF/Word2Vec2Rec/transformers),多模式(文本/图像)。
  • 质量:点对点(无字幕),UTC时间,事件平均性,PII掩盖。

2)基本范式

1.基于Content的是Aithem和用户配置文件的接近性。
2.协作过滤(CF)-通过交互信号具有相似的用户/特征。
3.矩阵分解/embeddings-隐藏因子,dot-product/MLP for score。
4.Learning-to-Rank(LTR)是用于列表排名(pairwise/listwise)的梯度增强/神经网络。
5.重排层-后处理,同时考虑到多样化/新颖性/局限性。
6.上下文匪徒-具有探索性解释的在线学习。
7.RL/seq建议-路径/会话优化(多主题奖)。

3)决策输送机

1.Recall(快速候选人选择,200-5k):ANN的embeddings,规则bays/类别,人气。
2.排名(精确得分,20-200):LTR/MLP富有。
3.重新排名/政策(fin。清单,5-30):多用途优化+限制和多样化。
4.行动:显示/push/e-mail/带帽子和"安静时钟"的个人展示。
5.Feedback: implicit/explicit信号→再培训/强盗更新。

4)多用途目标和限制

目标:CTR/CTCVR,保留,收入,保证金,LTV,满意度,速度。
限制:联系频率,RG/合规性,类别多样性,品牌/提供商配额,公平。

措辞:
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]

实践:做一个策略性的aware重新排名(参见第7节),其中scor与规则结合在一起。

5)冷启动和小数据

新用户:在细分/频道/地质上流行,在问卷/第一个点击中基于内容,具有广泛情报的匪徒。
新的aitems:内容embeddings(文本/标签),元数据,提供商/流派的"外观"。
Few-shot:周转转移/多问题(共享塔)。

6)评估度量

离线

分类/排名:AUC/PR-AUC,NDCG@k,MAP,Recall@k。

业务: eCPM/eRPM,预期收入/保证金,LTV proxy.

多用途:加权度量(例如,带有gain=价值的NDCG)。
校准:Brier,ECE(概率)。

Списки: coverage/diversity/novelty/serendipity.

在线

A/B和帮派测试:CTR,CTCVR,收入/会话,D1/D7保留,投诉/退出(guardrails),latency/SLA。
内置:在复杂的随机化中,lift%,CUPED/准实验。

7)多样化与政策-aware重新排名

MMR/PM-2/xQuAD:"相关性×新颖性"的平衡。
配额:按类型/提供商/风险类别划分的min/max。
公平:限制份额以避免系统性扭曲。

得分示例:
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

滞后:不用列表"闪烁";用惯性更新位置。

8)上下文土匪和RL

强盗(LinUCB,汤普森):快速在线学习,探索控制。有利于第一位置/创意/渠道。
级联强盗:top-k优化。
RL (DQN/Policy Gradient/SlateQ):会话个性化、多页奖励优化(回报/收益/长会话)。
安全性:后息肉评估(IPS/DR),模拟器,研究帽,安全RL。

9)个性化以达到因果效应

Uplift模型:谁值得触摸(persuadables),Qini/AUUC,uplift@k。
处理先行排名:包括增殖概率而不是"原始"CTR。

Guardrails: Do-Not-Disturb段,RG规则,fairness.

10)体系结构和MLOps

Feature Store: 在线/离线平价、点对点时间、TTL for session fich.

Candidate services:ANN/FAISS/ScaNN,按细分市场进行cashing/sharding。
Ranker: 梯度增强/MLP/塔式体系结构,校准。
政策/再排名:规则/限制,多样化,土匪层。
编排:请求的等效性,p95 latency ≤ 100-300 ms,DLQ/retrai。
可观察性:跟踪"correlation_id",漂移(PSI),质量指标,"停止起重机"。

11)安全、隐私、道德

PII最小化:令牌化,RLS/CLS,掩蔽。
可解释:顶级功能/展示原因;上诉之路。
道德/RG:频率帽,"安静时钟",禁止弱势群体进行侵略性离场。
合规性:审核决策/逻辑、策略版本和创意。

12)护照和决策表

推荐人护照(示例)

ID/版本: "REC_HYBRID_RANK_v5"

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

重新排名: PM-2(多样性),品牌配额,RG滤波器,频率帽

目标/指标: NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms

A/B: 14天,CUPED;guardrails-RG/可交付性

所有者/拼写/runibook

决策表(草图)

条件是上下文行动限制因素评论意见
`new_user` & `low_history`onbordingpopular@segment + content-based seed频率帽,RG寒冷的开始
`session_len>3` & `diversity_low`届会re-rank с MMRmin 3类偶然性
`uplift_push≥τ`offers个人pushDo-Not-Disturb,zhaloby≤Kh效果,非CTR

13)伪代码(草图)

A.混合回收+排名+排名

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B.汤普森创意采样

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14)诊断和监测

质量:NDCG/Recall@k,eRPM,coverage/diversity,校准。
在线:CTR/CTCVR,收入/会话,保留,投诉/退出,迟到/定时。

漂移: PSI/KL按键,oflayn↔onlayn相关性下降.

限制:执行配额/多样性,RG滤波器罢工,频率帽。
Runibuki:反复退化(ANN下降),投诉增加,taymauts激增,紧急倒退(人口-安全)。

15)经常出错

优化"原始CTR"而不是嵌合/价值。
没有重新排名的层→稀缺的多样性,"视觉隧道"。
来自未来,TZ混合,不一致的信号定义。
缺乏校准和阈值→"破坏"预算和频率帽。
忽视RG/道德和公平性 →投诉,风险,监管问题。
非同步在线/离线联想→销售失败。

16)个性化发布前的支票清单

  • 模型护照(目标、限制、指标、所有者、版本)
  • Recall/Rank/Re-rank分开;ANN和腰果热身
  • PIT-fici和校准,离线基准(NDCG/PR-AUC)通过
  • A/B设计和护栏;决策就绪报告(效果和风险)
  • 限制:RG/频率/多样性/配额-实施和监测
  • 观察力、Alerta、"停止起重机"、folbacks(大众安全)
  • 文档和runibuki,增量改进计划

底线

个性化模型仅作为政策意识系统有效:丰富的数据和环境→ Recall/Rank/Re-rank混合体→ 用于在线适应的强盗/RL →严格限制下的多用途目标→纪律严明的MLOps和监控。这样的轮廓不仅提供了"推荐",而且可以安全、透明和可重复地提供可提高ROMI、LTV和满意度的托管解决方桉。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。