GH GambleHub

推荐系统

推荐系统

推荐系统不仅是"CTR模型"。这是一个数据流水线→候选者→排名→策略→操作→反馈,可在实际限制(速度,频率帽,多样性,道德/合规性)下优化增量价值。

1)数据,信号和表示

活动:观看/点击/添加/购买/存款,dwell-time,取消。
内容/目录:属性(类别/类型/工作室/价格/新鲜/波动)。
用户配置文件:RFM、首选项、设备/通道、超时插槽。
背景:小时/天/假日/比赛,地方/TZ,展示场地。
质量:点对点食谱,事件平均性,滞后/反机器人,PII掩盖。
Embeddings: 共享空间中的用户/item/context (MF/Word2Vec2Rec/transformers),多模式(文本/图像)。

2)体系结构: Recall → Rank → Re-rank → Action

1.Candidate recall(200-5,000名候选人):ANN(FAISS/ScaNN),人气/趋势,基于规则的过滤器。
2.排名(20-200):LTR(GBM/NN),塔式体系结构,二进制/多目标目标(单击,转换,价值)。
3.Policy-aware re-rank(最终列表中的5-30):多样化/新颖性/偶然性,品牌/类别配额,RG/合规性,频率帽,公平。
4.行动:放映/push/e-mail/个人展示,放映和"安静时钟"。
5.饲料:log' impression→click→action→value',负面反馈(skip,投诉)。

3)模型范式

基于Content的:基于aithem和配置文件的接近性;非常适合寒冷的开始。
协作过滤:通过交互矩阵进行用户/item-item。
分解/积压:MF/BPR/NeuMF,双轴MLP(用户塔× item塔)。
学习排名:pairwise/listwise(LambdaMART,RankNet),NDCG@k优化。
会期/连续:GRU4Rec、SASRec、Transformers (T5-style)-会话顺序/上下文。
上下文匪徒:LinUCB/Thompson,用于快速在线改编和创意。
RL:SlateQ/DQN/Policy Gradient获得多头奖(保留/LTV)。
Causal/uplift方法:考虑收益的建议而不是"原始CTR"。

4)任务的目的,限制和表述

目标:CTR/CTCVR,收入/保证金/LTV,保留,满意,速度。
限制:多样化,提供商/类别配额,频率帽,RG/合规性,公平性/伦理,SLA p 95。

Policy-aware re-rank(标量化示例):
[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}

\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]

其中Penalty 是配额/RG/频率/单调违规行为。

5)度量与评估

离线

相关/排名:AUC/PR-AUC,Recall@k,MAP,NDCG@k。
业务:eRPM/eCPM,proxy-LTV,预期利润。
校准:Brier,ECE(对于阈值/策略很重要)。

Списки: coverage/diversity/novelty/serendipity.

在线

A/B/多重测试:CTR,CTCVR,收入/会话,保留,投诉/退出(guardrails),后退/定时。
Causal评估:CUPED,具有有限随机化的准实验(DiD/合成控制)。
Uplift指标:Qini/AUUC,uplift@k-用于处理奖励建议。

6)冷启动和稀疏

新用户:popular@segment,内容调查,基于第一个点击的内容,具有广泛情报的匪徒。
新的aitems:元数据/文本环境数据/图像+工作室/类别中的外观。
小域:transfer learning, multi-task(共享塔),cross-domain distillation。

7)多样化,新颖性,偶发性

算法:MMR,xAD,PM-2;单调处罚。
配额:按类别/品牌/风险等级划分的min/max。
列表稳定性:位置惯性,更新滞后;不要用发票"闪烁"。

8)基础设施和MLOps

Feature Store: PIT食谱,TTL用于会议幻想,在线/线下平价。
ANN服务:FAISS/ScaNN,sharding/kesh,复制。
Ranker: real-time fichi,校准,版本签名。
政策/重排层:限制/配额/RG/频率/多样性。
SLA: end-to-end p95 ≤ 100–300 мс;降解后倒退(人口-安全)。
可观察性:跟踪"correlation_id",漂移(PSI),在线质量指标,"停止起重机"。

9)安全,隐私,道德

最小化PII,RLS/CLS,掩盖。
显示前的RG/合规滤波器,频率帽,"安静时钟"。
按细分市场进行公平诊断;显示原因的可解释性;上诉之路。

10)伪代码: Recall → Rank → Re-rank混合体

python
Recall cand_emb = ann.recall(user_embed, topk=500)
cand_rule = popular.by_segment(user.segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker.predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0.3,'B':0.3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0.6, value=0.3, novelty=0.1)
)
return final[:N]

汤普森采样创意(素描)

python beta priors per creative: (α, β)
samples = {cr: np.random.beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples.get)
show(chosen)
update(alpha, beta, reward=click)

11)Pseudo-SQL: 负反馈和频率帽

sql
-- Последний показ и флаги «скрыть/жалоба» → баним на 7 дней
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l.user_id=:uid AND l.item_id=i.item_id
WHERE COALESCE(l.hidden,false)=false
AND COALESCE(l.reported,false)=false
AND (l.last_ts IS NULL OR l.last_ts < NOW() - INTERVAL '7 day');

12)决策表(策略草图)

条件是上下文行动限制因素评论意见
`new_user & low_history`onbordingpopular@segment + content-seed频率帽,RG寒冷的开始
`session_len>3 & diversity_low`届会MMR/xQuAD re-rankmin 3类偶然性
`uplift_push≥τ`offers个人pushDo-Not-Disturb,zhaloby≤Kh内含,非CTR
`risk_RG≥τ`任何人block风险内容RG/合规性安全性

13)反模式

优化"原始CTR"而不是填充和价值。
缺少re-rank层→单调过多,"视觉隧道"。
来自未来的利基;TZ混合;不正确的信号定义。
没有概率校准→错误的阈值/策略。
忽视RG/道德/公平 →投诉/风险/罚款。
在线/线下拼写和度量是销售中的"缩写"。
没有倒退和"停止起重机"。

14)推荐人启动支票清单

  • 系统护照:目标、限制、指标、所有者、版本
  • Recall/Rank/Re-rank离婚;ANN融化,腰果定制
  • PIT-fici,校准,离线基准(NDCG/PR-AUC)通过
  • A/B设计和护栏;决策就绪报告(效果/风险)
  • 限制:多样性/配额/RG/频率帽-实施和监视
  • SLA p95、跟踪、Alerta、"停止起重机"和大众安全后退
  • 文档、runibuki、增量改进计划

结果

强大的推荐系统是一种策略性推荐流水线:混合回收/排名/排名,可在速度,道德和多样性限制下优化增量价值。通过添加用于在线适应的强盗/RL,MLOps纪律和正确的causic评估,您不会获得"列表列表",而是可管理的解决方案,从而提高ROMI,LTV和用户满意度-稳定且安全。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。