GH GambleHub

推薦系統

推薦系統

推薦系統不僅是「CTR模型」。這是一個數據流水線→候選者→排名→策略→操作→反饋,可在實際限制(速度,頻率帽,多樣性,道德/合規性)下優化增量價值。

1)數據,信號和表示

活動:觀看/點擊/添加/購買/存款,dwell-time,取消。
內容/目錄:屬性(類別/類型/工作室/價格/新鮮/波動)。
用戶配置文件:RFM、首選項、設備/通道、超時插槽。
背景:小時/天/假日/比賽,地方/TZ,展示場地。
質量:點對點食譜,事件平均性,滯後/反機器人,PII掩蓋。
Embeddings: 共享空間中的用戶/item/context (MF/Word2Vec2Rec/transformers),多模式(文本/圖像)。

2)體系結構: Recall → Rank → Re-rank → Action

1.Candidate recall(200-5,000名候選人):ANN(FAISS/ScaNN),人氣/趨勢,基於規則的過濾器。
2.排名(20-200):LTR(GBM/NN),塔式體系結構,二進制/多目標目標(單擊,轉換,價值)。
3.Policy-aware re-rank(最終列表中的5-30):多樣化/新穎性/偶然性,品牌/類別配額,RG/合規性,頻率帽,公平。
4.行動:放映/push/e-mail/個人展示,放映和「安靜時鐘」。
5.飼料:log' impression→click→action→value',負面反饋(skip,投訴)。

3)模型範式

基於Content的:基於aithem和配置文件的接近性;非常適合寒冷的開始。
協作過濾:通過交互矩陣進行用戶/item-item。
分解/積壓:MF/BPR/NeuMF,雙軸MLP(用戶塔× item塔)。
學習排名:pairwise/listwise(LambdaMART,RankNet),NDCG@k優化。
會期/連續:GRU4Rec、SASRec、Transformers (T5-style)-會話順序/上下文。
上下文匪徒:LinUCB/Thompson,用於快速在線改編和創意。
RL:SlateQ/DQN/Policy Gradient獲得多頭獎(保留/LTV)。
Causal/uplift方法:考慮收益的建議而不是「原始CTR」。

4)任務的目的,限制和表述

目標:CTR/CTCVR,收入/保證金/LTV,保留,滿意,速度。
限制:多樣化,提供商/類別配額,頻率帽,RG/合規性,公平性/倫理,SLA p 95。

Policy-aware re-rank(標量化示例):
[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}

\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]

其中Penalty 是配額/RG/頻率/單調違規行為。

5)度量與評估

離線

相關/排名:AUC/PR-AUC,Recall@k,MAP,NDCG@k。
業務:eRPM/eCPM,proxy-LTV,預期利潤。
校準:Brier,ECE(對於閾值/策略很重要)。

Списки: coverage/diversity/novelty/serendipity.

在線

A/B/多重測試:CTR,CTCVR,收入/會話,保留,投訴/退出(guardrails),後退/定時。
Causal評估:CUPED,具有有限隨機化的準實驗(DiD/合成控制)。
Uplift指標:Qini/AUUC,uplift@k-用於處理獎勵建議。

6)冷啟動和稀疏

新用戶:popular@segment,內容調查,基於第一個點擊的內容,具有廣泛情報的匪徒。
新的aitems:元數據/文本環境數據/圖像+工作室/類別中的外觀。
小域:transfer learning, multi-task(共享塔),cross-domain distillation。

7)多樣化,新穎性,偶發性

算法:MMR,xAD,PM-2;單調處罰。
配額:按類別/品牌/風險等級劃分的min/max。
列表穩定性:位置慣性,更新滯後;不要用發票「閃爍」。

8)基礎設施和MLOps

Feature Store: PIT食譜,TTL用於會議幻想,在線/線下平價。
ANN服務:FAISS/ScaNN,sharding/kesh,復制。
Ranker: real-time fichi,校準,版本簽名。
政策/重排層:限制/配額/RG/頻率/多樣性。
SLA: end-to-end p95 ≤ 100–300 мс;降解後倒退(人口-安全)。
可觀察性:跟蹤「correlation_id」,漂移(PSI),在線質量指標,「停止起重機」。

9)安全,隱私,道德

最小化PII,RLS/CLS,掩蓋。
顯示前的RG/合規濾波器,頻率帽,「安靜時鐘」。
按細分市場進行公平診斷;顯示原因的可解釋性;上訴之路。

10)偽代碼: Recall → Rank → Re-rank混合體

python
Recall cand_emb = ann.recall(user_embed, topk=500)
cand_rule = popular.by_segment(user.segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker.predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0.3,'B':0.3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0.6, value=0.3, novelty=0.1)
)
return final[:N]

湯普森采樣創意(素描)

python beta priors per creative: (α, β)
samples = {cr: np.random.beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples.get)
show(chosen)
update(alpha, beta, reward=click)

11)Pseudo-SQL: 負反饋和頻率帽

sql
-- Последний показ и флаги «скрыть/жалоба» → баним на 7 дней
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l.user_id=:uid AND l.item_id=i.item_id
WHERE COALESCE(l.hidden,false)=false
AND COALESCE(l.reported,false)=false
AND (l.last_ts IS NULL OR l.last_ts < NOW() - INTERVAL '7 day');

12)決策表(策略草圖)

條件是上下文行動限制因素評論意見
`new_user & low_history`onbordingpopular@segment + content-seed頻率帽,RG寒冷的開始
`session_len>3 & diversity_low`屆會MMR/xQuAD re-rankmin 3類偶然性
`uplift_push≥τ`offers個人pushDo-Not-Disturb,zhaloby≤Kh內含,非CTR
`risk_RG≥τ`任何人block風險內容RG/合規性安全性

13)反模式

優化「原始CTR」而不是填充和價值。
缺少re-rank層→單調過多,「視覺隧道」。
來自未來的利基;TZ混合;不正確的信號定義。
沒有概率校準→錯誤的閾值/策略。
忽視RG/道德/公平 →投訴/風險/罰款。
在線/線下拼寫和度量是銷售中的「縮寫」。
沒有倒退和「停止起重機」。

14)推薦人啟動支票清單

  • 系統護照:目標、限制、指標、所有者、版本
  • Recall/Rank/Re-rank離婚;ANN融化,腰果定制
  • PIT-fici,校準,離線基準(NDCG/PR-AUC)通過
  • A/B設計和護欄;決策就緒報告(效果/風險)
  • 限制:多樣性/配額/RG/頻率帽-實施和監視
  • SLA p95、跟蹤、Alerta、「停止起重機」和大眾安全後退
  • 文檔、runibuki、增量改進計劃

結果

強大的推薦系統是一種策略性推薦流水線:混合回收/排名/排名,可在速度,道德和多樣性限制下優化增量價值。通過添加用於在線適應的強盜/RL,MLOps紀律和正確的causic評估,您不會獲得「列表列表」,而是可管理的解決方案,從而提高ROMI,LTV和用戶滿意度-穩定且安全。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。