GH GambleHub

個性化模式

個性化模型

個性化是一個系統,其中數據→模型→顯示策略→操作→反饋。目的是在遵守限制(道德/RG,頻率帽,多樣性,新鮮,SLA)的情況下最大化增量價值(收入/保留/滿意度)。

1)數據和視圖

原材料:事件(觀看/點擊遊戲/購買/存款)、內容目錄(屬性)、用戶配置文件、上下文(時間/地理/設備/頻道)、質量信號(機器人/兄弟)。

Fichi:
  • 用戶:RFM,類別偏好,價格靈敏度,白天時間,設備。
  • 項目:類型/類別,工作室/提供商,語言,價格/波動,「新鮮」。
  • Context: dow/hod, promo/ivents,會話,登錄通道。
  • Embeddings: user/item協作空間(MF/Word2Vec2Rec/transformers),多模式(文本/圖像)。
  • 質量:點對點(無字幕),UTC時間,事件平均性,PII掩蓋。

2)基本範式

1.基於Content的是Aithem和用戶配置文件的接近性。
2.協作過濾(CF)-通過交互信號具有相似的用戶/特征。
3.矩陣分解/embeddings-隱藏因子,dot-product/MLP for score。
4.Learning-to-Rank(LTR)是用於列表排名(pairwise/listwise)的梯度增強/神經網絡。
5.重排層-後處理,同時考慮到多樣化/新穎性/局限性。
6.上下文匪徒-具有探索性解釋的在線學習。
7.RL/seq建議-路徑/會話優化(多主題獎)。

3)決策輸送機

1.Recall(快速候選人選擇,200-5k):ANN的embeddings,規則bays/類別,人氣。
2.排名(精確得分,20-200):LTR/MLP富有。
3.重新排名/政策(fin。清單,5-30):多用途優化+限制和多樣化。
4.行動:顯示/push/e-mail/帶帽子和「安靜時鐘」的個人展示。
5.Feedback: implicit/explicit信號→再培訓/強盜更新。

4)多用途目標和限制

目標:CTR/CTCVR,保留,收入,保證金,LTV,滿意度,速度。
限制:聯系頻率,RG/合規性,類別多樣性,品牌/提供商配額,公平。

措辭:
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]

實踐:做一個策略性的aware重新排名(參見第7節),其中scor與規則結合在一起。

5)冷啟動和小數據

新用戶:在細分/頻道/地質上流行,在問卷/第一個點擊中基於內容,具有廣泛情報的匪徒。
新的aitems:內容embeddings(文本/標簽),元數據,提供商/流派的「外觀」。
Few-shot:周轉轉移/多問題(共享塔)。

6)評估度量

離線

分類/排名:AUC/PR-AUC,NDCG@k,MAP,Recall@k。

業務: eCPM/eRPM,預期收入/保證金,LTV proxy.

多用途:加權度量(例如,帶有gain=價值的NDCG)。
校準:Brier,ECE(概率)。

Списки: coverage/diversity/novelty/serendipity.

在線

A/B和幫派測試:CTR,CTCVR,收入/會話,D1/D7保留,投訴/退出(guardrails),latency/SLA。
內置:在復雜的隨機化中,lift%,CUPED/準實驗。

7)多樣化與政策-aware重新排名

MMR/PM-2/xQuAD:「相關性×新穎性」的平衡。
配額:按類型/提供商/風險類別劃分的min/max。
公平:限制份額以避免系統性扭曲。

得分示例:
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

滯後:不用列表「閃爍」;用慣性更新位置。

8)上下文土匪和RL

強盜(LinUCB,湯普森):快速在線學習,探索控制。有利於第一位置/創意/渠道。
級聯強盜:top-k優化。
RL (DQN/Policy Gradient/SlateQ):會話個性化、多頁獎勵優化(回報/收益/長會話)。
安全性:後息肉評估(IPS/DR),模擬器,研究帽,安全RL。

9)個性化以達到因果效應

Uplift模型:誰值得觸摸(persuadables),Qini/AUUC,uplift@k。
處理先行排名:包括增殖概率而不是「原始」CTR。

Guardrails: Do-Not-Disturb段,RG規則,fairness.

10)體系結構和MLOps

Feature Store: 在線/離線平價、點對點時間、TTL for session fich.

Candidate services:ANN/FAISS/ScaNN,按細分市場進行cashing/sharding。
Ranker: 梯度增強/MLP/塔式體系結構,校準。
政策/再排名:規則/限制,多樣化,土匪層。
編排:請求的等效性,p95 latency ≤ 100-300 ms,DLQ/retrai。
可觀察性:跟蹤「correlation_id」,漂移(PSI),質量指標,「停止起重機」。

11)安全、隱私、道德

PII最小化:令牌化,RLS/CLS,掩蔽。
可解釋:頂級功能/展示原因;上訴之路。
道德/RG:頻率帽,「安靜時鐘」,禁止弱勢群體進行侵略性離場。
合規性:審核決策/邏輯、策略版本和創意。

12)護照和決策表

推薦人護照(示例)

ID/版本: 「REC_HYBRID_RANK_v5」

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

重新排名: PM-2(多樣性),品牌配額,RG濾波器,頻率帽

目標/指標: NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms

A/B: 14天,CUPED;guardrails-RG/可交付性

所有者/拼寫/runibook

決策表(草圖)

條件是上下文行動限制因素評論意見
`new_user` & `low_history`onbordingpopular@segment + content-based seed頻率帽,RG寒冷的開始
`session_len>3` & `diversity_low`屆會re-rank с MMRmin 3類偶然性
`uplift_push≥τ`offers個人pushDo-Not-Disturb,zhaloby≤Kh效果,非CTR

13)偽代碼(草圖)

A.混合回收+排名+排名

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B.湯普森創意采樣

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14)診斷和監測

質量:NDCG/Recall@k,eRPM,coverage/diversity,校準。
在線:CTR/CTCVR,收入/會話,保留,投訴/退出,遲到/定時。

漂移: PSI/KL按鍵,oflayn↔onlayn相關性下降.

限制:執行配額/多樣性,RG濾波器罷工,頻率帽。
Runibuki:反復退化(ANN下降),投訴增加,taymauts激增,緊急倒退(人口-安全)。

15)經常出錯

優化「原始CTR」而不是嵌合/價值。
沒有重新排名的層→稀缺的多樣性,「視覺隧道」。
來自未來,TZ混合,不一致的信號定義。
缺乏校準和閾值→「破壞」預算和頻率帽。
忽視RG/道德和公平性 →投訴,風險,監管問題。
非同步在線/離線聯想→銷售失敗。

16)個性化發布前的支票清單

  • 模型護照(目標、限制、指標、所有者、版本)
  • Recall/Rank/Re-rank分開;ANN和腰果熱身
  • PIT-fici和校準,離線基準(NDCG/PR-AUC)通過
  • A/B設計和護欄;決策就緒報告(效果和風險)
  • 限制:RG/頻率/多樣性/配額-實施和監測
  • 觀察力、Alerta、「停止起重機」、folbacks(大眾安全)
  • 文檔和runibuki,增量改進計劃

底線

個性化模型僅作為政策意識系統有效:豐富的數據和環境→ Recall/Rank/Re-rank混合體→ 用於在線適應的強盜/RL →嚴格限制下的多用途目標→紀律嚴明的MLOps和監控。這樣的輪廓不僅提供了「推薦」,而且可以安全、透明和可重復地提供可提高ROMI、LTV和滿意度的托管解決方案。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。