個性化模式
個性化模型
個性化是一個系統,其中數據→模型→顯示策略→操作→反饋。目的是在遵守限制(道德/RG,頻率帽,多樣性,新鮮,SLA)的情況下最大化增量價值(收入/保留/滿意度)。
1)數據和視圖
原材料:事件(觀看/點擊遊戲/購買/存款)、內容目錄(屬性)、用戶配置文件、上下文(時間/地理/設備/頻道)、質量信號(機器人/兄弟)。
Fichi:- 用戶:RFM,類別偏好,價格靈敏度,白天時間,設備。
- 項目:類型/類別,工作室/提供商,語言,價格/波動,「新鮮」。
- Context: dow/hod, promo/ivents,會話,登錄通道。
- Embeddings: user/item協作空間(MF/Word2Vec2Rec/transformers),多模式(文本/圖像)。
- 質量:點對點(無字幕),UTC時間,事件平均性,PII掩蓋。
2)基本範式
1.基於Content的是Aithem和用戶配置文件的接近性。
2.協作過濾(CF)-通過交互信號具有相似的用戶/特征。
3.矩陣分解/embeddings-隱藏因子,dot-product/MLP for score。
4.Learning-to-Rank(LTR)是用於列表排名(pairwise/listwise)的梯度增強/神經網絡。
5.重排層-後處理,同時考慮到多樣化/新穎性/局限性。
6.上下文匪徒-具有探索性解釋的在線學習。
7.RL/seq建議-路徑/會話優化(多主題獎)。
3)決策輸送機
1.Recall(快速候選人選擇,200-5k):ANN的embeddings,規則bays/類別,人氣。
2.排名(精確得分,20-200):LTR/MLP富有。
3.重新排名/政策(fin。清單,5-30):多用途優化+限制和多樣化。
4.行動:顯示/push/e-mail/帶帽子和「安靜時鐘」的個人展示。
5.Feedback: implicit/explicit信號→再培訓/強盜更新。
4)多用途目標和限制
目標:CTR/CTCVR,保留,收入,保證金,LTV,滿意度,速度。
限制:聯系頻率,RG/合規性,類別多樣性,品牌/提供商配額,公平。
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]
實踐:做一個策略性的aware重新排名(參見第7節),其中scor與規則結合在一起。
5)冷啟動和小數據
新用戶:在細分/頻道/地質上流行,在問卷/第一個點擊中基於內容,具有廣泛情報的匪徒。
新的aitems:內容embeddings(文本/標簽),元數據,提供商/流派的「外觀」。
Few-shot:周轉轉移/多問題(共享塔)。
6)評估度量
離線
分類/排名:AUC/PR-AUC,NDCG@k,MAP,Recall@k。
業務: eCPM/eRPM,預期收入/保證金,LTV proxy.
多用途:加權度量(例如,帶有gain=價值的NDCG)。
校準:Brier,ECE(概率)。
Списки: coverage/diversity/novelty/serendipity.
在線
A/B和幫派測試:CTR,CTCVR,收入/會話,D1/D7保留,投訴/退出(guardrails),latency/SLA。
內置:在復雜的隨機化中,lift%,CUPED/準實驗。
7)多樣化與政策-aware重新排名
MMR/PM-2/xQuAD:「相關性×新穎性」的平衡。
配額:按類型/提供商/風險類別劃分的min/max。
公平:限制份額以避免系統性扭曲。
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
滯後:不用列表「閃爍」;用慣性更新位置。
8)上下文土匪和RL
強盜(LinUCB,湯普森):快速在線學習,探索控制。有利於第一位置/創意/渠道。
級聯強盜:top-k優化。
RL (DQN/Policy Gradient/SlateQ):會話個性化、多頁獎勵優化(回報/收益/長會話)。
安全性:後息肉評估(IPS/DR),模擬器,研究帽,安全RL。
9)個性化以達到因果效應
Uplift模型:誰值得觸摸(persuadables),Qini/AUUC,uplift@k。
處理先行排名:包括增殖概率而不是「原始」CTR。
Guardrails: Do-Not-Disturb段,RG規則,fairness.
10)體系結構和MLOps
Feature Store: 在線/離線平價、點對點時間、TTL for session fich.
Candidate services:ANN/FAISS/ScaNN,按細分市場進行cashing/sharding。
Ranker: 梯度增強/MLP/塔式體系結構,校準。
政策/再排名:規則/限制,多樣化,土匪層。
編排:請求的等效性,p95 latency ≤ 100-300 ms,DLQ/retrai。
可觀察性:跟蹤「correlation_id」,漂移(PSI),質量指標,「停止起重機」。
11)安全、隱私、道德
PII最小化:令牌化,RLS/CLS,掩蔽。
可解釋:頂級功能/展示原因;上訴之路。
道德/RG:頻率帽,「安靜時鐘」,禁止弱勢群體進行侵略性離場。
合規性:審核決策/邏輯、策略版本和創意。
12)護照和決策表
推薦人護照(示例)
ID/版本: 「REC_HYBRID_RANK_v5」
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
重新排名: PM-2(多樣性),品牌配額,RG濾波器,頻率帽
目標/指標: NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms
A/B: 14天,CUPED;guardrails-RG/可交付性
所有者/拼寫/runibook
決策表(草圖)
13)偽代碼(草圖)
A.混合回收+排名+排名
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B.湯普森創意采樣
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14)診斷和監測
質量:NDCG/Recall@k,eRPM,coverage/diversity,校準。
在線:CTR/CTCVR,收入/會話,保留,投訴/退出,遲到/定時。
漂移: PSI/KL按鍵,oflayn↔onlayn相關性下降.
限制:執行配額/多樣性,RG濾波器罷工,頻率帽。
Runibuki:反復退化(ANN下降),投訴增加,taymauts激增,緊急倒退(人口-安全)。
15)經常出錯
優化「原始CTR」而不是嵌合/價值。
沒有重新排名的層→稀缺的多樣性,「視覺隧道」。
來自未來,TZ混合,不一致的信號定義。
缺乏校準和閾值→「破壞」預算和頻率帽。
忽視RG/道德和公平性 →投訴,風險,監管問題。
非同步在線/離線聯想→銷售失敗。
16)個性化發布前的支票清單
- 模型護照(目標、限制、指標、所有者、版本)
- Recall/Rank/Re-rank分開;ANN和腰果熱身
- PIT-fici和校準,離線基準(NDCG/PR-AUC)通過
- A/B設計和護欄;決策就緒報告(效果和風險)
- 限制:RG/頻率/多樣性/配額-實施和監測
- 觀察力、Alerta、「停止起重機」、folbacks(大眾安全)
- 文檔和runibuki,增量改進計劃
底線
個性化模型僅作為政策意識系統有效:豐富的數據和環境→ Recall/Rank/Re-rank混合體→ 用於在線適應的強盜/RL →嚴格限制下的多用途目標→紀律嚴明的MLOps和監控。這樣的輪廓不僅提供了「推薦」,而且可以安全、透明和可重復地提供可提高ROMI、LTV和滿意度的托管解決方案。