個性化模式

個性化模型

個性化是一個系統，其中數據→模型→顯示策略→操作→反饋。目的是在遵守限制（道德/RG，頻率帽，多樣性，新鮮，SLA）的情況下最大化增量價值（收入/保留/滿意度）。

1）數據和視圖

原材料：事件（觀看/點擊遊戲/購買/存款）、內容目錄（屬性）、用戶配置文件、上下文（時間/地理/設備/頻道）、質量信號（機器人/兄弟）。

Fichi：

用戶：RFM，類別偏好，價格靈敏度，白天時間，設備。
項目：類型/類別，工作室/提供商，語言，價格/波動，「新鮮」。
Context： dow/hod, promo/ivents,會話,登錄通道。
Embeddings： user/item協作空間（MF/Word2Vec2Rec/transformers）,多模式（文本/圖像）。
質量：點對點（無字幕），UTC時間，事件平均性，PII掩蓋。

2）基本範式

1.基於Content的是Aithem和用戶配置文件的接近性。
2.協作過濾（CF）-通過交互信號具有相似的用戶/特征。
3.矩陣分解/embeddings-隱藏因子,dot-product/MLP for score。
4.Learning-to-Rank（LTR）是用於列表排名（pairwise/listwise）的梯度增強/神經網絡。
5.重排層-後處理，同時考慮到多樣化/新穎性/局限性。
6.上下文匪徒-具有探索性解釋的在線學習。
7.RL/seq建議-路徑/會話優化（多主題獎）。

3）決策輸送機

1.Recall（快速候選人選擇，200-5k）：ANN的embeddings，規則bays/類別，人氣。
2.排名（精確得分，20-200）：LTR/MLP富有。
3.重新排名/政策（fin。清單，5-30）：多用途優化+限制和多樣化。
4.行動：顯示/push/e-mail/帶帽子和「安靜時鐘」的個人展示。
5.Feedback： implicit/explicit信號→再培訓/強盜更新。

4）多用途目標和限制

目標：CTR/CTCVR,保留,收入,保證金,LTV,滿意度,速度。
限制：聯系頻率，RG/合規性，類別多樣性，品牌/提供商配額，公平。

措辭：

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s.t. } \text{caps, RG, diversity, SLA}
]

實踐：做一個策略性的aware重新排名（參見第7節）,其中scor與規則結合在一起。

5）冷啟動和小數據

新用戶：在細分/頻道/地質上流行，在問卷/第一個點擊中基於內容，具有廣泛情報的匪徒。
新的aitems：內容embeddings（文本/標簽），元數據，提供商/流派的「外觀」。
Few-shot：周轉轉移/多問題（共享塔）。

6）評估度量

離線

分類/排名：AUC/PR-AUC，NDCG@k，MAP，Recall@k。

業務： eCPM/eRPM,預期收入/保證金,LTV proxy.

多用途：加權度量（例如，帶有gain=價值的NDCG）。
校準：Brier，ECE（概率）。

Списки: coverage/diversity/novelty/serendipity.

在線

A/B和幫派測試：CTR，CTCVR，收入/會話，D1/D7保留，投訴/退出（guardrails），latency/SLA。
內置：在復雜的隨機化中，lift%，CUPED/準實驗。

7）多樣化與政策-aware重新排名

MMR/PM-2/xQuAD：「相關性×新穎性」的平衡。
配額：按類型/提供商/風險類別劃分的min/max。
公平：限制份額以避免系統性扭曲。

得分示例：

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

滯後：不用列表「閃爍」；用慣性更新位置。

8）上下文土匪和RL

強盜（LinUCB，湯普森）：快速在線學習，探索控制。有利於第一位置/創意/渠道。
級聯強盜：top-k優化。
RL （DQN/Policy Gradient/SlateQ）：會話個性化、多頁獎勵優化（回報/收益/長會話）。
安全性：後息肉評估（IPS/DR），模擬器，研究帽，安全RL。

9）個性化以達到因果效應

Uplift模型：誰值得觸摸（persuadables），Qini/AUUC，uplift@k。
處理先行排名：包括增殖概率而不是「原始」CTR。

Guardrails： Do-Not-Disturb段,RG規則,fairness.

10）體系結構和MLOps

Feature Store： 在線/離線平價、點對點時間、TTL for session fich.

Candidate services：ANN/FAISS/ScaNN，按細分市場進行cashing/sharding。
Ranker：梯度增強/MLP/塔式體系結構,校準。
政策/再排名：規則/限制，多樣化，土匪層。
編排：請求的等效性，p95 latency ≤ 100-300 ms，DLQ/retrai。
可觀察性：跟蹤「correlation_id」，漂移（PSI），質量指標，「停止起重機」。

11）安全、隱私、道德

PII最小化：令牌化，RLS/CLS，掩蔽。
可解釋：頂級功能/展示原因；上訴之路。
道德/RG：頻率帽，「安靜時鐘」，禁止弱勢群體進行侵略性離場。
合規性：審核決策/邏輯、策略版本和創意。

12）護照和決策表

推薦人護照（示例）

ID/版本： 「REC_HYBRID_RANK_v5」

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

重新排名： PM-2（多樣性），品牌配額，RG濾波器，頻率帽

目標/指標： NDCG@10、eRPM、zhaloby≤Kh、latency p95≤150 ms

A/B： 14天，CUPED；guardrails-RG/可交付性

所有者/拼寫/runibook

決策表（草圖）

條件是	上下文	行動	限制因素	評論意見
`new_user` & `low_history`	onbording	popular@segment + content-based seed	頻率帽,RG	寒冷的開始
`session_len>3` & `diversity_low`	屆會	re-rank с MMR	min 3類	偶然性
`uplift_push≥τ`	offers	個人push	Do-Not-Disturb，zhaloby≤Kh	效果,非CTR

13）偽代碼（草圖）

A.混合回收+排名+排名

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B.湯普森創意采樣

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14）診斷和監測

質量：NDCG/Recall@k，eRPM，coverage/diversity，校準。
在線：CTR/CTCVR，收入/會話，保留，投訴/退出，遲到/定時。

漂移： PSI/KL按鍵,oflayn↔onlayn相關性下降.

限制：執行配額/多樣性，RG濾波器罷工，頻率帽。
Runibuki：反復退化（ANN下降），投訴增加，taymauts激增，緊急倒退（人口-安全）。

15）經常出錯

優化「原始CTR」而不是嵌合/價值。
沒有重新排名的層→稀缺的多樣性，「視覺隧道」。
來自未來，TZ混合，不一致的信號定義。
缺乏校準和閾值→「破壞」預算和頻率帽。
忽視RG/道德和公平性 →投訴，風險，監管問題。
非同步在線/離線聯想→銷售失敗。

16）個性化發布前的支票清單

模型護照（目標、限制、指標、所有者、版本）
Recall/Rank/Re-rank分開；ANN和腰果熱身
PIT-fici和校準，離線基準（NDCG/PR-AUC）通過
A/B設計和護欄；決策就緒報告（效果和風險）
限制：RG/頻率/多樣性/配額-實施和監測
觀察力、Alerta、「停止起重機」、folbacks（大眾安全）
文檔和runibuki，增量改進計劃

底線

個性化模型僅作為政策意識系統有效：豐富的數據和環境→ Recall/Rank/Re-rank混合體→ 用於在線適應的強盜/RL →嚴格限制下的多用途目標→紀律嚴明的MLOps和監控。這樣的輪廓不僅提供了「推薦」，而且可以安全、透明和可重復地提供可提高ROMI、LTV和滿意度的托管解決方案。

個性化模式

個性化模型

在線

決策表（草圖）

B.湯普森創意采樣

底線

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案