パーソナライゼーションモデル
パーソナライゼーションモデル
パーソナライゼーションとは、データ→モデル→ポリシー→アクション→フィードバックを表示するシステムです。目標は、制限(倫理/RG、周波数キャップ、多様性、鮮度、SLA)を満たしながら、増分値(所得/保持/満足度)を最大化することです。
1)データとビュー
原材料:イベント(ビュー/クリック/ゲーム/購入/預金)、コンテンツカタログ(属性)、ユーザープロファイル、コンテキスト(時間/地理/デバイス/チャネル)、品質信号(ボット/詐欺)。
Fici:- ユーザー:RFM、カテゴリの設定、価格感度、時間、デバイス。
- 項目:ジャンル/カテゴリ、スタジオ/プロバイダー、言語、価格/ボラティリティ、「新鮮さ」。
- コンテキスト:dow/hod、プロモーション/イベント、セッション、ログインチャンネル。
- 埋め込み:ユーザー/アイテム共同スペース(MF/Word2Vec2Rec/transformers)、マルチモーダル(text/images)。
- 品質:ポイント・イン・タイム(顔なし)、UTCタイム、イベントのアイデンポテンス、PIIマスキング。
2)基本的なパラダイム
1.Content-based-アドレスとユーザープロファイルの属性に応じた近接性。
2.コラボレーティブフィルタリング(CF)-インタラクションシグナルに基づいた類似のユーザー/aytems。
3.マトリックスファクタライゼーション/埋め込み-隠れた要因、スコアのためのドットプロダクト/MLP。
4.Learning-to-Rank (LTR)-ランキングリストのグラデーションブースト/ニューラルネットワーク(ペアワイズ/リストワイズ)。
5.レイヤーの再ランク付け-ポストプロセッシング、多様化/新規性/制限を考慮して。
6.コンテキストバンディット-探検と搾取とオンライン学習。
7.RL/seq-recommendations-パス/セッションの最適化(マルチステップ賞)。
3)意思決定パイプライン
1.リコール(迅速な候補者の選択、200-5k):埋め込みによるANN、ルールベース/カテゴリ、人気。
2.ランク(正確なスコア、20-200):豊富な機能を備えたLTR/MLP。
3.再ランク/ポリシー(Fin。 list、 5-30):多目的最適化+制約と多様化。
4.アクション:口ガードと「静かな時計」とのショー/プッシュ/電子メール/パーソナルショーケース。
5.フィードバック:暗黙/明示的な信号→再訓練/bandit-update。
4)多目的目標と制限
目標:CTR/CTCVR、保持、収益、マージン、LTV、満足度、スピード。
制限:コンタクト頻度、RG/コンプライアンス、カテゴリーの多様性、ブランド/プロバイダーのクォータ、公平性。
[
\max\sum_i w_i\cdot\text {Objective}_i\quad
\text {s。t。 }\text {caps、 RG、 diversity、 SLA}
]
練習:速度がルールと組み合わされているポリシーアウェアランキング(第7章を参照)を行います。
5)コールドスタートと小さなデータ
新しいユーザー:セグメント/チャンネル/ジオポピュリティ、アンケート/ファーストクリックによるコンテンツベース、幅広いインテリジェンスを備えた盗賊。
新しいaitems:コンテンツ埋め込み(text/tags)、メタデータ、プロバイダ/ジャンル別の「look-alike」。
数ショット:埋め込み転送/共有タワー。
6)スコアリングメトリック
オフラインで
分類/ランキング:AUC/PR-AUC、 NDCG@k、 MAP、 Recall@k。
ビジネス:eCPM/eRPM、期待収益/マージン、LTVプロキシ。
多目的:重み付けされたメトリック(例:利得=値を持つNDCG)。
キャリブレーション:Brier、 ECE(確率)。
^^^^:coverage/diversity/novelty/serendipity。
オンライン
A/Bおよび盗賊テスト:CTR、 CTCVR、収入/セッション、D1/D7保持、苦情/購読解除(ガードレール)、レイテンシー/SLA。
増分:リフト%、複雑なランダム化におけるCUPED/準実験。
7)多様化と政策対応の再評価
MMR/PM-2/xQuAD:「新規性×関連性」のバランス。
クォータ:min/maxジャンル別/プロバイダ別/リスク別。
公平性:組織的な歪みを避けるために株式を制限します。
[
\textstyle\text {Score} =\alpha\cdot\hat {p}_{\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {Fatigue} +\delta\cdot\text {Novelty}
]
ヒステリシス:リストを「点滅」しないでください。慣性で項目を更新します。
8)コンテキストバンディットとRL
Bandits (LinUCB、 Thompson):高速オンライン学習、探査制御。ファーストポジション/クリエイティブ/チャンネルに適しています。
カスケード山賊:トップKの最適化。
RL (DQN/Policy Gradient/SlateQ):セッションのパーソナライゼーション、マルチステップ報酬の最適化(リターン/収益/ロングセッション)。
安全性:オフポリシー評価(IPS/DR)、シミュレータ、研究用キャップ、安全なRL。
9)因果効果のためのパーソナライゼーション
アップリフトモデル:誰に触れるべきか(persuadables)、 Qini/AUUC、 uplift@k。
治療対応ランキング:生のCTRではなく増分確率を含める。
ガードレール:Do-Not-Disturbセグメント、RGルール、公平性。
10)アーキテクチャとMLOps
Feature Store:オンライン/オフラインのパリティ、ポイントインタイム、セッション機能のTTL。
候補サービス:ANN/FAISS/ScaNN、セグメント別のキャッシュ/シャーディング。
ランカー:グラデーションブースト/MLP/タワーアーキテクチャ、キャリブレーション。
ポリシー/再ランク:ルール/制限、多様化、盗賊層。
オーケストレーション:要求idempotency、 p95 latency ≤ 100-300 ms、 DLQ/retray。
観測性:相関_idトレース、PSI、品質指標、ストップコック。
11)セキュリティ、プライバシー、倫理
PII最小化:トークン化、RLS/CLS、マスキング。
説明可能性:トップフィーチャー/表示する理由;アピールの道。
倫理/RG:周波数キャップ、「静かな時間」、脆弱なグループからの攻撃的な申し出の禁止。
コンプライアンス:意思決定/ログ、ポリシーのバージョン、クリエイティブの監査。
12)パスポートと意思決定表
参照証明書(例)
ID/バージョン: 'REC_HYBRID_RANK_v5'
リコール: ANN(ユーザー/アイテム埋め込み)、トップ500
Ranker: LTR-GBM+MLP(機能:ユーザーRFM、アイテムメタ、コンテキスト)
再ランク: PM-2(多様性)、ブランドクォータ、RGフィルタ、周波数キャップ
目標/メトリクス: NDCG@10、 eRPM、 zhaloby ≤ Kh、レイテンシp95 ≤ 150 ms
A/B: 14日、CUPED;ガードレール-RG/納期
オーナー/ロギング/Runibook
決定表
13)擬似コード(スケッチ)
A。ハイブリッドリコール+ランク+リランク
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
クリエイティブのためのB。 Thompsonサンプリング
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14)診断および監視
質:NDCG/Recall@k、 eRPMの適用範囲/多様性、口径測定。
オンライン:CTR/CTCVR、収入/セッション、保持、苦情/登録解除、レイテンシ/タイムアウト。
ドリフト:主な特徴によるPSI/KL、 oflayn↔onlayn相関降下。
制限:クォータ/多様性の達成、RGフィルタへの影響、周波数キャップ。
Runibooks:リコール劣化(ANN低下)、苦情の増加、タイムアウトの急増、緊急フォールバック(人気のある安全)。
15)頻繁なエラー
increment/valueではなく「raw CTR」の最適化。
レイヤー→スカントバリエーション「ビジョントンネル」はありません。
未来からの顔、TZミキシング、一貫性のない信号定義。
校正としきい値の不足→予算と周波数キャップが「劣化」します。
RG/倫理と公平性→苦情、リスク、規制上の問題を無視します。
オンライン/オフラインの非シンクロン機能→売上の失敗。
16)プレリリースのパーソナライゼーションチェックリスト
- モデルパスポート(目標、制限、指標、所有者、バージョン)
- リコール/ランク/再ランク投稿;warmed ANNとキャッシュ
- PIT機能とキャリブレーション、オフラインベンチマーク(NDCG/PR-AUC)渡された
- A/Bの設計およびガードレール;意思決定の準備ができたレポート
- RG/頻度/多様性/クォータ制約-実装および監視
- 観測性、警報、停止クレーン、折り返し(普及安全)
- ドキュメントとRunibooks、増分改善計画
合計
パーソナライゼーションモデルは、ポリシーを意識したシステムとしてのみ有効です。リッチデータと埋め込み→リコール/ランク/再ランクのハイブリッド→オンライン適応のためのバンディット/RL→厳格な制限と倫理のための多目的目標→規律あるMLOpsと監視。このような回路は、「推奨事項」だけでなく、ROMI、 LTV、および満足度を高める管理可能なソリューションを提供します。