Modelle der Personalisierung
Modelle zur Personalisierung
Personalisierung ist ein System, in dem Daten → Modelle → Darstellungsrichtlinien → Aktion → Feedback. Ziel ist es, den inkrementellen Wert (Umsatz/Retention/Zufriedenheit) zu maximieren, während die Einschränkungen (Ethik/RG, Frequenzkappen, Vielfalt, Frische, SLA) eingehalten werden.
1) Daten und Darstellungen
Der Rohstoff: die Ereignisse (prosmotry/kliki/igry/pokupki/deposity), den Inhaltskatalog (die Attribute), die Anwenderprofile, den Kontext (wremja/geo/ustrojstwo/kanal), die Signale der Qualität (den Kahn/frod).
Fichy:- Benutzer: RFM, Kategorienpräferenzen, Preissensitivität, Tageszeit, Gerät.
- Artikel: Genre/Kategorie, Studio/Anbieter, Sprache, Preis/Volatilität, „Frische“.
- Kontext: dow/hod, Promo/Events, Session, Entry Channel.
- Embeddings: user/item collaborative spaces (MF/Word2Vec2Rec/transformers), multimodal (Text/Bilder).
- Qualität: Point-in-Time (ohne Licks), UTC-Zeit, Ereignis-Idempotenz, PII-Maskierung.
2) Grundlegende Paradigmen
1. Content-based - Nähe durch Aitema-Merkmale und Benutzerprofil.
2. Kollaborative Filterung (CF) - Ähnliche Benutzer/Items durch Interaktionssignale.
3. Matrix Factorization/Embedding - versteckte Faktoren, dot-product/MLP für Score.
4. Learning-to-Rank (LTR) - Gradient-Boost/neuronale Netze für das Ranking von Listen (pairwise/listwise).
5. Re-Ranking der Schicht - Post-Processing unter Berücksichtigung von Diversifikation/Neuheit/Einschränkungen.
6. Kontext-Banditen - Online-Training mit Exploration-Exploitation.
7. RL/seq-Empfehlungen - Pfad/Sitzungsoptimierung (mehrstufige Belohnung).
3) Entscheidungspipeline
1. Recall (schnelle Kandidatenauswahl, 200-5k): ANN für Embeddings, Regelfall/Kategorie, Popularität.
2. Rang (exakter Scoring, 20-200): LTR/MLP mit reichen Fiches.
3. Re-rank/Policy (fin. Liste, 5-30): Mehrzweck-Optimierung + Einschränkungen und Diversifikation.
4. Aktion: Display/Push/E-Mail/Personal Showcase mit Mundschutz und „Silent Clock“.
5. Feedback: implicit/explicit Signale → Umschulung/Bandit-update.
4) Mehrzweckziele und -beschränkungen
Ziele: CTR/CTCVR, Retention, Umsatz, Marge, LTV, Zufriedenheit, Geschwindigkeit.
Einschränkungen: Kontakthäufigkeit, RG/Compliance, Kategorienvielfalt, Marken-/Anbieterquoten, Fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Praxis: Machen Sie ein Policy-Aware-Re-Ranking (siehe § 7), bei dem Score mit Regeln kombiniert wird.
5) Kaltstart und kleine Daten
Neue Nutzer: Popularität nach Segment/Kanal/Geo, inhaltsbasiert nach Fragebogen/erstem Klick, Bandit mit breiter Intelligenz.
Neue Themen: Content-Embeddings (Text/Tags), Metadaten, „look-alike“ nach Anbieter/Genre.
Few-shot: Übertragung von Embeddings/Multi-Task (Shared Tower).
6) Bewertungsmetriken
Offline
Klassifizierung/Ranking: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Geschäft: eCPM/eRPM, erwartete Einnahmen/Margen, LTV-Proxy.
Mehrzweck: gewichtete Metriken (z.B. NDCG mit gain = Wert).
Kalibrierung: Brier, ECE (für Wahrscheinlichkeiten).
Списки: coverage/diversity/novelty/serendipity.
Online
A/B und Banditentests: CTR, CTCVR, Einkommen/Sitzung, D1/D7, Beschwerden/Abmeldungen (guardrails), Latency/SLA.
Inkrement: Lift%, CUPED/Quasi-Experimente bei komplexer Randomisierung.
7) Diversifizierung und Policy-Aware Re-Ranking
MMR/PM-2/xQuAD: Balance von „Relevanz × Neuheit“.
Quoten: min/max nach Genre/Anbieter/Risikokategorien.
Fairness: Begrenzung der Anteile, um systematische Verzerrungen zu vermeiden.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Hysterese: nicht „blinken“ Listen; Aktualisieren Sie Positionen mit Trägheit.
8) Kontext Banditen und RL
Banditen (LinUCB, Thompson): schnelles Online-Lernen, Explorationskontrolle. Gut für die erste Position/Creative/Channel.
Kaskadierende Banditen: Top-k-Optimierung.
RL (DQN/Policy Gradient/SlateQ): Session-Personalisierung, Multi-Step-Award-Optimierung (Return/Revenue/Long Session).
Sicherheit: Off-Policy-Score (IPS/DR), Simulatoren, Forschungskappen, Safe RL.
9) Personalisierung unter kausaler Wirkung
Uplift-Modelle: wen man anfassen sollte (persuadables), Qini/AUUC, uplift @ k.
Treatment-aware-Ranking: Beinhalten Sie die Inkrementwahrscheinlichkeit anstelle der „rohen“ CTR.
Guardrails: Do-Not-Disturb-Segmente, RG-Regeln, Fairness.
10) Architektur und MLOps
Feature Store: Online-/Offline-Parität, Point-in-Time, TTL für Session-Fich.
Kandidatendienste: ANN/FAISS/ScaNN, Caching/Sharding nach Segmenten.
Ranker: gradijentnyj бустинг/MLP/Tower-архитектуры, die Kalibrierung.
Policy/Re-rank: Regeln/Einschränkungen, Diversifikation, Banditenschicht.
Orchestrierung: Idempotenz von Anfragen, p95 Latenz ≤ 100-300 ms, DLQ/Retrays.
Beobachtbarkeit: Trace' correlation _ id', fich-drift (PSI), Qualitätsmetriken, „Stop-Crane“.
11) Sicherheit, Privatsphäre, Ethik
PII-Minimierung: Tokenisierung, RLS/CLS, Maskierung.
Erklärbarkeit: Top-Features/Showgründe; Weg der Berufung.
Ethik/RG: Frequenzkappen, „stille Stunden“, Verbote aggressiver Angebote bei vulnerablen Gruppen.
Compliance: Prüfung von Entscheidungen/Protokollen, Versionen von Richtlinien und Kreativen.
12) Pässe und Entscheidungstabellen
Empfehlungspass (Beispiel)
ID/Version: „REC _ HYBRID _ RANK _ v5“
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-Rank: PM-2 (Vielfalt), Markenkontingente, RG-Filter, Frequenzkappen
Ziele/Metriken: NDCG @ 10, eRPM, zhaloby≤Kh, Latenz p95≤150 ms
A/W: 14 Tage, CUPED; guardrails - RG/Lieferbarkeit
Besitzer/Logging/Runybook
Entscheidungstabelle (Skizze)
13) Pseudocode (Skizze)
A. Hybrid recall + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling für Kreative
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnose und Überwachung
Qualität: NDCG/Recall @ k, eRPM, Abdeckung/Vielfalt, Kalibrierung.
Online: CTR/CTCVR, Einnahmen/Sitzung, Einbehaltung, Beschwerden/Abmeldungen, Latency/Timeout.
Drift: PSI/KL nach Schlüsselfehlern, oflayn↔onlayn-Korrelationsabfall.
Einschränkungen: Quotenausführung/Diversity, Schläge in RG-Filter, Frequenzkappen.
Runibuki: recall degradation (ANN drop), Zunahme der Beschwerden, Anstieg der Timeouts, Notfall-Folback (popular-safe).
15) Häufige Fehler
Optimierung der „rohen CTR“ anstelle des Inkrements/Werts.
Keine Re-Ranking-Schicht → spärliche Vielfalt, „Sehtunnel“.
Licks aus der Zukunft, TZ-Mix, unkoordinierte Signaldefinitionen.
Das Fehlen von Kalibrierungen und Schwellenwerten „verdirbt“ → das Budget und die Frequenzabdeckungen.
Ignorieren RG/Ethik und fairness → Beschwerden, Risiken, regulatorische Probleme.
Nesynhron online/offline fich → ein Fehler in der Produktion.
16) Checkliste vor Personalisierung Release
- Modelldatenblatt (Ziele, Einschränkungen, Kennzahlen, Besitzer, Versionen)
- Recall/Rank/Re-rank sind verteilt; ANN und Cashes werden aufgewärmt
- PIT-Daten und Kalibrierung, Offline-Benchmarks (NDCG/PR-AUC) bestanden
- A/B-Design und Guardrails; decision-ready report (Wirkung und Risiken)
- Einschränkungen: RG/Frequenz/Vielfalt/Quoten - umgesetzt und überwacht
- Beobachtbarkeit, Alerts, „Stop-Wasserhahn“, Folbacks (popular-safe)
- Dokumentation und Runybuks, Plan für inkrementelle Verbesserungen
Summe
Personalisierungsmodelle sind nur als Policy-Aware-System wirksam: Rich Data und Embeddings → ein Recall/Rank/Re-Rank-Hybrid → Banditen/RL für die Online-Anpassung → Mehrzweckziele unter strengen Einschränkungen und Ethik → disziplinierte MLOps und Überwachung. Eine solche Kontur gibt nicht nur „Empfehlungen“, sondern überschaubare Lösungen, die ROMI, LTV und Zufriedenheit steigern - sicher, transparent und reproduzierbar.