Modelle der Personalisierung

Modelle zur Personalisierung

Personalisierung ist ein System, in dem Daten → Modelle → Darstellungsrichtlinien → Aktion → Feedback. Ziel ist es, den inkrementellen Wert (Umsatz/Retention/Zufriedenheit) zu maximieren, während die Einschränkungen (Ethik/RG, Frequenzkappen, Vielfalt, Frische, SLA) eingehalten werden.

1) Daten und Darstellungen

Der Rohstoff: die Ereignisse (prosmotry/kliki/igry/pokupki/deposity), den Inhaltskatalog (die Attribute), die Anwenderprofile, den Kontext (wremja/geo/ustrojstwo/kanal), die Signale der Qualität (den Kahn/frod).

Fichy:

Benutzer: RFM, Kategorienpräferenzen, Preissensitivität, Tageszeit, Gerät.
Artikel: Genre/Kategorie, Studio/Anbieter, Sprache, Preis/Volatilität, „Frische“.
Kontext: dow/hod, Promo/Events, Session, Entry Channel.
Embeddings: user/item collaborative spaces (MF/Word2Vec2Rec/transformers), multimodal (Text/Bilder).
Qualität: Point-in-Time (ohne Licks), UTC-Zeit, Ereignis-Idempotenz, PII-Maskierung.

2) Grundlegende Paradigmen

1. Content-based - Nähe durch Aitema-Merkmale und Benutzerprofil.
2. Kollaborative Filterung (CF) - Ähnliche Benutzer/Items durch Interaktionssignale.
3. Matrix Factorization/Embedding - versteckte Faktoren, dot-product/MLP für Score.
4. Learning-to-Rank (LTR) - Gradient-Boost/neuronale Netze für das Ranking von Listen (pairwise/listwise).
5. Re-Ranking der Schicht - Post-Processing unter Berücksichtigung von Diversifikation/Neuheit/Einschränkungen.
6. Kontext-Banditen - Online-Training mit Exploration-Exploitation.
7. RL/seq-Empfehlungen - Pfad/Sitzungsoptimierung (mehrstufige Belohnung).

3) Entscheidungspipeline

1. Recall (schnelle Kandidatenauswahl, 200-5k): ANN für Embeddings, Regelfall/Kategorie, Popularität.
2. Rang (exakter Scoring, 20-200): LTR/MLP mit reichen Fiches.
3. Re-rank/Policy (fin. Liste, 5-30): Mehrzweck-Optimierung + Einschränkungen und Diversifikation.
4. Aktion: Display/Push/E-Mail/Personal Showcase mit Mundschutz und „Silent Clock“.
5. Feedback: implicit/explicit Signale → Umschulung/Bandit-update.

4) Mehrzweckziele und -beschränkungen

Ziele: CTR/CTCVR, Retention, Umsatz, Marge, LTV, Zufriedenheit, Geschwindigkeit.
Einschränkungen: Kontakthäufigkeit, RG/Compliance, Kategorienvielfalt, Marken-/Anbieterquoten, Fairness.

Wortlaut:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Praxis: Machen Sie ein Policy-Aware-Re-Ranking (siehe § 7), bei dem Score mit Regeln kombiniert wird.

5) Kaltstart und kleine Daten

Neue Nutzer: Popularität nach Segment/Kanal/Geo, inhaltsbasiert nach Fragebogen/erstem Klick, Bandit mit breiter Intelligenz.
Neue Themen: Content-Embeddings (Text/Tags), Metadaten, „look-alike“ nach Anbieter/Genre.
Few-shot: Übertragung von Embeddings/Multi-Task (Shared Tower).

6) Bewertungsmetriken

Offline

Klassifizierung/Ranking: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Geschäft: eCPM/eRPM, erwartete Einnahmen/Margen, LTV-Proxy.
Mehrzweck: gewichtete Metriken (z.B. NDCG mit gain = Wert).
Kalibrierung: Brier, ECE (für Wahrscheinlichkeiten).
Списки: coverage/diversity/novelty/serendipity.

Online

A/B und Banditentests: CTR, CTCVR, Einkommen/Sitzung, D1/D7, Beschwerden/Abmeldungen (guardrails), Latency/SLA.
Inkrement: Lift%, CUPED/Quasi-Experimente bei komplexer Randomisierung.

7) Diversifizierung und Policy-Aware Re-Ranking

MMR/PM-2/xQuAD: Balance von „Relevanz × Neuheit“.
Quoten: min/max nach Genre/Anbieter/Risikokategorien.
Fairness: Begrenzung der Anteile, um systematische Verzerrungen zu vermeiden.

Beispiel Scoring:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Hysterese: nicht „blinken“ Listen; Aktualisieren Sie Positionen mit Trägheit.

8) Kontext Banditen und RL

Banditen (LinUCB, Thompson): schnelles Online-Lernen, Explorationskontrolle. Gut für die erste Position/Creative/Channel.
Kaskadierende Banditen: Top-k-Optimierung.
RL (DQN/Policy Gradient/SlateQ): Session-Personalisierung, Multi-Step-Award-Optimierung (Return/Revenue/Long Session).
Sicherheit: Off-Policy-Score (IPS/DR), Simulatoren, Forschungskappen, Safe RL.

9) Personalisierung unter kausaler Wirkung

Uplift-Modelle: wen man anfassen sollte (persuadables), Qini/AUUC, uplift @ k.
Treatment-aware-Ranking: Beinhalten Sie die Inkrementwahrscheinlichkeit anstelle der „rohen“ CTR.
Guardrails: Do-Not-Disturb-Segmente, RG-Regeln, Fairness.

10) Architektur und MLOps

Feature Store: Online-/Offline-Parität, Point-in-Time, TTL für Session-Fich.
Kandidatendienste: ANN/FAISS/ScaNN, Caching/Sharding nach Segmenten.
Ranker: gradijentnyj бустинг/MLP/Tower-архитектуры, die Kalibrierung.
Policy/Re-rank: Regeln/Einschränkungen, Diversifikation, Banditenschicht.
Orchestrierung: Idempotenz von Anfragen, p95 Latenz ≤ 100-300 ms, DLQ/Retrays.
Beobachtbarkeit: Trace' correlation _ id', fich-drift (PSI), Qualitätsmetriken, „Stop-Crane“.

11) Sicherheit, Privatsphäre, Ethik

PII-Minimierung: Tokenisierung, RLS/CLS, Maskierung.
Erklärbarkeit: Top-Features/Showgründe; Weg der Berufung.
Ethik/RG: Frequenzkappen, „stille Stunden“, Verbote aggressiver Angebote bei vulnerablen Gruppen.
Compliance: Prüfung von Entscheidungen/Protokollen, Versionen von Richtlinien und Kreativen.

12) Pässe und Entscheidungstabellen

Empfehlungspass (Beispiel)

ID/Version: „REC _ HYBRID _ RANK _ v5“

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-Rank: PM-2 (Vielfalt), Markenkontingente, RG-Filter, Frequenzkappen

Ziele/Metriken: NDCG @ 10, eRPM, zhaloby≤Kh, Latenz p95≤150 ms

A/W: 14 Tage, CUPED; guardrails - RG/Lieferbarkeit

Besitzer/Logging/Runybook

Entscheidungstabelle (Skizze)

Bedingung	Der Kontext	Die Handlung	Die Beschränkungen	Der Kommentar
`new_user` & `low_history`	onbording	popular@segment + content-based seed	Frequenzabdeckungen, RG	Kaltstart
`session_len>3` & `diversity_low`	Die Tagung	re-rank с MMR	min 3 Kategorien	serendipnost
`uplift_push≥τ`	offery	Persönlicher Push	Do-Not-Disturb, zhaloby≤Kh	Effekte, nicht CTR

13) Pseudocode (Skizze)

A. Hybrid recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling für Kreative

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnose und Überwachung

Qualität: NDCG/Recall @ k, eRPM, Abdeckung/Vielfalt, Kalibrierung.
Online: CTR/CTCVR, Einnahmen/Sitzung, Einbehaltung, Beschwerden/Abmeldungen, Latency/Timeout.
Drift: PSI/KL nach Schlüsselfehlern, oflayn↔onlayn-Korrelationsabfall.
Einschränkungen: Quotenausführung/Diversity, Schläge in RG-Filter, Frequenzkappen.
Runibuki: recall degradation (ANN drop), Zunahme der Beschwerden, Anstieg der Timeouts, Notfall-Folback (popular-safe).

15) Häufige Fehler

Optimierung der „rohen CTR“ anstelle des Inkrements/Werts.
Keine Re-Ranking-Schicht → spärliche Vielfalt, „Sehtunnel“.
Licks aus der Zukunft, TZ-Mix, unkoordinierte Signaldefinitionen.
Das Fehlen von Kalibrierungen und Schwellenwerten „verdirbt“ → das Budget und die Frequenzabdeckungen.
Ignorieren RG/Ethik und fairness → Beschwerden, Risiken, regulatorische Probleme.
Nesynhron online/offline fich → ein Fehler in der Produktion.

16) Checkliste vor Personalisierung Release

Modelldatenblatt (Ziele, Einschränkungen, Kennzahlen, Besitzer, Versionen)
Recall/Rank/Re-rank sind verteilt; ANN und Cashes werden aufgewärmt
PIT-Daten und Kalibrierung, Offline-Benchmarks (NDCG/PR-AUC) bestanden
A/B-Design und Guardrails; decision-ready report (Wirkung und Risiken)
Einschränkungen: RG/Frequenz/Vielfalt/Quoten - umgesetzt und überwacht
Beobachtbarkeit, Alerts, „Stop-Wasserhahn“, Folbacks (popular-safe)
Dokumentation und Runybuks, Plan für inkrementelle Verbesserungen

Summe

Personalisierungsmodelle sind nur als Policy-Aware-System wirksam: Rich Data und Embeddings → ein Recall/Rank/Re-Rank-Hybrid → Banditen/RL für die Online-Anpassung → Mehrzweckziele unter strengen Einschränkungen und Ethik → disziplinierte MLOps und Überwachung. Eine solche Kontur gibt nicht nur „Empfehlungen“, sondern überschaubare Lösungen, die ROMI, LTV und Zufriedenheit steigern - sicher, transparent und reproduzierbar.

Modelle der Personalisierung

Modelle zur Personalisierung

Online

Entscheidungstabelle (Skizze)

B. Thompson Sampling für Kreative

Summe

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet