GH GambleHub

Modelle der Personalisierung

Modelle zur Personalisierung

Personalisierung ist ein System, in dem Daten → Modelle → Darstellungsrichtlinien → Aktion → Feedback. Ziel ist es, den inkrementellen Wert (Umsatz/Retention/Zufriedenheit) zu maximieren, während die Einschränkungen (Ethik/RG, Frequenzkappen, Vielfalt, Frische, SLA) eingehalten werden.

1) Daten und Darstellungen

Der Rohstoff: die Ereignisse (prosmotry/kliki/igry/pokupki/deposity), den Inhaltskatalog (die Attribute), die Anwenderprofile, den Kontext (wremja/geo/ustrojstwo/kanal), die Signale der Qualität (den Kahn/frod).

Fichy:
  • Benutzer: RFM, Kategorienpräferenzen, Preissensitivität, Tageszeit, Gerät.
  • Artikel: Genre/Kategorie, Studio/Anbieter, Sprache, Preis/Volatilität, „Frische“.
  • Kontext: dow/hod, Promo/Events, Session, Entry Channel.
  • Embeddings: user/item collaborative spaces (MF/Word2Vec2Rec/transformers), multimodal (Text/Bilder).
  • Qualität: Point-in-Time (ohne Licks), UTC-Zeit, Ereignis-Idempotenz, PII-Maskierung.

2) Grundlegende Paradigmen

1. Content-based - Nähe durch Aitema-Merkmale und Benutzerprofil.
2. Kollaborative Filterung (CF) - Ähnliche Benutzer/Items durch Interaktionssignale.
3. Matrix Factorization/Embedding - versteckte Faktoren, dot-product/MLP für Score.
4. Learning-to-Rank (LTR) - Gradient-Boost/neuronale Netze für das Ranking von Listen (pairwise/listwise).
5. Re-Ranking der Schicht - Post-Processing unter Berücksichtigung von Diversifikation/Neuheit/Einschränkungen.
6. Kontext-Banditen - Online-Training mit Exploration-Exploitation.
7. RL/seq-Empfehlungen - Pfad/Sitzungsoptimierung (mehrstufige Belohnung).

3) Entscheidungspipeline

1. Recall (schnelle Kandidatenauswahl, 200-5k): ANN für Embeddings, Regelfall/Kategorie, Popularität.
2. Rang (exakter Scoring, 20-200): LTR/MLP mit reichen Fiches.
3. Re-rank/Policy (fin. Liste, 5-30): Mehrzweck-Optimierung + Einschränkungen und Diversifikation.
4. Aktion: Display/Push/E-Mail/Personal Showcase mit Mundschutz und „Silent Clock“.
5. Feedback: implicit/explicit Signale → Umschulung/Bandit-update.

4) Mehrzweckziele und -beschränkungen

Ziele: CTR/CTCVR, Retention, Umsatz, Marge, LTV, Zufriedenheit, Geschwindigkeit.
Einschränkungen: Kontakthäufigkeit, RG/Compliance, Kategorienvielfalt, Marken-/Anbieterquoten, Fairness.

Wortlaut:
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Praxis: Machen Sie ein Policy-Aware-Re-Ranking (siehe § 7), bei dem Score mit Regeln kombiniert wird.

5) Kaltstart und kleine Daten

Neue Nutzer: Popularität nach Segment/Kanal/Geo, inhaltsbasiert nach Fragebogen/erstem Klick, Bandit mit breiter Intelligenz.
Neue Themen: Content-Embeddings (Text/Tags), Metadaten, „look-alike“ nach Anbieter/Genre.
Few-shot: Übertragung von Embeddings/Multi-Task (Shared Tower).

6) Bewertungsmetriken

Offline

Klassifizierung/Ranking: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Geschäft: eCPM/eRPM, erwartete Einnahmen/Margen, LTV-Proxy.
Mehrzweck: gewichtete Metriken (z.B. NDCG mit gain = Wert).
Kalibrierung: Brier, ECE (für Wahrscheinlichkeiten).
Списки: coverage/diversity/novelty/serendipity.

Online

A/B und Banditentests: CTR, CTCVR, Einkommen/Sitzung, D1/D7, Beschwerden/Abmeldungen (guardrails), Latency/SLA.
Inkrement: Lift%, CUPED/Quasi-Experimente bei komplexer Randomisierung.

7) Diversifizierung und Policy-Aware Re-Ranking

MMR/PM-2/xQuAD: Balance von „Relevanz × Neuheit“.
Quoten: min/max nach Genre/Anbieter/Risikokategorien.
Fairness: Begrenzung der Anteile, um systematische Verzerrungen zu vermeiden.

Beispiel Scoring:
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Hysterese: nicht „blinken“ Listen; Aktualisieren Sie Positionen mit Trägheit.

8) Kontext Banditen und RL

Banditen (LinUCB, Thompson): schnelles Online-Lernen, Explorationskontrolle. Gut für die erste Position/Creative/Channel.
Kaskadierende Banditen: Top-k-Optimierung.
RL (DQN/Policy Gradient/SlateQ): Session-Personalisierung, Multi-Step-Award-Optimierung (Return/Revenue/Long Session).
Sicherheit: Off-Policy-Score (IPS/DR), Simulatoren, Forschungskappen, Safe RL.

9) Personalisierung unter kausaler Wirkung

Uplift-Modelle: wen man anfassen sollte (persuadables), Qini/AUUC, uplift @ k.
Treatment-aware-Ranking: Beinhalten Sie die Inkrementwahrscheinlichkeit anstelle der „rohen“ CTR.
Guardrails: Do-Not-Disturb-Segmente, RG-Regeln, Fairness.

10) Architektur und MLOps

Feature Store: Online-/Offline-Parität, Point-in-Time, TTL für Session-Fich.
Kandidatendienste: ANN/FAISS/ScaNN, Caching/Sharding nach Segmenten.
Ranker: gradijentnyj бустинг/MLP/Tower-архитектуры, die Kalibrierung.
Policy/Re-rank: Regeln/Einschränkungen, Diversifikation, Banditenschicht.
Orchestrierung: Idempotenz von Anfragen, p95 Latenz ≤ 100-300 ms, DLQ/Retrays.
Beobachtbarkeit: Trace' correlation _ id', fich-drift (PSI), Qualitätsmetriken, „Stop-Crane“.

11) Sicherheit, Privatsphäre, Ethik

PII-Minimierung: Tokenisierung, RLS/CLS, Maskierung.
Erklärbarkeit: Top-Features/Showgründe; Weg der Berufung.
Ethik/RG: Frequenzkappen, „stille Stunden“, Verbote aggressiver Angebote bei vulnerablen Gruppen.
Compliance: Prüfung von Entscheidungen/Protokollen, Versionen von Richtlinien und Kreativen.

12) Pässe und Entscheidungstabellen

Empfehlungspass (Beispiel)

ID/Version: „REC _ HYBRID _ RANK _ v5“

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-Rank: PM-2 (Vielfalt), Markenkontingente, RG-Filter, Frequenzkappen

Ziele/Metriken: NDCG @ 10, eRPM, zhaloby≤Kh, Latenz p95≤150 ms

A/W: 14 Tage, CUPED; guardrails - RG/Lieferbarkeit

Besitzer/Logging/Runybook

Entscheidungstabelle (Skizze)

BedingungDer KontextDie HandlungDie BeschränkungenDer Kommentar
`new_user` & `low_history`onbordingpopular@segment + content-based seedFrequenzabdeckungen, RGKaltstart
`session_len>3` & `diversity_low`Die Tagungre-rank с MMRmin 3 Kategorienserendipnost
`uplift_push≥τ`offeryPersönlicher PushDo-Not-Disturb, zhaloby≤KhEffekte, nicht CTR

13) Pseudocode (Skizze)

A. Hybrid recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling für Kreative

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnose und Überwachung

Qualität: NDCG/Recall @ k, eRPM, Abdeckung/Vielfalt, Kalibrierung.
Online: CTR/CTCVR, Einnahmen/Sitzung, Einbehaltung, Beschwerden/Abmeldungen, Latency/Timeout.
Drift: PSI/KL nach Schlüsselfehlern, oflayn↔onlayn-Korrelationsabfall.
Einschränkungen: Quotenausführung/Diversity, Schläge in RG-Filter, Frequenzkappen.
Runibuki: recall degradation (ANN drop), Zunahme der Beschwerden, Anstieg der Timeouts, Notfall-Folback (popular-safe).

15) Häufige Fehler

Optimierung der „rohen CTR“ anstelle des Inkrements/Werts.
Keine Re-Ranking-Schicht → spärliche Vielfalt, „Sehtunnel“.
Licks aus der Zukunft, TZ-Mix, unkoordinierte Signaldefinitionen.
Das Fehlen von Kalibrierungen und Schwellenwerten „verdirbt“ → das Budget und die Frequenzabdeckungen.
Ignorieren RG/Ethik und fairness → Beschwerden, Risiken, regulatorische Probleme.
Nesynhron online/offline fich → ein Fehler in der Produktion.

16) Checkliste vor Personalisierung Release

  • Modelldatenblatt (Ziele, Einschränkungen, Kennzahlen, Besitzer, Versionen)
  • Recall/Rank/Re-rank sind verteilt; ANN und Cashes werden aufgewärmt
  • PIT-Daten und Kalibrierung, Offline-Benchmarks (NDCG/PR-AUC) bestanden
  • A/B-Design und Guardrails; decision-ready report (Wirkung und Risiken)
  • Einschränkungen: RG/Frequenz/Vielfalt/Quoten - umgesetzt und überwacht
  • Beobachtbarkeit, Alerts, „Stop-Wasserhahn“, Folbacks (popular-safe)
  • Dokumentation und Runybuks, Plan für inkrementelle Verbesserungen

Summe

Personalisierungsmodelle sind nur als Policy-Aware-System wirksam: Rich Data und Embeddings → ein Recall/Rank/Re-Rank-Hybrid → Banditen/RL für die Online-Anpassung → Mehrzweckziele unter strengen Einschränkungen und Ethik → disziplinierte MLOps und Überwachung. Eine solche Kontur gibt nicht nur „Empfehlungen“, sondern überschaubare Lösungen, die ROMI, LTV und Zufriedenheit steigern - sicher, transparent und reproduzierbar.

Contact

Kontakt aufnehmen

Kontaktieren Sie uns bei Fragen oder Support.Wir helfen Ihnen jederzeit gerne!

Telegram
@Gamble_GC
Integration starten

Email ist erforderlich. Telegram oder WhatsApp – optional.

Ihr Name optional
Email optional
Betreff optional
Nachricht optional
Telegram optional
@
Wenn Sie Telegram angeben – antworten wir zusätzlich dort.
WhatsApp optional
Format: +Ländercode und Nummer (z. B. +49XXXXXXXXX).

Mit dem Klicken des Buttons stimmen Sie der Datenverarbeitung zu.