Modele de personalizare
Modele de personalizare
Personalizarea este un sistem în care modelele de → a datelor → afișa politica → acțiunea → feedback-ul. Scopul este de a maximiza valoarea incrementală (venit/retenție/satisfacție) în timp ce îndeplinesc constrângeri (etică/RG, capace de frecvență, diversitate, prospețime, SLA).
1) Date și vizualizări
Materii prime: evenimente (vizualizări/clicuri/jocuri/achiziții/depozite), catalog de conținut (atribute), profiluri de utilizator, context (timp/geo/dispozitiv/canal), semnale de calitate (bot/fraudă).
Fici:- Utilizator: RFM, preferințele categoriei, sensibilitatea prețurilor, momentul zilei, dispozitivul.
- Postul: gen/categorie, studio/furnizor, limbă, preț/volatilitate, „prospețime”.
- Context: dow/hod, promo/events, session, login channel.
- Embeddings: spații de colaborare utilizator/element (MF/Word2Vec2Rec/transformatoare), multimodale (text/imagini).
- Calitate: punct-in-time (fără fețe), UTC-time, idempotența evenimentelor, PII mascare.
2) Paradigme de bază
1. Bazat pe conținut - proximitate în funcție de atributele adresei și profilul utilizatorului.
2. Filtrarea colaborativă (CF) - utilizatori/ayteme similare bazate pe semnale de interacțiune.
3. Factorizare matrice/încorporări - factori ascunși, dot-produs/MLP pentru scor.
4. Learning-to-Rank (LTR) - creșterea gradientului/rețele neuronale pentru listele de clasificare (pairwise/listwise).
5. Re-clasificarea stratului - post-procesare, luând în considerare diversificarea/noutatea/restricțiile.
6. Bandiți contextuali - învățare online cu explorare-exploatare.
7. RL/seq-recomandări - traseu/optimizare sesiune (multi-pas de atribuire).
3) Conductă de decizie
1. Rechemare (selecție rapidă a candidaților, 200-5k): ANN prin încorporări, regulă-bază/categorie, popularitate.
2. Clasament (punctaj exact, 20-200): LTR/MLP cu caracteristici bogate.
3. Re-rank/Policy (Fin. list, 5-30): optimizare multifuncțională + constrângeri și diversificare.
4. Acțiune: show/push/e-mail/vitrină personală cu gură de protecție și un „ceas liniștit”.
5. Feedback: semnale implicite/explicite → recalificare/actualizare bandit.
4) Obiective și limitări multifuncționale
Obiective: CTR/CTCVR, retentie, venituri, marja, LTV, satisfactie, viteza.
Restricții: frecvență de contact, RG/conformitate, varietate de categorii, cote de marcă/furnizor, corectitudine.
[
\ max\sum _ i w_i\cdot\text {Obiectiv} _ i\quad
\ text {s. t. }\text {caps, RG, diversitate, SLA}
]
Practică: re-clasificarea conștientă de politici (a se vedea § 7), unde viteza este combinată cu regulile.
5) Pornire la rece și date mici
Utilizatori noi: popularitate după segment/canal/geo, conținut bazat pe chestionar/primul clic, bandit cu inteligență largă.
Noi aitemuri: încorporări de conținut (text/taguri), metadate, „look-alike” de către furnizor/gen.
Puține împușcături: transfer încorporat/turn comun.
6) Scoring metrics
Offline
Clasificare/clasificare: ASC/PR-ASC, NDCG @ k, MAP, Recall @ k.
Afaceri: eCPM/eRPM, venituri preconizate/marjă, proxy LTV.
Multifuncțional: valori ponderate (de ex. NDCG cu câștig = valoare).
Calibrare: Brier, ECE (pentru probabilități).
Списки: acoperire/diversitate/noutate/serendipitate.
Online
Teste A/B și bandit: CTR, CTCVR, venituri/sesiune, retenție D1/D7, reclamații/dezabonare (parapete), latență/SLA.
Increment: lift%, CUPED/cvasi-experimente în randomizare complexă.
7) Diversificarea și re-clasificarea conștientă de politici
MMR/PM-2/xQuAD: echilibrul „relevanței × noutății”.
Cote: min/max de gen/furnizor/categoria de risc.
Corectitudine: Limitați acțiunile pentru a evita înclinarea sistematică.
[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Valoare} -\gamma\cdot\text {Oboseală} +\delta\cdot\text {Noutate}
]
Histerezis: nu „clipi” liste; Actualizați elementele cu inerție.
8) Bandiți contextuali și RL-uri
Bandiți (LinUCB, Thompson): învățare rapidă online, control al explorării. Bun pentru prima poziție/creativ/canal.
Bandiți în cascadă: optimizare de top-k.
RL (DQN/Policy Gradient/SlateQ): personalizarea sesiunii, optimizarea recompensei în mai multe etape (retur/venituri/sesiune lungă).
Siguranță: evaluare off-policy (IPS/DR), simulatoare, capace pentru cercetare, RL în condiții de siguranță.
9) Personalizare pentru efect cauzal
Modele Uplift: cine trebuie atins (persuadables), Qini/AUUC, uplift @ k.
Clasament conștient de tratament: Includeți probabilitatea de creștere în loc de CTR brut.
Guardrails: Nu-perturba segmente, reguli RG, corectitudine.
10) Arhitectură și MLOps
Feature Store: paritate online/offline, punct în timp, TTL pentru funcțiile de sesiune.
Servicii candidate: ANN/FAISS/ScaNN, caching/sharding pe segment.
Ranker: arhitecturi de creștere a gradientului/MLP/turn, calibrare.
Politica/Re-rank: reguli/restricții, diversificare, strat de bandit.
Orchestratie: solicitare idempotenta, p95 latenta ≤ 100-300 ms, DLQ/retray.
Observabilitate: corelație _ id trace, PSI, măsurători de calitate, stopcock.
11) Securitate, confidențialitate, etică
Minimizare PII: tokenizare, RLS/CLS, mascare.
Explicabilitate: caracteristici de top/motive pentru afișare; calea de atac.
Etică/RG: capace de frecvență, „ore liniștite”, interdicții privind ofertele agresive din grupurile vulnerabile.
Conformitate: audit de decizii/jurnale, versiuni de politici și creativi.
12) Pașapoarte și tabele de decizii
Certificat de referință (exemplu)
ID/versiune: 'REC _ HYBRID _ RANK _ v5'
Rechemare: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (caracteristici: utilizator RFM, element meta, context)
Re-rank: PM-2 (diversitate), cote de brand, filtre RG, capace de frecvență
Obiective/Valori: NDCG @ 10, eRPM, zhaloby≤Kh, latență p95≤150 ms
A/B: 14 zile, CUPED; guardrails - RG/livrabilitate
Proprietari/Logare/Runibook
Tabelul decizional
13) Pseudo Code (schiță)
A. Rechemare hibridă + rang + re-rang
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Prelevare de probe pentru creativi
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnostic și monitorizare
Calitate: NDCG/Recall @ k, eRPM, acoperire/diversitate, calibrare.
Online: CTR/CTCVR, venituri/sesiune, retinere, reclamatii/dezabonare, latenta/timeout.
Drift: PSI/KL după caracteristici cheie, oflayn↔onlayn scădere a corelației.
Restricții: îndeplinirea cotelor/diversității, impactul asupra filtrelor RG, capace de frecvență.
Runibooks: rechemare degradare (ANN picătură), creșterea plângerilor, creșterea timpului, folback de urgență (popular-safe).
15) Erori frecvente
Optimizarea „CTR brut” în loc de creștere/valoare.
Nu există nici un strat de re-ranking → varietate redusă, „tunel de viziune”.
Fețe din viitor, amestecare TZ, definiții inconsecvente ale semnalului.
Lipsa calibrării și a pragurilor → bugetul și plafoanele de frecvență „se deteriorează”.
Ignorați RG/etică și corectitudine → plângeri, riscuri, probleme de reglementare.
Caracteristica non-sincron online/offline → un eșec în vânzări.
16) Lista de verificare a personalizării înainte de lansare
- Pașaport model (obiective, limitări, valori, proprietari, versiuni)
- Rechemare/Rang/Re-rank postat; ANN și cache încălzite
- Caracteristicile PIT și calibrarea, reperele offline (NDCG/PR-ASC) au trecut
- Design A/B și parapeți; raport gata de decizie
- RG/Frecvență/Diversitate/Constrângeri de cote - implementate și monitorizate
- Observabilitate, alerte, stop-macara, folback-uri (populare-safe)
- Documentație și Runibooks, Planul de îmbunătățire incrementală
Total
Modelele de personalizare sunt eficiente doar ca sistem conștient de politici: date bogate și încorporări → un Recall/Rank/Re-rank hibrid → bandiți/RL pentru adaptare online → obiective multifuncționale pentru restricții stricte și etică → MLOps disciplinate și monitorizare. Un astfel de circuit oferă nu numai „recomandări”, dar soluții ușor de gestionat care cresc ROMI, LTV și satisfacție - în condiții de siguranță, transparent și reproductibil.