Modele de personalizare

Personalizarea este un sistem în care modelele de → a datelor → afișa politica → acțiunea → feedback-ul. Scopul este de a maximiza valoarea incrementală (venit/retenție/satisfacție) în timp ce îndeplinesc constrângeri (etică/RG, capace de frecvență, diversitate, prospețime, SLA).

1) Date și vizualizări

Materii prime: evenimente (vizualizări/clicuri/jocuri/achiziții/depozite), catalog de conținut (atribute), profiluri de utilizator, context (timp/geo/dispozitiv/canal), semnale de calitate (bot/fraudă).

Fici:

Utilizator: RFM, preferințele categoriei, sensibilitatea prețurilor, momentul zilei, dispozitivul.
Postul: gen/categorie, studio/furnizor, limbă, preț/volatilitate, „prospețime”.
Context: dow/hod, promo/events, session, login channel.
Embeddings: spații de colaborare utilizator/element (MF/Word2Vec2Rec/transformatoare), multimodale (text/imagini).
Calitate: punct-in-time (fără fețe), UTC-time, idempotența evenimentelor, PII mascare.

2) Paradigme de bază

1. Bazat pe conținut - proximitate în funcție de atributele adresei și profilul utilizatorului.
2. Filtrarea colaborativă (CF) - utilizatori/ayteme similare bazate pe semnale de interacțiune.
3. Factorizare matrice/încorporări - factori ascunși, dot-produs/MLP pentru scor.
4. Learning-to-Rank (LTR) - creșterea gradientului/rețele neuronale pentru listele de clasificare (pairwise/listwise).
5. Re-clasificarea stratului - post-procesare, luând în considerare diversificarea/noutatea/restricțiile.
6. Bandiți contextuali - învățare online cu explorare-exploatare.
7. RL/seq-recomandări - traseu/optimizare sesiune (multi-pas de atribuire).

3) Conductă de decizie

1. Rechemare (selecție rapidă a candidaților, 200-5k): ANN prin încorporări, regulă-bază/categorie, popularitate.
2. Clasament (punctaj exact, 20-200): LTR/MLP cu caracteristici bogate.
3. Re-rank/Policy (Fin. list, 5-30): optimizare multifuncțională + constrângeri și diversificare.
4. Acțiune: show/push/e-mail/vitrină personală cu gură de protecție și un „ceas liniștit”.
5. Feedback: semnale implicite/explicite → recalificare/actualizare bandit.

4) Obiective și limitări multifuncționale

Obiective: CTR/CTCVR, retentie, venituri, marja, LTV, satisfactie, viteza.
Restricții: frecvență de contact, RG/conformitate, varietate de categorii, cote de marcă/furnizor, corectitudine.

Formulare:

[
\ max\sum _ i w_i\cdot\text {Obiectiv} _ i\quad
\ text {s. t. }\text {caps, RG, diversitate, SLA}
]

Practică: re-clasificarea conștientă de politici (a se vedea § 7), unde viteza este combinată cu regulile.

5) Pornire la rece și date mici

Utilizatori noi: popularitate după segment/canal/geo, conținut bazat pe chestionar/primul clic, bandit cu inteligență largă.
Noi aitemuri: încorporări de conținut (text/taguri), metadate, „look-alike” de către furnizor/gen.
Puține împușcături: transfer încorporat/turn comun.

6) Scoring metrics

Offline

Clasificare/clasificare: ASC/PR-ASC, NDCG @ k, MAP, Recall @ k.
Afaceri: eCPM/eRPM, venituri preconizate/marjă, proxy LTV.
Multifuncțional: valori ponderate (de ex. NDCG cu câștig = valoare).
Calibrare: Brier, ECE (pentru probabilități).
Списки: acoperire/diversitate/noutate/serendipitate.

Online

Teste A/B și bandit: CTR, CTCVR, venituri/sesiune, retenție D1/D7, reclamații/dezabonare (parapete), latență/SLA.
Increment: lift%, CUPED/cvasi-experimente în randomizare complexă.

7) Diversificarea și re-clasificarea conștientă de politici

MMR/PM-2/xQuAD: echilibrul „relevanței × noutății”.
Cote: min/max de gen/furnizor/categoria de risc.
Corectitudine: Limitați acțiunile pentru a evita înclinarea sistematică.

Exemplu de notare:

[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Valoare} -\gamma\cdot\text {Oboseală} +\delta\cdot\text {Noutate}
]

Histerezis: nu „clipi” liste; Actualizați elementele cu inerție.

8) Bandiți contextuali și RL-uri

Bandiți (LinUCB, Thompson): învățare rapidă online, control al explorării. Bun pentru prima poziție/creativ/canal.
Bandiți în cascadă: optimizare de top-k.
RL (DQN/Policy Gradient/SlateQ): personalizarea sesiunii, optimizarea recompensei în mai multe etape (retur/venituri/sesiune lungă).
Siguranță: evaluare off-policy (IPS/DR), simulatoare, capace pentru cercetare, RL în condiții de siguranță.

9) Personalizare pentru efect cauzal

Modele Uplift: cine trebuie atins (persuadables), Qini/AUUC, uplift @ k.
Clasament conștient de tratament: Includeți probabilitatea de creștere în loc de CTR brut.
Guardrails: Nu-perturba segmente, reguli RG, corectitudine.

10) Arhitectură și MLOps

Feature Store: paritate online/offline, punct în timp, TTL pentru funcțiile de sesiune.
Servicii candidate: ANN/FAISS/ScaNN, caching/sharding pe segment.
Ranker: arhitecturi de creștere a gradientului/MLP/turn, calibrare.
Politica/Re-rank: reguli/restricții, diversificare, strat de bandit.
Orchestratie: solicitare idempotenta, p95 latenta ≤ 100-300 ms, DLQ/retray.
Observabilitate: corelație _ id trace, PSI, măsurători de calitate, stopcock.

11) Securitate, confidențialitate, etică

Minimizare PII: tokenizare, RLS/CLS, mascare.
Explicabilitate: caracteristici de top/motive pentru afișare; calea de atac.
Etică/RG: capace de frecvență, „ore liniștite”, interdicții privind ofertele agresive din grupurile vulnerabile.
Conformitate: audit de decizii/jurnale, versiuni de politici și creativi.

12) Pașapoarte și tabele de decizii

Certificat de referință (exemplu)

ID/versiune: 'REC _ HYBRID _ RANK _ v5'

Rechemare: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (caracteristici: utilizator RFM, element meta, context)

Re-rank: PM-2 (diversitate), cote de brand, filtre RG, capace de frecvență

Obiective/Valori: NDCG @ 10, eRPM, zhaloby≤Kh, latență p95≤150 ms

A/B: 14 zile, CUPED; guardrails - RG/livrabilitate

Proprietari/Logare/Runibook

Tabelul decizional

Condiție	Context	Acțiune	Restricții	Comentariu
'now _ user' & 'low _ history'	onboarding	popular @ segment + semințe bazate pe conținut	capace de frecvență, RG	pornire rece
'session _ len> 3' & 'diversity _ low'	sesiune	re-rank с RMM	min 3 categorii	serendipitate
„uplift_push≥τ”	oferte	împingere personală	Nu deranjați, zhaloby≤Kh	efecte, nu CTR

13) Pseudo Code (schiță)

A. Rechemare hibridă + rang + re-rang

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Prelevare de probe pentru creativi

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnostic și monitorizare

Calitate: NDCG/Recall @ k, eRPM, acoperire/diversitate, calibrare.
Online: CTR/CTCVR, venituri/sesiune, retinere, reclamatii/dezabonare, latenta/timeout.
Drift: PSI/KL după caracteristici cheie, oflayn↔onlayn scădere a corelației.
Restricții: îndeplinirea cotelor/diversității, impactul asupra filtrelor RG, capace de frecvență.
Runibooks: rechemare degradare (ANN picătură), creșterea plângerilor, creșterea timpului, folback de urgență (popular-safe).

15) Erori frecvente

Optimizarea „CTR brut” în loc de creștere/valoare.
Nu există nici un strat de re-ranking → varietate redusă, „tunel de viziune”.
Fețe din viitor, amestecare TZ, definiții inconsecvente ale semnalului.
Lipsa calibrării și a pragurilor → bugetul și plafoanele de frecvență „se deteriorează”.
Ignorați RG/etică și corectitudine → plângeri, riscuri, probleme de reglementare.
Caracteristica non-sincron online/offline → un eșec în vânzări.

16) Lista de verificare a personalizării înainte de lansare

Pașaport model (obiective, limitări, valori, proprietari, versiuni)
Rechemare/Rang/Re-rank postat; ANN și cache încălzite
Caracteristicile PIT și calibrarea, reperele offline (NDCG/PR-ASC) au trecut
Design A/B și parapeți; raport gata de decizie
RG/Frecvență/Diversitate/Constrângeri de cote - implementate și monitorizate
Observabilitate, alerte, stop-macara, folback-uri (populare-safe)
Documentație și Runibooks, Planul de îmbunătățire incrementală

Total

Modelele de personalizare sunt eficiente doar ca sistem conștient de politici: date bogate și încorporări → un Recall/Rank/Re-rank hibrid → bandiți/RL pentru adaptare online → obiective multifuncționale pentru restricții stricte și etică → MLOps disciplinate și monitorizare. Un astfel de circuit oferă nu numai „recomandări”, dar soluții ușor de gestionat care cresc ROMI, LTV și satisfacție - în condiții de siguranță, transparent și reproductibil.

Modele de personalizare