Modelli di personalizzazione

La personalizzazione è un sistema in cui i dati del modello , il criterio di visualizzazione, l'azione e il feedback. L'obiettivo è massimizzare il valore incrementale (reddito/trattenimento/soddisfazione) rispettando i limiti (etica/RG, gap di frequenza, varietà, freschezza, SLA).

1) Dati e viste

Materie prime: eventi (visualizzazioni/clic/giochi/acquisti/depositi), directory di contenuti (attributi), profili utente, contesto (tempo/geo/dispositivo/canale), segnali di qualità (bot/frod).

Ficci:

User: RFM, preferenze di categoria, sensibilità dei prezzi, orari del giorno, dispositivo.
Item: genere/categoria, studio/provider, lingua, prezzo/volatilità, freschezza.
Text: dow/hod, promo/ivent, sessione, canale di accesso.
Embedding: spazi congiunti user/item (MF/Word2Vec2Rec/trasformers), multimodali (testo/immagini).
Qualità: point-in-time (senza lic), tempo UTC, idemoticità degli eventi, maschera PII.

2) Paradigmi di base

1. Content-based - Prossimità di item e profilo utente.
2. Filtraggio collaudato (CF) - Utenti/item simili in base ai segnali di interazione.
3. Fattorizzazione a matrice/embedding - fattori nascosti, dot-product/MLP per score.
4. Learning-to-Rank (LTR) - Boosting/neurosetti gradiente per classificare gli elenchi (pairwise/listwise).
5. Il livello re-ranking - post-processing in base alla diversificazione/novità/vincoli.
6. I bandi contestuali sono la formazione online con esplorazione.
7. Raccomandazioni RL/seq - Ottimizzazione del percorso/sessione (premio multi-aga).

3) Catena decisionale

1. Recall (selezione rapida dei candidati, 200-5k): ANN per embedding, regole-bace/categoria, popolarità.
2. Rank (precisione, 20-200) è un LTR/MLP ricco di fiocchi.
3. Re-rank/Policy (fine. elenco, 5-30): ottimizzazione a più scopi + limitazioni e diversificazione.
4. Action: visualizza/spugna/posta/vetrina personale con caps e orologi silenziosi.
5. Feedback: inserit/explicit segnali di ricollocamento/gang-aggiornamento.

4) Obiettivi e vincoli multifunzionali

Obiettivi: CTR/CTCVR, ritenzione, ricavi, margine, LTV, soddisfazione, velocità.
Limitazioni: frequenza dei contatti, RG/compilation, varietà di categorie, quote di marchi/provider, fairness.

Formulazione:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Pratica: fare il policy-aware re-ranking (vedi l'articolo 7) dove la scansione è unita alle regole.

5) Partenza fredda e piccoli dati

Nuovi utenti: popolarità segmenti/canali/geo, contenuti based su questionario/primo clic, bandito con ampia ricognizione.
I nuovi item includono i contenuti embedding (testo/tag), i metadati, «look-alike» per il provider/genere.
Few-shot - Trasferimento di ambedding/multi-sfide (shared tower).

6) Metriche di valutazione

Offline

Classificazione/classificazione: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Affari: eCPM/eRPM, profitti/margini previsti, LTV proxy.
Polifunzione: metriche ponderate (ad esempio NDCG con gain = valore).
Calibrazione: Brier, ECE (probabile).
Списки: coverage/diversity/novelty/serendipity.

Online

A/B e test in gang: CTR, CTCVR, reddito/sessione, ritenzione D1/D7, reclamo/dimissione (guardia), latency/SLA.
Accantonamento: lift%, CUPED/quasi-esportazioni in caso di randomizzazione complessa.

7) Diversificazione e policy-aware re-ranking

bilanciamento «rilevanza x novità».
Quote: min/max per generi/provider/categorie di rischio.
Fairness: limitazione delle quote per evitare distorsioni sistematiche.

Esempio di scansione:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Isteresi: non «lampeggiare» con le liste; aggiornare le posizioni con inerzia.

8) Bandi contestuali e RL

Bandi (LinUCB, Thompson): veloce online-learn, controllo esplorazione. Bene per la prima posizione/creativo/canale.
Bandi a cascata: ottimizzazione top-k.
RL (DQN/Policy Gradient/SlateQ) - Personalizzazione delle sessioni, ottimizzazione della ricompensa multipla (ritorno/ricavato/sessione lunga).
Sicurezza: valutazione dei polizze off (IPS/DR), simulatori, gap di ricerca, safe RL.

9) Personalizzazione per effetto causale

Modelli Uplift: chi toccare (persuadable), Qini/AUUC, uplift @ k.
Classificazione Treatment-Aware: inclusa la probabilità di includere la CTR cruda.
Garrails: segmenti Do-Not-Disturb, regole RG, fairness.

10) Architettura e MLOs

Feature Store: parità online/offline, point-in-time, TTL per le fiffe di sessione.
Candidate services: ANN/FAISS/ScaNN, cache/charding per segmenti.
Ranker: busting gradiente/MLP/tower architetture, calibrazione.
Policy/Re-rank: regole/restrizioni, diversificazione, strato di gang.
Orchestrazione: idampotenza delle richieste, p95 latency, 100-300 ms, DLQ/retrai.
Osservabilità: traccia «correlation _ id», fich-drift (PSI), metriche di qualità, «rubinetto di stop».

11) Sicurezza, privacy, etica

Riduzioni PII: tornitura, RLS/CLS, occultamento.
Spiegazione: top-feates/motivi di visualizzazione; Il percorso dell'appello.
Etica/RG: cappe di frequenza, orologi silenziosi, divieto di offesa aggressiva nei gruppi vulnerabili.
La compilazione è un controllo delle soluzioni, delle versioni delle regole e dei creativi.

12) Passaporti e decimazione tavoli

Passaporto del raccomandatore (esempio)

ID/versione: 'REX _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), quote di marchi, filtri RG, caps di frequenza

Obiettivi/metriche: NDCG @ 10, eRPM, zhaloby≤Kh, latency p95≤150

A/B: 14 giorni, CUPED; guardrails - RG/consegna

Proprietari/logici/runibook

Definizione tabella (sketch)

Condizione	Contesto	Azione	Vincoli	Commento
`new_user` & `low_history`	onboording	popular@segment + content-based seed	caps frequenza, RG	partenza fredda
`session_len>3` & `diversity_low`	sessione	re-rank с MMR	min 3 categorie	serendipalità
`uplift_push≥τ`	Offer	Tasca personale	Do-Not-Disturb, zhaloby≤Kh	effetti, non CTR

13) Pseudo-codice (sketch)

A. Ibrido recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Tompson Sampling per creativi

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnostica e monitoraggio

Qualità: NDCG/Recall @ k, eRPM, coverage/divisity, calibrazione.
Online: CTR/CTCVR, reddito/sessione, trattenimento, reclamo/dimissione, latency/timeout.
La deriva è PSI/KL per i fischi chiave, il calo della correlazione.
Vincoli: esecuzione di quote/diversità, colpi nei filtri RG, caps di frequenza.
Runibuki: degrado recall (calo dell'ANN), aumento delle denunce, aumento dei timeout, folback di emergenza (popolare-safe).

15) Errori frequenti

Ottimizzazione del «CTR grezzo» al posto dell'incorporazione/valore.
Non c'è uno strato di re-ranking, una scarsa varietà, «tunnel della vista».
Legami dal futuro, miscelazione TZ, definizioni di segnali incoerenti.
La mancanza di calibrazione e di soglie di → sta rovinando il budget e i caps di frequenza.
Ignora RG/etica e fairness lamentele, rischi, problemi regolatori.
Nesinhon online/offline Fich ha fallito in vendita.

16) Foglio di assegno prima del rilascio della personalizzazione

Passaporto modello (obiettivi, vincoli, metriche, proprietari, versioni)
Recall/Rank/Re-rank sono esplosi; ANN e caschi riscaldati
Fici PIT e calibrazione, benchmark offline (NDCG/PR-AUC) superati
Design A/B e guardrail; Report decection-ready (effetto e rischi)
Vincoli: RG/frequenza/diversity/quote - incorporati e monitor
Osservabilità, alert, «stop-rubinetto», folback (popolare-safe)
Documentazione e runibuki, piano di miglioramento incrementale

Totale

I modelli di personalizzazione sono efficaci solo come sistema policy-aware: ricco di dati ed embedding, ibrido Recall/Rank/Re-rank, bandi/RL per adattamento online, con obiettivi polifunzionali sotto restrizioni e etiche severe, disciplinato da MLOs e monitoraggio. Questo tracciato non fornisce solo «raccomandazioni» e soluzioni gestite che migliorano ROMI, LTV e la soddisfazione sono sicure, trasparenti e riproducibili.

Modelli di personalizzazione