Μοντέλα εξατομίκευσης

Η εξατομίκευση είναι ένα σύστημα όπου τα μοντέλα → δεδομένων εμφανίζουν → πολιτική → δράση → ανατροφοδότηση. Στόχος είναι να μεγιστοποιηθεί η επαυξητική αξία (εισόδημα/διατήρηση/ικανοποίηση), ενώ παράλληλα να αντιμετωπιστούν οι περιορισμοί (δεοντολογία/RG, ανώτατα όρια συχνότητας, ποικιλομορφία, φρεσκάδα, SLA).

1) Δεδομένα και απόψεις

Πρώτες ύλες: εκδηλώσεις (προβολές/κλικ/παιχνίδια/αγορές/καταθέσεις), κατάλογος περιεχομένου (χαρακτηριστικά γνωρίσματα), προφίλ χρήστη, πλαίσιο (χρόνος/γεω/συσκευή/κανάλι), σήματα ποιότητας (bot/απάτη).

Fici:

Χρήστης: RFM, προτιμήσεις κατηγορίας, ευαισθησία τιμής, ώρα ημέρας, συσκευή.
Είδος/κατηγορία, στούντιο/πάροχος, γλώσσα, τιμή/μεταβλητότητα, «φρεσκάδα».
Πλαίσιο: dow/hod, promo/events, συνεδρία, κανάλι σύνδεσης.
Ενσωματώσεις: χώροι συνεργασίας χρήστη/αντικειμένου (MF/Word2Vec2Rec/μετασχηματιστές), πολυτροπικοί (κείμενο/εικόνες).
Ποιότητα: point-in-time (χωρίς πρόσωπα), UTC-time, idempotence of events, PII casking.

2) Βασικά παραδείγματα

1. Με βάση το περιεχόμενο - εγγύτητα σύμφωνα με τα χαρακτηριστικά της διεύθυνσης και του προφίλ χρήστη.
2. Συνεργατικό φιλτράρισμα (CF) - παρόμοιοι χρήστες/aytems με βάση σήματα αλληλεπίδρασης.
3. Παραγοντοποίηση/ενσωμάτωση μήτρας - κρυμμένοι παράγοντες, προϊόν τελείας/MLP για βαθμολογία.
4. Learning-to-Rank (LTR) - αναβάθμιση κλίσης/νευρικά δίκτυα για καταλόγους κατάταξης (κατά ζεύγη/listwise).
5. Επανακατάταξη του επιπέδου - μετεπεξεργασία, λαμβάνοντας υπόψη τη διαφοροποίηση/καινοτομία/περιορισμούς.
6. Ληστές πλαισίου - επιγραμμική μάθηση με εξερεύνηση-εκμετάλλευση.
7. RL/επόμενες συστάσεις - βελτιστοποίηση διαδρομής/συνεδρίας (βραβείο πολλαπλών σταδίων).

3) Δίαυλος λήψης αποφάσεων

1. Ανάκληση (ταχεία επιλογή υποψηφίων, 200-5k): ANN με ενσωμάτωση, βάση/κατηγορία κανόνων, δημοτικότητα.
2. Βαθμολογία (ακριβής βαθμολογία, 20-200): LTR/MLP με πλούσια χαρακτηριστικά.
3. Επανακατάταξη/Πολιτική (Fin. λίστα, 5-30): βελτιστοποίηση πολλαπλών σκοπών + περιορισμοί και διαφοροποίηση.
4. Δράση: εμφάνιση/ώθηση/e-mail/προσωπική βιτρίνα με φρουρούς στο στόμα και ένα «ήσυχο ρολόι».
5. Ανάδραση: έμμεσα/ρητά σήματα → επανεκπαίδευση/ενημέρωση ληστών.

4) Στόχοι και περιορισμοί πολλαπλών σκοπών

Στόχοι: CTR/CTCVR, παρακράτηση, έσοδα, περιθώριο κέρδους, LTV, ικανοποίηση, ταχύτητα.
Περιορισμοί: συχνότητα επαφής, RG/συμμόρφωση, ποικιλία κατηγοριών, ποσοστώσεις εμπορικού σήματος/παρόχου, δίκαιη μεταχείριση.

Διατύπωση:

[
\ max\sum _ i w_i\cdot\text {Στόχος} _ i\quad
\ κείμενο {s. t. }\κείμενο {caps, RG, ποικιλία, SLA}
]

Πρακτική: επανακατάταξη της πολιτικής (βλέπε § 7), όπου η ταχύτητα συνδυάζεται με κανόνες.

5) Ψυχρή εκκίνηση και μικρά δεδομένα

Νέοι χρήστες: δημοτικότητα ανά τμήμα/κανάλι/γεω, περιεχόμενο βασισμένο στο ερωτηματολόγιο/πρώτο κλικ, ληστής με ευρεία νοημοσύνη.
Νέα aitems: ενσωμάτωση περιεχομένου (κείμενο/ετικέτες), μεταδεδομένα, «look-like» από τον πάροχο/είδος.
Ελάχιστη βολή: ενσωμάτωση μεταφοράς/κοινού πύργου.

6) Μετρήσεις βαθμολόγησης

Εκτός σύνδεσης

Ταξινόμηση/κατάταξη: AUC/PR- AUC, NDCG @ k, MAP, Recall @ k.
Επιχειρήσεις: eCPM/eRPM, αναμενόμενα έσοδα/περιθώριο κέρδους, πληρεξούσιο LTV.
Πολλαπλή χρήση: σταθμισμένες μετρήσεις (π.χ. NDCG με κέρδος = τιμή).
Βαθμονόμηση: Brier, ECE (για πιθανότητες).
: κάλυψη/ποικιλομορφία/καινοτομία/serendipity.

Online

Δοκιμές A/B και ληστών: CTR, CTCVR, εισόδημα/συνεδρία, διατήρηση D1/D7, καταγγελίες/μη υπογραφές (guardrails), καθυστέρηση/SLA.
Αύξηση: ανύψωση%, CUPED/οιονεί πειράματα στην πολύπλοκη τυχαιοποίηση.

7) Διαφοροποίηση και επανακατάταξη των πολιτικών

: ισορροπία της «συνάφειας × καινοτομίας».
Ποσοστώσεις: min/max ανά είδος/πάροχο/κατηγορία κινδύνου.
Δικαιοσύνη: Περιορισμός των μετοχών ώστε να αποφεύγεται η συστηματική στρέβλωση.

Παράδειγμα βαθμολόγησης:

[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {Fatigue} +\delta\cdot\text {novelty}
]

Υστερία: μην αναβοσβήνετε τις λίστες. Ενημέρωση αντικειμένων με αδράνεια.

8) Ληστές πλαισίου και RL

Ληστές (LinUCB, Thompson): γρήγορη online μάθηση, έλεγχος εξερεύνησης. Καλό για την πρώτη θέση/δημιουργικό/κανάλι.
Ληστές cascading: βελτιστοποίηση top-k.
RL (DQN/Policy Gradient/Slue Q): εξατομίκευση συνεδρίας, βελτιστοποίηση πολλαπλών βημάτων ανταμοιβής (επιστροφή/έσοδα/μακρά συνεδρία).
Ασφάλεια: αξιολόγηση εκτός πολιτικής (IPS/DR), προσομοιωτές, ανώτατα όρια για έρευνα, ασφαλή RL.

9) Εξατομίκευση της αιτιώδους συνάφειας

Μοντέλα ανύψωσης: ποιος πρέπει να αγγίξει (πειστικά), Qini/AUC, uplift @ k.
Κατάταξη ως προς τη θεραπεία: Συμπεριλαμβάνεται η πιθανότητα αύξησης αντί της ακατέργαστης CTR.
Guardrails: Do-Not-Disturb τμήματα, κανόνες RG, δικαιοσύνη.

10) Αρχιτεκτονική και MLOp

Feature Store: online/offline ισοτιμία, point-in-time, TTL για χαρακτηριστικά συνεδρίας.
Υποψήφιες υπηρεσίες: ANN/FAISS/ScaNN, αποθήκευση/αποθήκευση ανά τμήμα.
Ranker: ενισχυτικό κλίσης/αρχιτεκτονικές MLP/πύργου, βαθμονόμηση.
Πολιτική/εκ νέου κατάταξη: κανόνες/περιορισμοί, διαφοροποίηση, επίπεδο ληστών.
Ενορχήστρωση: ζητήστε idempotency, p95 latency ≤ 100-300 ms, DLQ/retray.
Παρατηρησιμότητα: συσχέτιση _ id trace, PSI, ποιοτικές μετρήσεις, stopcock.

11) Ασφάλεια, ιδιωτικότητα, δεοντολογία

Ελαχιστοποίηση PII: μαρκινοποίηση, RLS/CLS, κάλυψη.
Επεξήγηση: κύρια χαρακτηριστικά/λόγοι εμφάνισης. την πορεία της προσφυγής.
Δεοντολογία/RG: ανώτατα όρια συχνότητας, «ήσυχες ώρες», απαγορεύσεις επιθετικών προσφορών από ευάλωτες ομάδες.
Συμμόρφωση: έλεγχος αποφάσεων/αρχείων καταγραφής, εκδόσεις πολιτικών και δημιουργικών.

12) Διαβατήρια και πίνακες αποφάσεων

Πιστοποιητικό αναφοράς (παράδειγμα)

ID/έκδοση: 'REC _ HYBRID _ RANK _ v5'

Ανάκληση: ANN (ενσωμάτωση χρήστη/αντικειμένου), top-500

Ranker: LTR-GBM + MLP (χαρακτηριστικά: χρήστης RFM, στοιχείο meta, πλαίσιο)

Εκ νέου κατάταξη: PM-2 (ποικιλία), ποσοστώσεις σήματος, φίλτρα RG, ανώτατα όρια συχνότητας

Στόχοι/Μετρήσεις: NDCG @ 10, eRPM, zhaloby≤Kh, καθυστέρηση p95≤150 ms

A/B: 14 ημέρες, CUPED· guardrails - RG/δυνατότητα παράδοσης

Ιδιοκτήτες/Logging/Runibook

Πίνακας απόφασης

Κατάσταση	Πλαίσιο	Δράση	Περιορισμοί	Σχόλιο
'new _ user' & 'low _ history'	επί του σκάφους	δημοφιλής @ segment + σπόρος βασισμένος στο περιεχόμενο	καλύμματα συχνότητας, RG	κρύα εκκίνηση
'session _ len> 3' & 'diversity _ low'	σύνοδος ολομέλειας	Επαναταξινόμηση с MMR	min 3 κατηγορίες	ηµεροµηνία λήξης
«uplift_push≥τ»	προσφορές	προσωπική ώθηση	Μην ενοχλείτε, zhaloby≤Kh	επιδράσεις, όχι CTR

13) Pseudo Code (σκίτσο)

Α. Υβριδική ανάκληση + κατάταξη + εκ νέου κατάταξη

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling for Creatives

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Διάγνωση και παρακολούθηση

Ποιότητα: NDCG/Ανάκληση @ k, eRPM, κάλυψη/ποικιλομορφία, βαθμονόμηση.
Διαδικτυακά: CTR/CTCVR, εισόδημα/συνεδρία, παρακράτηση, καταγγελίες/μη υπογραφές, καθυστέρηση/χρονοδιάγραμμα.
Μετατόπιση: PSI/KL από βασικά χαρακτηριστικά, oflayn↔onlayn πτώση συσχέτισης.
Περιορισμοί: εκπλήρωση ποσοστώσεων/ποικιλομορφίας, επιπτώσεις στα φίλτρα RG, ανώτατα όρια συχνότητας.
Runibooks: ανάκληση της υποβάθμισης (πτώση ANN), αύξηση των καταγγελιών, αύξηση των χρονοδιαγραμμάτων, folback έκτακτης ανάγκης (δημοφιλές).

15) Συχνά σφάλματα

Βελτιστοποίηση του «ακατέργαστου CTR» αντί της αύξησης/τιμής.
Δεν υπάρχει στρώμα επανακατάταξης → ελάχιστη ποικιλία, «σήραγγα όρασης».
Πρόσωπα από το μέλλον, ανάμειξη TZ, ασυνεπείς ορισμοί σημάτων.
Έλλειψη βαθμονόμησης και κατώτατων ορίων → ο προϋπολογισμός και τα ανώτατα όρια συχνότητας «επιδεινώνονται».
Αγνόηση της ΚΔ/δεοντολογίας και της δικαιοσύνης → καταγγελίες, κίνδυνοι, ρυθμιστικά ζητήματα.
Online/offline non-synchron χαρακτηριστικό → μια αποτυχία στις πωλήσεις.

16) Κατάλογος εξατομίκευσης πριν την απελευθέρωση

Υπόδειγμα διαβατηρίου (στόχοι, περιορισμοί, μετρήσεις, ιδιοκτήτες, εκδόσεις)
Ανάκληση/Rank/Re-rank δημοσιεύτηκε? ANN και θερμαινόμενες κρύπτες
Χαρακτηριστικά PIT και βαθμονόμηση, μη γραμμικοί δείκτες αναφοράς (NDCG/PR- AUC)
Σχέδιο Α/Β και φύλακες· Έκθεση ετοιμότητας λήψης αποφάσεων
RG/Συχνότητα/Ποικιλία/Περιορισμοί ποσοστώσεων - Εφαρμογή και παρακολούθηση
Παρατηρησιμότητα, συναγερμοί, γερανός στάσης, πτυσσόμενοι (ασφαλείς για το κοινό)
Τεκμηρίωση και Runibooks, Σχέδιο σταδιακής βελτίωσης

Σύνολο

Τα μοντέλα εξατομίκευσης είναι αποτελεσματικά μόνο ως ένα σύστημα που γνωρίζει την πολιτική: πλούσια δεδομένα και ενσωματώσεις → ένα υβριδικό Remball/Rank/Re-rank → ληστές/RL για online προσαρμογή → στόχους πολλαπλών χρήσεων για αυστηρούς περιορισμούς και δεοντολογία → πειθαρχημένα MLOp και παρακολούθηση. Ένα τέτοιο κύκλωμα δεν παρέχει μόνο «συστάσεις», αλλά και διαχειρίσιμες λύσεις που αυξάνουν τις ROMI, τις LTV και την ικανοποίηση - με ασφάλεια, διαφάνεια και αναπαραγωγή.

Μοντέλα εξατομίκευσης