Μοντέλα εξατομίκευσης
Μοντέλα εξατομίκευσης
Η εξατομίκευση είναι ένα σύστημα όπου τα μοντέλα → δεδομένων εμφανίζουν → πολιτική → δράση → ανατροφοδότηση. Στόχος είναι να μεγιστοποιηθεί η επαυξητική αξία (εισόδημα/διατήρηση/ικανοποίηση), ενώ παράλληλα να αντιμετωπιστούν οι περιορισμοί (δεοντολογία/RG, ανώτατα όρια συχνότητας, ποικιλομορφία, φρεσκάδα, SLA).
1) Δεδομένα και απόψεις
Πρώτες ύλες: εκδηλώσεις (προβολές/κλικ/παιχνίδια/αγορές/καταθέσεις), κατάλογος περιεχομένου (χαρακτηριστικά γνωρίσματα), προφίλ χρήστη, πλαίσιο (χρόνος/γεω/συσκευή/κανάλι), σήματα ποιότητας (bot/απάτη).
Fici:- Χρήστης: RFM, προτιμήσεις κατηγορίας, ευαισθησία τιμής, ώρα ημέρας, συσκευή.
- Είδος/κατηγορία, στούντιο/πάροχος, γλώσσα, τιμή/μεταβλητότητα, «φρεσκάδα».
- Πλαίσιο: dow/hod, promo/events, συνεδρία, κανάλι σύνδεσης.
- Ενσωματώσεις: χώροι συνεργασίας χρήστη/αντικειμένου (MF/Word2Vec2Rec/μετασχηματιστές), πολυτροπικοί (κείμενο/εικόνες).
- Ποιότητα: point-in-time (χωρίς πρόσωπα), UTC-time, idempotence of events, PII casking.
2) Βασικά παραδείγματα
1. Με βάση το περιεχόμενο - εγγύτητα σύμφωνα με τα χαρακτηριστικά της διεύθυνσης και του προφίλ χρήστη.
2. Συνεργατικό φιλτράρισμα (CF) - παρόμοιοι χρήστες/aytems με βάση σήματα αλληλεπίδρασης.
3. Παραγοντοποίηση/ενσωμάτωση μήτρας - κρυμμένοι παράγοντες, προϊόν τελείας/MLP για βαθμολογία.
4. Learning-to-Rank (LTR) - αναβάθμιση κλίσης/νευρικά δίκτυα για καταλόγους κατάταξης (κατά ζεύγη/listwise).
5. Επανακατάταξη του επιπέδου - μετεπεξεργασία, λαμβάνοντας υπόψη τη διαφοροποίηση/καινοτομία/περιορισμούς.
6. Ληστές πλαισίου - επιγραμμική μάθηση με εξερεύνηση-εκμετάλλευση.
7. RL/επόμενες συστάσεις - βελτιστοποίηση διαδρομής/συνεδρίας (βραβείο πολλαπλών σταδίων).
3) Δίαυλος λήψης αποφάσεων
1. Ανάκληση (ταχεία επιλογή υποψηφίων, 200-5k): ANN με ενσωμάτωση, βάση/κατηγορία κανόνων, δημοτικότητα.
2. Βαθμολογία (ακριβής βαθμολογία, 20-200): LTR/MLP με πλούσια χαρακτηριστικά.
3. Επανακατάταξη/Πολιτική (Fin. λίστα, 5-30): βελτιστοποίηση πολλαπλών σκοπών + περιορισμοί και διαφοροποίηση.
4. Δράση: εμφάνιση/ώθηση/e-mail/προσωπική βιτρίνα με φρουρούς στο στόμα και ένα «ήσυχο ρολόι».
5. Ανάδραση: έμμεσα/ρητά σήματα → επανεκπαίδευση/ενημέρωση ληστών.
4) Στόχοι και περιορισμοί πολλαπλών σκοπών
Στόχοι: CTR/CTCVR, παρακράτηση, έσοδα, περιθώριο κέρδους, LTV, ικανοποίηση, ταχύτητα.
Περιορισμοί: συχνότητα επαφής, RG/συμμόρφωση, ποικιλία κατηγοριών, ποσοστώσεις εμπορικού σήματος/παρόχου, δίκαιη μεταχείριση.
[
\ max\sum _ i w_i\cdot\text {Στόχος} _ i\quad
\ κείμενο {s. t. }\κείμενο {caps, RG, ποικιλία, SLA}
]
Πρακτική: επανακατάταξη της πολιτικής (βλέπε § 7), όπου η ταχύτητα συνδυάζεται με κανόνες.
5) Ψυχρή εκκίνηση και μικρά δεδομένα
Νέοι χρήστες: δημοτικότητα ανά τμήμα/κανάλι/γεω, περιεχόμενο βασισμένο στο ερωτηματολόγιο/πρώτο κλικ, ληστής με ευρεία νοημοσύνη.
Νέα aitems: ενσωμάτωση περιεχομένου (κείμενο/ετικέτες), μεταδεδομένα, «look-like» από τον πάροχο/είδος.
Ελάχιστη βολή: ενσωμάτωση μεταφοράς/κοινού πύργου.
6) Μετρήσεις βαθμολόγησης
Εκτός σύνδεσης
Ταξινόμηση/κατάταξη: AUC/PR- AUC, NDCG @ k, MAP, Recall @ k.
Επιχειρήσεις: eCPM/eRPM, αναμενόμενα έσοδα/περιθώριο κέρδους, πληρεξούσιο LTV.
Πολλαπλή χρήση: σταθμισμένες μετρήσεις (π.χ. NDCG με κέρδος = τιμή).
Βαθμονόμηση: Brier, ECE (για πιθανότητες).
: κάλυψη/ποικιλομορφία/καινοτομία/serendipity.
Online
Δοκιμές A/B και ληστών: CTR, CTCVR, εισόδημα/συνεδρία, διατήρηση D1/D7, καταγγελίες/μη υπογραφές (guardrails), καθυστέρηση/SLA.
Αύξηση: ανύψωση%, CUPED/οιονεί πειράματα στην πολύπλοκη τυχαιοποίηση.
7) Διαφοροποίηση και επανακατάταξη των πολιτικών
: ισορροπία της «συνάφειας × καινοτομίας».
Ποσοστώσεις: min/max ανά είδος/πάροχο/κατηγορία κινδύνου.
Δικαιοσύνη: Περιορισμός των μετοχών ώστε να αποφεύγεται η συστηματική στρέβλωση.
[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {Fatigue} +\delta\cdot\text {novelty}
]
Υστερία: μην αναβοσβήνετε τις λίστες. Ενημέρωση αντικειμένων με αδράνεια.
8) Ληστές πλαισίου και RL
Ληστές (LinUCB, Thompson): γρήγορη online μάθηση, έλεγχος εξερεύνησης. Καλό για την πρώτη θέση/δημιουργικό/κανάλι.
Ληστές cascading: βελτιστοποίηση top-k.
RL (DQN/Policy Gradient/Slue Q): εξατομίκευση συνεδρίας, βελτιστοποίηση πολλαπλών βημάτων ανταμοιβής (επιστροφή/έσοδα/μακρά συνεδρία).
Ασφάλεια: αξιολόγηση εκτός πολιτικής (IPS/DR), προσομοιωτές, ανώτατα όρια για έρευνα, ασφαλή RL.
9) Εξατομίκευση της αιτιώδους συνάφειας
Μοντέλα ανύψωσης: ποιος πρέπει να αγγίξει (πειστικά), Qini/AUC, uplift @ k.
Κατάταξη ως προς τη θεραπεία: Συμπεριλαμβάνεται η πιθανότητα αύξησης αντί της ακατέργαστης CTR.
Guardrails: Do-Not-Disturb τμήματα, κανόνες RG, δικαιοσύνη.
10) Αρχιτεκτονική και MLOp
Feature Store: online/offline ισοτιμία, point-in-time, TTL για χαρακτηριστικά συνεδρίας.
Υποψήφιες υπηρεσίες: ANN/FAISS/ScaNN, αποθήκευση/αποθήκευση ανά τμήμα.
Ranker: ενισχυτικό κλίσης/αρχιτεκτονικές MLP/πύργου, βαθμονόμηση.
Πολιτική/εκ νέου κατάταξη: κανόνες/περιορισμοί, διαφοροποίηση, επίπεδο ληστών.
Ενορχήστρωση: ζητήστε idempotency, p95 latency ≤ 100-300 ms, DLQ/retray.
Παρατηρησιμότητα: συσχέτιση _ id trace, PSI, ποιοτικές μετρήσεις, stopcock.
11) Ασφάλεια, ιδιωτικότητα, δεοντολογία
Ελαχιστοποίηση PII: μαρκινοποίηση, RLS/CLS, κάλυψη.
Επεξήγηση: κύρια χαρακτηριστικά/λόγοι εμφάνισης. την πορεία της προσφυγής.
Δεοντολογία/RG: ανώτατα όρια συχνότητας, «ήσυχες ώρες», απαγορεύσεις επιθετικών προσφορών από ευάλωτες ομάδες.
Συμμόρφωση: έλεγχος αποφάσεων/αρχείων καταγραφής, εκδόσεις πολιτικών και δημιουργικών.
12) Διαβατήρια και πίνακες αποφάσεων
Πιστοποιητικό αναφοράς (παράδειγμα)
ID/έκδοση: 'REC _ HYBRID _ RANK _ v5'
Ανάκληση: ANN (ενσωμάτωση χρήστη/αντικειμένου), top-500
Ranker: LTR-GBM + MLP (χαρακτηριστικά: χρήστης RFM, στοιχείο meta, πλαίσιο)
Εκ νέου κατάταξη: PM-2 (ποικιλία), ποσοστώσεις σήματος, φίλτρα RG, ανώτατα όρια συχνότητας
Στόχοι/Μετρήσεις: NDCG @ 10, eRPM, zhaloby≤Kh, καθυστέρηση p95≤150 ms
A/B: 14 ημέρες, CUPED· guardrails - RG/δυνατότητα παράδοσης
Ιδιοκτήτες/Logging/Runibook
Πίνακας απόφασης
13) Pseudo Code (σκίτσο)
Α. Υβριδική ανάκληση + κατάταξη + εκ νέου κατάταξη
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling for Creatives
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Διάγνωση και παρακολούθηση
Ποιότητα: NDCG/Ανάκληση @ k, eRPM, κάλυψη/ποικιλομορφία, βαθμονόμηση.
Διαδικτυακά: CTR/CTCVR, εισόδημα/συνεδρία, παρακράτηση, καταγγελίες/μη υπογραφές, καθυστέρηση/χρονοδιάγραμμα.
Μετατόπιση: PSI/KL από βασικά χαρακτηριστικά, oflayn↔onlayn πτώση συσχέτισης.
Περιορισμοί: εκπλήρωση ποσοστώσεων/ποικιλομορφίας, επιπτώσεις στα φίλτρα RG, ανώτατα όρια συχνότητας.
Runibooks: ανάκληση της υποβάθμισης (πτώση ANN), αύξηση των καταγγελιών, αύξηση των χρονοδιαγραμμάτων, folback έκτακτης ανάγκης (δημοφιλές).
15) Συχνά σφάλματα
Βελτιστοποίηση του «ακατέργαστου CTR» αντί της αύξησης/τιμής.
Δεν υπάρχει στρώμα επανακατάταξης → ελάχιστη ποικιλία, «σήραγγα όρασης».
Πρόσωπα από το μέλλον, ανάμειξη TZ, ασυνεπείς ορισμοί σημάτων.
Έλλειψη βαθμονόμησης και κατώτατων ορίων → ο προϋπολογισμός και τα ανώτατα όρια συχνότητας «επιδεινώνονται».
Αγνόηση της ΚΔ/δεοντολογίας και της δικαιοσύνης → καταγγελίες, κίνδυνοι, ρυθμιστικά ζητήματα.
Online/offline non-synchron χαρακτηριστικό → μια αποτυχία στις πωλήσεις.
16) Κατάλογος εξατομίκευσης πριν την απελευθέρωση
- Υπόδειγμα διαβατηρίου (στόχοι, περιορισμοί, μετρήσεις, ιδιοκτήτες, εκδόσεις)
- Ανάκληση/Rank/Re-rank δημοσιεύτηκε? ANN και θερμαινόμενες κρύπτες
- Χαρακτηριστικά PIT και βαθμονόμηση, μη γραμμικοί δείκτες αναφοράς (NDCG/PR- AUC)
- Σχέδιο Α/Β και φύλακες· Έκθεση ετοιμότητας λήψης αποφάσεων
- RG/Συχνότητα/Ποικιλία/Περιορισμοί ποσοστώσεων - Εφαρμογή και παρακολούθηση
- Παρατηρησιμότητα, συναγερμοί, γερανός στάσης, πτυσσόμενοι (ασφαλείς για το κοινό)
- Τεκμηρίωση και Runibooks, Σχέδιο σταδιακής βελτίωσης
Σύνολο
Τα μοντέλα εξατομίκευσης είναι αποτελεσματικά μόνο ως ένα σύστημα που γνωρίζει την πολιτική: πλούσια δεδομένα και ενσωματώσεις → ένα υβριδικό Remball/Rank/Re-rank → ληστές/RL για online προσαρμογή → στόχους πολλαπλών χρήσεων για αυστηρούς περιορισμούς και δεοντολογία → πειθαρχημένα MLOp και παρακολούθηση. Ένα τέτοιο κύκλωμα δεν παρέχει μόνο «συστάσεις», αλλά και διαχειρίσιμες λύσεις που αυξάνουν τις ROMI, τις LTV και την ικανοποίηση - με ασφάλεια, διαφάνεια και αναπαραγωγή.