პერსონალიზაციის მოდელები

პერსონალიზაცია არის სისტემა, სადაც ნაჩვენები მოდელის მონაცემები - შოუს პოლიტიკა - მოქმედება - გამოხმაურება. მიზანია შეზღუდვების შეზღუდვის (ეთიკა/RG, სიხშირის ქუდები, მრავალფეროვნება, სიახლე, SLA) მაქსიმალური შემცირება.

1) მონაცემები და წარმოდგენები

ნედლეული: მოვლენები (შეხედულებები/კლიშეები/თამაშები/შესყიდვები/ანაბრები), შინაარსის კატალოგი (ატრიბუტები), მომხმარებლის პროფილები, კონტექსტი (დრო/გეო/მოწყობილობა/არხი), ხარისხის სიგნალები (ბოტი/ფროიდი).

ფიჩი:

მომხმარებელი: RFM, კატეგორიების პრეფერენციები, ფასების მგრძნობელობა, დღის დრო, მოწყობილობა.
Item: ჟანრი/კატეგორია, სტუდია/პროვაიდერი, ენა, ფასი/ცვალებადობა, „სიახლე“.
Context: dow/hod, პრომო/ტირაჟი, სესია, შესასვლელი არხი.
Ambedings: ერთობლივი სივრცეები user/item (MF/Word2Vec2Rec/transformers), მულტიმოდური (ტექსტი/სურათები).
ხარისხი: წერტილოვანი დრო (სახეების გარეშე), UTC დრო, მოვლენების imempotence, შენიღბვა PII.

2) ძირითადი პარადიგმები

1. შინაარსის ბასი არის სიახლოვე item- ის და მომხმარებლის პროფილის საფუძველზე.
2. თანამშრომლობითი ფილტრაცია (CF) მსგავსი მომხმარებლები/აიტემები არიან ურთიერთქმედების სიგნალებზე.
3. მატრიქსის ფაქტორიზაცია/ემბედინგი - ფარული ფაქტორები, dot-product/MLP სკორესთვის.
4. Learning-to-Rank (LTR) - გრადიენტური ბუსტინგი/ნერვული ქსელები სიების რანჟირების მიზნით (pairwise/listwise).
5. Re-ranking ფენა - post-processing, დივერსიფიკაციის/სიახლეების/შეზღუდვების გათვალისწინებით.
6. კონტექსტური ბანდიტები - ონლაინ ტრენინგი Exploration-exploration- ით.
7. RL/seq რეკომენდაციები - ბილიკის/სესიის ოპტიმიზაცია (მრავალსაფეხურიანი ჯილდო).

3) კონვეიერი გადაწყვეტილების მისაღებად

1. Recall (კანდიდატთა სწრაფი შერჩევა, 200-5k): ANN ემბედიაში, ბასის წესები/კატეგორია, პოპულარობა.
2. Rank (ზუსტი მორიელი, 20-200): LTR/MLP მდიდარი იხვები.
3. Re-rank/Policy (ფინ. სია, 5-30): მრავალ დანიშნულების ოპტიმიზაცია + შეზღუდვები და დივერსიფიკაცია.
4. Action: შოუ/en/e-mail/პერსონალური ვიტრინა ქუდებით და „მშვიდი საათით“.
5. Feedback: implicit/explicit სიგნალები - გადამზადება/ბანდიტის განახლება.

4) მრავალმხრივი მიზნები და შეზღუდვები

მიზნები: CTR/CTCVR, შენარჩუნება, შემოსავალი, ზღვარი, LTV, კმაყოფილება, სიჩქარე.
შეზღუდვები: კონტაქტების სიხშირე, RG/შესაბამისობა, მრავალფეროვანი კატეგორიები, ბრენდების/პროვაიდერების კვოტები, fairness.

ფორმულირება:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

პრაქტიკა: გააკეთეთ პოლიცია-aware re-ranking (იხ. § 7), სადაც მწარე გაერთიანებულია წესებთან.

5) ცივი დაწყება და მცირე მონაცემები

ახალი მომხმარებლები: პოპულარობა სეგმენტის/არხის/გეოს საშუალებით, შინაარსის დაშლა კითხვარის/პირველი კლიკის საშუალებით, ფართო დაზვერვის ბანდიტი.
ახალი items: შინაარსის ემბედინგი (ტექსტი/ჭდეები), მეტამონაცემები, „look-alike“ პროვაიდერის/ჟანრის მიხედვით.
Few-shot: ემბედინგის/მულტფილმის პრობლემის გადაცემა.

6) შეფასების მეტრიკა

ოფლაინი

კლასიფიკაცია/რანჟირება: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
ბიზნესი: eCPM/eRPM, მოსალოდნელი შემოსავალი/ზღვარი, LTV Proxy.
მრავალ დანიშნულების: შეჩერებული მეტრიკა (მაგალითად, NDCG gain = ღირებულება).
კალიბრაცია: Brier, ECE (ალბათობისთვის).
Списки: coverage/diversity/novelty/serendipity.

ონლაინ

A/B და განგსტერული ტესტები: CTR, CTCVR, შემოსავალი/სესია, D1/D7 შენარჩუნება, საჩივრები/პასუხები (guardrails), ლატენცია/SLA.
კვალი: lift%, CUPED/კვაზიექსპერიმენტები რთული რანდომიზაციით.

7) დივერსიფიკაცია და პოლიცია

MMR/PM-2/xQuAD: ბალანსი „შესაბამისობის × სიახლე“.
კვოტები: min/max ჟანრის/პროვაიდერების/სარისკო კატეგორიების მიხედვით.
Fairness: წილის შეზღუდვა სისტემატური მიკერძოების თავიდან ასაცილებლად.

სკორინგის მაგალითი:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

ჰისტერეზი: არ „მოციმციმე“ სიები; განაახლეთ პოზიციები ინერციით.

8) კონტექსტური ბანდიტები და RL

ბანდიტები (LinUCB, ტომპსონი): სწრაფი ონლაინ ხაზი, Exploration კონტროლი. კარგია პირველი პოზიციისთვის/კრეატიული/არხისთვის.
კასკადის ბანდიტები: ტოპ-კ ოპტიმიზაცია.
RL (DQN/Policy Gradient/SlateQ): სესიის პერსონალიზაცია, მრავალსაფეხურიანი ჯილდოს ოპტიმიზაცია (დაბრუნება/შემოსავალი/გრძელი სესია).
უსაფრთხოება: ოფისის პოლისი შეფასება (IPS/DR), სიმულატორები, კვლევის ქუდები, safe RL.

9) პერსონალიზაცია გამომწვევი ეფექტისთვის

Uplift მოდელები: ვინ უნდა შეეხოთ (persuadables), Qini/AUUC, uplift @ k.
შენიშვნა: ჩართეთ სავარაუდო ალბათობა „ნედლეული“ CTR- ის ნაცვლად.
Guardrails: Do-Not-Disturb სეგმენტები, RG წესები, fairness.

10) არქიტექტურა და MLOps

Feature Store: ონლაინ/ოფლაინ პარიტეტი, წერტილის დრო, TTL სესიის ფინალისთვის.
Candidate სერვისები: ANN/FAISS/ScaNN, ქეშირება/შარდინგი სეგმენტებზე.
Ranker: gradient busting/MLP/Tower არქიტექტურა, კალიბრაცია.
პოლიტიკა/Re-rank: წესები/შეზღუდვები, დივერსიფიკაცია, ბანდიტური ფენა.
ორკესტრი: შეკითხვის impotence, p95 latency - 100-300 ms, DLQ/retrai.
დაკვირვება: კვანძი 'correlation _ id', წინა დრიფტი (PSI), ხარისხის მეტრიკა, „გაჩერების ამწე“.

11) უსაფრთხოება, კონფიდენციალურობა, ეთიკა

PII მინიმიზაცია: ტოქსიკაცია, RLS/CLS, შენიღბვა.
განმარტება: ტოპ-თამაშები/შოუს მიზეზები; გასაჩივრების გზა.
ეთიკა/RG: სიხშირის ქუდები, „მშვიდი საათი“, აგრესიული ოფერების აკრძალვები დაუცველ ჯგუფებში.
შესაბამისობა: გადაწყვეტილებების/ლოგოების აუდიტი, პოლიტიკოსისა და კრეატიულობის ვერსიები.

12) პასპორტები და ციფრული ტაბლეტები

რეკომენდატორის პასპორტი (მაგალითი)

ID/ვერსია: 'REC _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (წარმოება), ბრენდების კვოტები, RG ფილტრები, სიხშირის ქუდები

მიზნები/მეტრიკა: NDCG @ 10, eRPM, საჩივრები X, latency p95-150 ms

A/B: 14 დღე, CUPED; guardrails - RG/მიწოდება

მეპატრონეები/ლოჯისტიკა/რუნიბუკი

Decision table (ესკიზი)

პირობა	კონტექსტი	მოქმედება	შეზღუდვები	კომენტარი
`new_user` & `low_history`	ონბორდინგი	popular@segment + content-based seed	სიხშირის ქუდები, RG	ცივი დასაწყისი
`session_len>3` & `diversity_low`	სესია	re-rank с MMR	min 3 კატეგორია	ნამსხვრევები
`uplift_push≥τ`	ოფერები	პირადი	Do-Not-Disturb, საჩივრები X	ეფექტები, არა CTR

13) ფსევდო კოდი (ესკიზი)

A. ჰიბრიდული ჩანაწერი + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling შემოქმედებისთვის

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) დიაგნოზი და მონიტორინგი

ხარისხი: NDCG/Recall @ k, eRPM, coverage/diversity, კალიბრაცია.
ონლაინ: CTR/CTCVR, შემოსავალი/სესია, გამართვა, საჩივრები/პასუხები, ლატენცია/დრო.
დრიფტი: PSI/KL საკვანძო წერტილებზე, ოფლაინ კორელაციის ვარდნა ონლაინ რეჟიმში.
შეზღუდვები: კვოტების/გამანადგურებლის შესრულება, დარტყმები RG ფილტრებში, სიხშირის ქუდები.
Runibuki: recall- ის დეგრადაცია (ANN ვარდნა), საჩივრების ზრდა, ტაიმაუტების ზრდა, სასწრაფო დახმარების ფოლკლორი (popular-safe).

15) ხშირი შეცდომები

„ნედლეული CTR“ ოპტიმიზაცია სავარაუდო/ღირებულების ნაცვლად.
არ არსებობს re-ranking ფენა, მწირი მრავალფეროვნება, „ხედვის გვირაბი“.
მომავალი სახეები, TZ ნაზავი, არაკოორდინირებული სიგნალის განმარტებები.
კალიბრაციის და რეიდების არარსებობა ბიუჯეტი და სიხშირის ქუდები „გაფუჭებულია“.
RG/ეთიკის და fairness- ის უგულებელყოფა არის საჩივრები, რისკები, მარეგულირებელი პრობლემები.
Nesinhron ონლაინ/offline fich - გაყიდვების წარუმატებლობა.

16) ჩეკის სია პერსონალიზაციის გამოსვლამდე

მოდელის პასპორტი (მიზნები, შეზღუდვები, მეტრიკა, მეპატრონეები, ვერსიები)
Recall/Rank/Re-rank დაშორებულია; ANN და ქეშები
PIT ფიჩები და კალიბრაცია, ოფლაინი (NDCG/PR-AUC) დასრულდა
A/B დიზაინი და guardrails; decision ready (ეფექტი და რისკები)
შეზღუდვები: RG/სიხშირე/განვითარება/კვოტები - დანერგვა და მონიტორინგი
დაკვირვება, ალერტები, „გაჩერებული ამწე“, ფოლკლორი (პოპულარული-საფე)
დოკუმენტაცია და რუნიბუკი, სავარაუდო გაუმჯობესების გეგმა

შედეგი

პერსონალიზაციის მოდელები ეფექტურია მხოლოდ როგორც policy-aware სისტემა: მდიდარი მონაცემები და ემბედინგი - Recall/Rank/Re-rank ჰიბრიდი - ბანდიტები/RL ონლაინ ადაპტაციისთვის, მრავალ დანიშნულების სამიზნეები მკაცრი შეზღუდვებისა და ეთიკის შესაბამისად, მოწესრიგებული MLOps და მონიტორინგი. ასეთი წრე იძლევა არა მხოლოდ „რეკომენდაციებს“, არამედ კონტროლირებად გადაწყვეტილებებს, რომლებიც ზრდის ROMI, LTV და კმაყოფილება - უსაფრთხო, გამჭვირვალე და რეპროდუქციული.

პერსონალიზაციის მოდელები