Personallashtirish modellari

Shaxsiylashtirish - bu ma’lumotlar → modellar → namoyish siyosati → harakat → fikr-mulohazalar mavjud bo’lgan tizim. Maqsad cheklovlarga (etika/RG, chastota qoplari, xilma-xillik, yangilik, SLA) rioya qilgan holda inkremental qiymatni (daromad/ushlab qolish/qoniqish) maksimal darajada oshirishdir.

1) Ma’lumotlar va taqdimnomalar

Xomashyo: voqealar (koʻrishlar/kliplar/oʻyinlar/xaridlar/depozitlar), kontent-katalog (atributlar), foydalanuvchi profillari, kontekst (vaqt/geo/qurilma/kanal), sifat signallari (bot/frod).

Fichi:

User: RFM, toifalar, narx sezgirligi, sutka vaqti, qurilma.
Item: janr/toifa, studiya/provayder, til, narx/o’zgaruvchanlik, «yangilik».
Context: dow/hod, promo/eventlar, sessiya, kirish kanali.
Embeddingi: user/item (MF/Word2Vec2Rec/transformers), multimodal (matn/tasvir).
Sifati: point-in-time (yuzsiz), UTC-vaqt, voqealarning idempotentligi, PII niqoblash.

2) Bazaviy paradigmalar

1. Content-based - aytem va foydalanuvchi profilining yaqinligi.
2. Hamkorlikdagi filtrlash (CF) - o’zaro ta’sir signallari bo’yicha o’xshash foydalanuvchilar/aytemalar.
3. Matritsali faktorizatsiya/embeddinglar - score uchun yashirin omillar, dot-product/MLP.
4. Learning-to-Rank (LTR) - ro’yxatlarni (pairwise/listwise) reytinglash uchun gradient busting/neyroset.
5. Re-ranking qatlami - diversifikatsiya/yangilik/cheklovlarni hisobga olgan holda post-processing.
6. Kontekst banditlar - exploration-exploitation bilan onlayn o’qitish.
7. RL/seq-tavsiyalar - yo’l/sessiyani optimallashtirish (ko’p bosqichli mukofot).

3) Qaror qabul qilish konveyeri

1. Recall (nomzodlarni tezkor tanlash, 200-5k): embeddingi, qoidabuzarlik/toifasi, mashhurlik bo’yicha ANN.
2. Rank (aniq skoring, 20-200): Boy chichli LTR/MLP.
3. Re-rank/Policy (fin. ro’yxat, 5-30): ko’p maqsadli optimallashtirish + cheklovlar va diversifikatsiya.
4. Action :/push/e-mail/kaplar va «jim soatlar» bilan shaxsiy vitrin.
5. Feedback: implicit/explicit signallari → qayta tayyorlash/bandit-yangilash.

4) Ko’p maqsadli maqsadlar va cheklovlar

Maqsadlar: CTR/CTCVR, ushlab qolish, tushum, marja, LTV, qoniqish, tezlik.
Cheklovlar: aloqalar chastotasi, RG/komplayens, turli toifalar, brendlar/provayderlar kvotalari, fairness.

Formula:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Amaliyot: qoidalar bilan birlashtirilgan policy-aware re-ranking (§ 7 ga qarang).

5) Sovuq start va kichik ma’lumotlar

Yangi foydalanuvchilar: segment/kanal/geo boʻyicha mashhurlik, anketa/birinchi klik boʻyicha kontent-based, keng razvedkali bandit.
Yangi aytemlar: kontent-embeddingi (matn/teglar), meta-maʼlumotlar, provayder/janr boʻyicha «look-alike».
Few-shot: embeddingi/multi-vazifa (shared tower).

6) Baholash metrikasi

Oflayn

Tasniflash/reyting: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Biznes: eCPM/eRPM, kutilayotgan daromad/marja, LTV proxy.
Ko’p maqsadli: o’lchangan metriklar (masalan, NDCG bilan gain = qiymat).
Kalibrlash: Brier, ECE (ehtimollar uchun).
Списки: coverage/diversity/novelty/serendipity.

Onlayn

A/B va bandit testlari: CTR, CTCVR, daromad/seans, D1/D7 ushlab qolish, shikoyatlar/javoblar (guardrails), latency/SLA.
Inkremt: lift%, CUPED/kvazi-eksperimentlar murakkab randomizatsiyada.

7) Diversifikatsiya va policy-aware re-ranking

MMR/PM-2/xQuAD: «relevantlik × yangilik» balansi.
Kvotalar: janrlar/provayderlar/tavakkalchilik toifalari bo’yicha min/max.
Fairness: tizimli xatolarni oldini olish uchun ulushlarni cheklash.

Skoring namunasi:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Gisterezis: ro’yxatlar bilan «miltillamaslik»; pozitsiyalarni inertsiya bilan yangilang.

8) Kontekstli banditlar va RL

Banditlar (LinUCB, Thompson): tezkor online-learn, exploration nazorati. Birinchi pozitsiya/kreativ/kanal uchun yaxshi.
Kaskadli banditlar: optimallashtirish top-k.
RL (DQN/Policy Gradient/SlateQ): sessiyani personallashtirish, ko’p bosqichli mukofotni optimallashtirish (qaytarish/tushum/uzoq sessiya).
Xavfsizlik: off-polislar (IPS/DR), simulyatorlar, tadqiqot uchun kaplar, safe RL.

9) Sababiy ta’sir ostida personallashtirish

Uplift modellari: kimga tegish kerak (persuadables), Qini/AUUC, uplift @k.
Treatment-aware tartibi: «xom» CTR oʻrniga inkrement ehtimolini kiriting.
Guardrails: Do-Not-Disturb segmentlari, RG qoidalari, fairness.

10) Arxitektura va MLOps

Feature Store: onlayn/oflayn paritet, point-in-time, sessiya uchun TTL.
Candidate services: ANN/FAISS/ScaNN, segmentlar boʻyicha keshlash/sharding.
Ranker: gradient kuchaytirish/MLP/Tower arxitekturasi, kalibrlash.
Policy/Re-rank: qoidalar/cheklovlar, diversifikatsiya, bandit qatlam.
Orkestr: so’rovlarning idempotentligi, p95 latency ≤ 100-300 ms, DLQ/retray.
Kuzatilganlik: trastirovka’correlation _ id’, fich-drift (PSI), sifat metrikasi, «stop-kran».

11) Xavfsizlik, maxfiylik, axloq

PII-minimallashtirish: tokenizatsiya, RLS/CLS, niqoblash.
Tushuntirilishi: top-features/ko’rsatish sabablari; apellatsiya yo’li.
Etika/RG: chastota qopqoqlari, «sokin soatlar», zaif guruhlarda tajovuzkor offeralarni taqiqlash.
Komplayens: qarorlar/loglar auditi, siyosat va kreativlar versiyasi.

12) Pasportlar va decision tables

Tavsiya etuvchining pasporti (misol)

ID/versiya: ’REC _ HYBRID _ RANK _ v5 ’

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), brendlar kvotalari, RG-filtrlar, chastota qopqoqlari

Maqsad/metrika: NDCG @ 10, eRPM, shikoyatlar ≤ X, latency p95 ≤ 150 ms

A/V: 14 kun, CUPED; guardrails - RG/yetkazib berish

Egalari/logotiplash/runibuk

Decision table (eskiz)

Shartlar	Kontekst	Amal qilish	Cheklovlar	LexUZ sharhi
`new_user` & `low_history`	onbording	popular@segment + content-based seed	chastota kaplari, RG	sovuq start
`session_len>3` & `diversity_low`	sessiya	re-rank с MMR	min 3 toifa	serendiplik
`uplift_push≥τ`	offerlar	shaxsiy push	Do-Not-Disturb, shikoyatlar ≤ X	effektlar, CTR emas

13) Psevdo-kod (sketch)

A. Gibrid recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling kreativlar uchun

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnostika va monitoring

Sifati: NDCG/Recall @k, eRPM, coverage/diversity, kalibrlash.
Onlayn: CTR/CTCVR, daromad/seans, ushlab qolish, shikoyatlar/javoblar, latency/timeout.
Drift: PSI/KL asosiy fazalar bo’yicha, korrelyatsiyaning pasayishi onlayn.
Cheklovlar: kvotalarni/diversity bajarish, RG-filtrlarga zarbalar, chastota qopqoqlari.
Runibuki: recall degradatsiyasi (ANN pasayishi), shikoyatlarning ko’payishi, taymautlarning ko’payishi, halokatli folbek (popular-safe).

15) Tez-tez xatolar

Inkrement/qiymat o’rniga «xom CTR» ni optimallashtirish.
Re-ranking qatlami yo’q → xilma-xillik, «ko’rish tunneli».
Kelajak yuzlari, TZ aralashmasi, signallarning kelishilmagan ta’riflari.
Kalibrlash va chegara yo’qligi → Byudjet va chastota qopqoqlari «buziladi».
Ignor RG/etika va fairness → shikoyatlar, xavflar, tartibga soluvchi muammolar.
Nesinxron onlayn/oflayn → prodda muvaffaqiyatsizlik.

16) Shaxslashtirish relizidan oldingi chek-varaq

Model pasporti (maqsadlari, cheklovlari, metrikalari, egalari, versiyalari)
Recall/Rank/Re-rank tarqatildi; ANN va keshlar
PIT-fichlar va kalibrlash, oflayn benchmarklar (NDCG/PR-AUC) o’tkazildi
A/B-dizayn va guardrails; decision-ready hisoboti (effekt va xavflar)
Cheklovlar: RG/chastota/diversity/kvotalar - joriy etildi va monitoring qilinmoqda
Kuzatish darajasi, alertlar, «stop-kran», folbeklar (popular-safe)
Hujjatlar va runibuklar, inkremental yaxshilanishlar rejasi

Jami

Shaxslashtirish modellari faqat policy-aware tizimi kabi samarali: boy ma’lumotlar va embeddinglar → Recall/Rank/Re-rank → onlayn moslashish uchun banditlar/RL → qat’iy cheklovlar va etika ostida ko’p maqsadli maqsadlar → intizomli MLOps va monitoring. Bunday kontur nafaqat «tavsiyalar» beradi, balki ROMI, LTV va qoniqishni oshiradigan boshqariladigan yechimlar xavfsiz, shaffof va takrorlanuvchan hisoblanadi.

Personallashtirish modellari