Personallashtirish modellari
Personallashtirish modellari
Shaxsiylashtirish - bu ma’lumotlar → modellar → namoyish siyosati → harakat → fikr-mulohazalar mavjud bo’lgan tizim. Maqsad cheklovlarga (etika/RG, chastota qoplari, xilma-xillik, yangilik, SLA) rioya qilgan holda inkremental qiymatni (daromad/ushlab qolish/qoniqish) maksimal darajada oshirishdir.
1) Ma’lumotlar va taqdimnomalar
Xomashyo: voqealar (koʻrishlar/kliplar/oʻyinlar/xaridlar/depozitlar), kontent-katalog (atributlar), foydalanuvchi profillari, kontekst (vaqt/geo/qurilma/kanal), sifat signallari (bot/frod).
Fichi:- User: RFM, toifalar, narx sezgirligi, sutka vaqti, qurilma.
- Item: janr/toifa, studiya/provayder, til, narx/o’zgaruvchanlik, «yangilik».
- Context: dow/hod, promo/eventlar, sessiya, kirish kanali.
- Embeddingi: user/item (MF/Word2Vec2Rec/transformers), multimodal (matn/tasvir).
- Sifati: point-in-time (yuzsiz), UTC-vaqt, voqealarning idempotentligi, PII niqoblash.
2) Bazaviy paradigmalar
1. Content-based - aytem va foydalanuvchi profilining yaqinligi.
2. Hamkorlikdagi filtrlash (CF) - o’zaro ta’sir signallari bo’yicha o’xshash foydalanuvchilar/aytemalar.
3. Matritsali faktorizatsiya/embeddinglar - score uchun yashirin omillar, dot-product/MLP.
4. Learning-to-Rank (LTR) - ro’yxatlarni (pairwise/listwise) reytinglash uchun gradient busting/neyroset.
5. Re-ranking qatlami - diversifikatsiya/yangilik/cheklovlarni hisobga olgan holda post-processing.
6. Kontekst banditlar - exploration-exploitation bilan onlayn o’qitish.
7. RL/seq-tavsiyalar - yo’l/sessiyani optimallashtirish (ko’p bosqichli mukofot).
3) Qaror qabul qilish konveyeri
1. Recall (nomzodlarni tezkor tanlash, 200-5k): embeddingi, qoidabuzarlik/toifasi, mashhurlik bo’yicha ANN.
2. Rank (aniq skoring, 20-200): Boy chichli LTR/MLP.
3. Re-rank/Policy (fin. ro’yxat, 5-30): ko’p maqsadli optimallashtirish + cheklovlar va diversifikatsiya.
4. Action :/push/e-mail/kaplar va «jim soatlar» bilan shaxsiy vitrin.
5. Feedback: implicit/explicit signallari → qayta tayyorlash/bandit-yangilash.
4) Ko’p maqsadli maqsadlar va cheklovlar
Maqsadlar: CTR/CTCVR, ushlab qolish, tushum, marja, LTV, qoniqish, tezlik.
Cheklovlar: aloqalar chastotasi, RG/komplayens, turli toifalar, brendlar/provayderlar kvotalari, fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Amaliyot: qoidalar bilan birlashtirilgan policy-aware re-ranking (§ 7 ga qarang).
5) Sovuq start va kichik ma’lumotlar
Yangi foydalanuvchilar: segment/kanal/geo boʻyicha mashhurlik, anketa/birinchi klik boʻyicha kontent-based, keng razvedkali bandit.
Yangi aytemlar: kontent-embeddingi (matn/teglar), meta-maʼlumotlar, provayder/janr boʻyicha «look-alike».
Few-shot: embeddingi/multi-vazifa (shared tower).
6) Baholash metrikasi
Oflayn
Tasniflash/reyting: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Biznes: eCPM/eRPM, kutilayotgan daromad/marja, LTV proxy.
Ko’p maqsadli: o’lchangan metriklar (masalan, NDCG bilan gain = qiymat).
Kalibrlash: Brier, ECE (ehtimollar uchun).
Списки: coverage/diversity/novelty/serendipity.
Onlayn
A/B va bandit testlari: CTR, CTCVR, daromad/seans, D1/D7 ushlab qolish, shikoyatlar/javoblar (guardrails), latency/SLA.
Inkremt: lift%, CUPED/kvazi-eksperimentlar murakkab randomizatsiyada.
7) Diversifikatsiya va policy-aware re-ranking
MMR/PM-2/xQuAD: «relevantlik × yangilik» balansi.
Kvotalar: janrlar/provayderlar/tavakkalchilik toifalari bo’yicha min/max.
Fairness: tizimli xatolarni oldini olish uchun ulushlarni cheklash.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Gisterezis: ro’yxatlar bilan «miltillamaslik»; pozitsiyalarni inertsiya bilan yangilang.
8) Kontekstli banditlar va RL
Banditlar (LinUCB, Thompson): tezkor online-learn, exploration nazorati. Birinchi pozitsiya/kreativ/kanal uchun yaxshi.
Kaskadli banditlar: optimallashtirish top-k.
RL (DQN/Policy Gradient/SlateQ): sessiyani personallashtirish, ko’p bosqichli mukofotni optimallashtirish (qaytarish/tushum/uzoq sessiya).
Xavfsizlik: off-polislar (IPS/DR), simulyatorlar, tadqiqot uchun kaplar, safe RL.
9) Sababiy ta’sir ostida personallashtirish
Uplift modellari: kimga tegish kerak (persuadables), Qini/AUUC, uplift @k.
Treatment-aware tartibi: «xom» CTR oʻrniga inkrement ehtimolini kiriting.
Guardrails: Do-Not-Disturb segmentlari, RG qoidalari, fairness.
10) Arxitektura va MLOps
Feature Store: onlayn/oflayn paritet, point-in-time, sessiya uchun TTL.
Candidate services: ANN/FAISS/ScaNN, segmentlar boʻyicha keshlash/sharding.
Ranker: gradient kuchaytirish/MLP/Tower arxitekturasi, kalibrlash.
Policy/Re-rank: qoidalar/cheklovlar, diversifikatsiya, bandit qatlam.
Orkestr: so’rovlarning idempotentligi, p95 latency ≤ 100-300 ms, DLQ/retray.
Kuzatilganlik: trastirovka’correlation _ id’, fich-drift (PSI), sifat metrikasi, «stop-kran».
11) Xavfsizlik, maxfiylik, axloq
PII-minimallashtirish: tokenizatsiya, RLS/CLS, niqoblash.
Tushuntirilishi: top-features/ko’rsatish sabablari; apellatsiya yo’li.
Etika/RG: chastota qopqoqlari, «sokin soatlar», zaif guruhlarda tajovuzkor offeralarni taqiqlash.
Komplayens: qarorlar/loglar auditi, siyosat va kreativlar versiyasi.
12) Pasportlar va decision tables
Tavsiya etuvchining pasporti (misol)
ID/versiya: ’REC _ HYBRID _ RANK _ v5 ’
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversity), brendlar kvotalari, RG-filtrlar, chastota qopqoqlari
Maqsad/metrika: NDCG @ 10, eRPM, shikoyatlar ≤ X, latency p95 ≤ 150 ms
A/V: 14 kun, CUPED; guardrails - RG/yetkazib berish
Egalari/logotiplash/runibuk
Decision table (eskiz)
13) Psevdo-kod (sketch)
A. Gibrid recall + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling kreativlar uchun
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnostika va monitoring
Sifati: NDCG/Recall @k, eRPM, coverage/diversity, kalibrlash.
Onlayn: CTR/CTCVR, daromad/seans, ushlab qolish, shikoyatlar/javoblar, latency/timeout.
Drift: PSI/KL asosiy fazalar bo’yicha, korrelyatsiyaning pasayishi onlayn.
Cheklovlar: kvotalarni/diversity bajarish, RG-filtrlarga zarbalar, chastota qopqoqlari.
Runibuki: recall degradatsiyasi (ANN pasayishi), shikoyatlarning ko’payishi, taymautlarning ko’payishi, halokatli folbek (popular-safe).
15) Tez-tez xatolar
Inkrement/qiymat o’rniga «xom CTR» ni optimallashtirish.
Re-ranking qatlami yo’q → xilma-xillik, «ko’rish tunneli».
Kelajak yuzlari, TZ aralashmasi, signallarning kelishilmagan ta’riflari.
Kalibrlash va chegara yo’qligi → Byudjet va chastota qopqoqlari «buziladi».
Ignor RG/etika va fairness → shikoyatlar, xavflar, tartibga soluvchi muammolar.
Nesinxron onlayn/oflayn → prodda muvaffaqiyatsizlik.
16) Shaxslashtirish relizidan oldingi chek-varaq
- Model pasporti (maqsadlari, cheklovlari, metrikalari, egalari, versiyalari)
- Recall/Rank/Re-rank tarqatildi; ANN va keshlar
- PIT-fichlar va kalibrlash, oflayn benchmarklar (NDCG/PR-AUC) o’tkazildi
- A/B-dizayn va guardrails; decision-ready hisoboti (effekt va xavflar)
- Cheklovlar: RG/chastota/diversity/kvotalar - joriy etildi va monitoring qilinmoqda
- Kuzatish darajasi, alertlar, «stop-kran», folbeklar (popular-safe)
- Hujjatlar va runibuklar, inkremental yaxshilanishlar rejasi
Jami
Shaxslashtirish modellari faqat policy-aware tizimi kabi samarali: boy ma’lumotlar va embeddinglar → Recall/Rank/Re-rank → onlayn moslashish uchun banditlar/RL → qat’iy cheklovlar va etika ostida ko’p maqsadli maqsadlar → intizomli MLOps va monitoring. Bunday kontur nafaqat «tavsiyalar» beradi, balki ROMI, LTV va qoniqishni oshiradigan boshqariladigan yechimlar xavfsiz, shaffof va takrorlanuvchan hisoblanadi.