Персоналдаштыруу моделдери
Персоналдаштыруу моделдери
Персоналдаштыруу - бул маалыматтар → моделдер → көрсөтүү саясаты → аракет → пикир турган система. Максаты - чектөөлөрдү (этика/RG, жыштык, ар түрдүүлүк, сергектик, SLA) сактоо менен инкременталдык баалуулукту (киреше/сактоо/канааттануу) максималдуу.
1) Маалыматтар жана түшүнүктөр
Сырьё: окуялар (көрүүлөр/басуулар/оюндар/сатып алуулар/депозиттер), мазмун каталогу (атрибуттар), колдонуучу профилдери, контексти (убакыт/гео/аппарат/канал), сапат сигналдары (бот/фрод).
Фичи:- Колдонуучу: RFM, категория артыкчылык, баа сезгичтиги, күнү-түнү, түзмөк.
- Item: жанр/категория, студия/провайдер, тил, баа/туруксуздук, "сергектик".
- Context: dow/hod, промо/иш-чаралар, сессия, кирүү каналы.
- Эмбеддинг: биргелешкен мейкиндик user/item (MF/Word2Vec2Rec/transformers), multimodal (текст/сүрөттөр).
- Сапаты: point-in-time (жүзүн жок), UTC-Time, окуялардын демпотенттиги, PII жашыруу.
2) Негизги парадигмалар
1. Content-based - айтемдин жана колдонуучунун профилинин белгилери боюнча жакындык.
2. Коллаборациялык чыпкалоо (CF) - өз ара аракеттенүү сигналдары боюнча окшош колдонуучулар/айтемдер.
3. Матрицалык факторизация/эмбеддинг - жашыруун факторлор, dot-product/MLP үчүн score.
4. Learning-to-Rank (LTR) - тизмелерди ранжирлөө үчүн градиент/нейрон тармактары (pairwise/listwise).
5. Re-ranking катмары - диверсификация/жаңылык/чектөөлөрдү эске алуу менен post-processing.
6. Контексттик бандиттер - exploration-exploitation менен онлайн окутуу.
7. RL/seq-сунуштар - жол/сессия оптималдаштыруу (көп баскычтуу сыйлык).
3) Чечим кабыл алуу конвейери
1. Recall (тез талапкерлерди тандоо, 200-5k): ANN эмбеддинг, эрежелер-бейс/категория, популярдуулугу.
2. Rank (так эсеби, 20-200): LTR/MLP бай чүчүкулак менен.
3. Re-rank/Policy (фин. тизме, 5-30): көп максаттуу оптималдаштыруу + чектөөлөр жана диверсификация.
4. Action :/push/e-mail/жеке терезе менен каптарды жана "тынч саат".
5. Feedback: implicit/explicit сигналдары → кайра даярдоо/бандит-жаңыртуу.
4) Көп максаттуу максаттар жана чектөөлөр
Максаттары: CTR/CTCVR, сактоо, киреше, маржа, LTV, канааттануу, ылдамдык.
Чектөөлөр: байланыш жыштыгы, RG/комплаенс, категориялардын ар түрдүүлүгү, бренддердин/провайдерлердин квоталары, fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Practice: policy-aware re-ranking (караңыз § 7), бул жерде ылдамдык эрежелер менен бириктирилген.
5) муздак баштоо жана чакан маалыматтар
Жаңы колдонуучулар: сегмент/канал/гео боюнча популярдуулугу, анкета/биринчи басылган мазмун, кеңири чалгындоо менен бандит.
Жаңы айтемдер: контент-эмбеддингдер (текст/теги), метадеректер, провайдер/жанр боюнча "look-alike".
Few-shot: которуу эмбеддинг/көп тапшырма (shared tower).
6) Баалоо өлчөмдөрү
Оффлайн
Классификация/рейтинг: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Бизнес: eCPM/eRPM, күтүлгөн киреше/маржа, LTV прокси.
Көп максаттуу: салмактуу метриктер (мисалы, NDCG менен gain = баалуулук).
Калибрлөө: Brier, ECE (ыктымалдык үчүн).
Списки: coverage/diversity/novelty/serendipity.
Онлайн
A/B жана бандиттик тесттер: CTR, CTCVR, киреше/сессия, D1/D7 сактоо, даттануулар/жооптор (guardrails), latency/SLA.
Инкремент: lift%, CUPED/квазиэксперименттер татаал рандомизация менен.
7) Ар түрдүүлүк жана policy-aware кайра карап чыгуу
MMR/PM-2/xQuAD: "актуалдуулук × жаңылык" балансы.
Квоталар: жанр/провайдерлер/тобокелдик категориялары боюнча min/max.
Fairness: системалуу кыйшаюуларды болтурбоо үчүн үлүштөрдү чектөө.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Гистерезис: "жарк этпей" тизмелери; инерция менен позицияңызды жаңылаңыз.
8) Контексттик бандиттер жана RL
Бандиттер (LinUCB, Томпсон): тез онлайн-окуу, мониторинг жүргүзүү. Биринчи позиция/чыгармачылык/канал үчүн жакшы.
Каскаддык бандиттер: оптималдаштыруу top-k.
RL (DQN/Policy Gradient/SlateQ): сессиялык персоналдаштыруу, көп баскычтуу сыйлыкты оптималдаштыруу (кайтарым/киреше/узак сессия).
Коопсуздук: Off-Police баалоо (IPS/DR), симуляторлор, изилдөө, коопсуздук RL.
9) себеп таасири астында жекелештирүү
Uplift моделдери: ким тийиши керек (persuadables), Qini/AUUC, uplift @k.
Treatment-aware ранжирлөө: ордуна "чийки" CTR инкремент ыктымалдыгын камтыйт.
Guardrails: Do-Not-Disturb сегменттери, RG-эрежелери, fairness.
10) Архитектура жана MLOps
Feature Store: онлайн/оффлайн паритет, пункту-in-time, сессия үчүн TTL.
Candidate services: ANN/FAISS/ScaNN, сегменттер боюнча кэш/шардинг.
Ranker: gradient boosting/MLP/Tower архитектура, калибрлөө.
Policy/Re-rank: эрежелер/чектөөлөр, диверсификация, бандиттик катмар.
Оркестр: суроо-талаптын ыктымалдыгы, p95 latency ≤ 100-300 ms, DLQ/retry.
Байкоо: trace 'correlation _ id', fich-drift (PSI), сапат метрикасы, "stop-кран".
11) Коопсуздук, купуялык, этика
PII-минималдаштыруу: tokenization, RLS/CLS, masking.
түшүндүрмө: top-features/көрсөтүү себептери; даттануу жолу.
Этика/RG: жыштык, "тынч саат", аялуу топтордун агрессивдүү offers тыюу.
Комплаенс: чечимдер/логдордун аудити, саясатчылардын жана чыгармачылыктардын версиялары.
12) Паспорт жана decision tables
Сунуш кылуучунун паспорту (мисал)
ID/версия: 'REC _ HYBRID _ RANK _ v5'
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversity), бренддердин квоталары, RG чыпкалары, жыштык капкактары
Максаттар/көрсөткүчтөр: NDCG @ 10, eRPM, даттануулар ≤ X, latency p95 ≤ 150 мс
A/C: 14 күн, CUPED; guardrails - RG/жеткирүү
Ээлери/Логин/Runibook
Decision table (эскиз)
13) Псевдо-код (скетч)
A. Гибриддик recall + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling чыгармачылыгы үчүн
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Диагностика жана мониторинг
Сапаты: NDCG/Recall @k, eRPM, coverage/diversity, калибрлөө.
Онлайн: CTR/CTCVR, киреше/сессия, кармоо, даттануулар/жооптор, latency/timeout.
Дрейф: PSI/KL негизги көрсөткүчтөр боюнча, оффлайн байланыштын төмөндөшү онлайн.
Чектөөлөр: квоталарды/ар түрдүүлүктү аткаруу, RG чыпкаларына сокку уруу, жыштык капкактары.
Рунибуки: recall деградациясы (ANNдин кулашы), даттануулардын өсүшү, таймаштардын көбөйүшү, авариялык фолбэк (popular-safe).
15) Көп каталар
Инкременттин/баалуулуктун ордуна "чийки CTR" оптималдаштыруу.
Жок re-ranking катмар → аз түрдүүлүк, "көрүү туннели".
Келечектен жүздөр, TZ аралаштыруу, сигналдардын макулдашылбаган аныктамалары.
калибрлөө жана босоголордун жоктугу → "бузулган" бюджет жана жыштык капка.
Ignor RG/этика жана fairness → даттануулар, тобокелдиктер, жөнгө салуучу көйгөйлөр.
Nesinhron онлайн/оффлайн → прод-ката.
16) жекелештирүү чыгаруу алдында чек-тизмеси
- паспорт модели (максаттары, чектөөлөрү, метрика, ээлери, нускалары)
- Recall/Rank/Re-rank таратылган; ANN жана кэш жылытуу
- PIT чүчүкулак жана калибрлөө, оффлайн бенчмарктар (NDCG/PR-AUC) өттү
- A/B-дизайн жана guardrails; decision-ready отчет (таасири жана тобокелдиктер)
- Чектөөлөр: RG/жыштыгы/ар түрдүү/квота - киргизилген жана мониторинг
- байкоо, Алерт, "stop-кран", folbacks (popular-safe)
- Документация жана Рунибуки, инкременталдык жакшыртуу планы
Жыйынтык
Жекелештирүү моделдери бир гана policy-aware системасы катары натыйжалуу: бай маалыматтар жана эмбеддинг → гибрид Recall/Rank/Re-rank → бандиттер/RL онлайн ылайыкташтыруу үчүн → катуу чектөөлөр жана этика боюнча көп максаттуу максаттар → тартиптүү MLOps жана мониторинг. Мындай контур "сунуштарды" гана эмес, ROMI, LTV жана канааттанууну жогорулатуучу башкарылуучу чечимдерди берет - коопсуз, ачык-айкын жана кайталанма.