Персоналдаштыруу моделдери

Персоналдаштыруу - бул маалыматтар → моделдер → көрсөтүү саясаты → аракет → пикир турган система. Максаты - чектөөлөрдү (этика/RG, жыштык, ар түрдүүлүк, сергектик, SLA) сактоо менен инкременталдык баалуулукту (киреше/сактоо/канааттануу) максималдуу.

1) Маалыматтар жана түшүнүктөр

Сырьё: окуялар (көрүүлөр/басуулар/оюндар/сатып алуулар/депозиттер), мазмун каталогу (атрибуттар), колдонуучу профилдери, контексти (убакыт/гео/аппарат/канал), сапат сигналдары (бот/фрод).

Фичи:

Колдонуучу: RFM, категория артыкчылык, баа сезгичтиги, күнү-түнү, түзмөк.
Item: жанр/категория, студия/провайдер, тил, баа/туруксуздук, "сергектик".
Context: dow/hod, промо/иш-чаралар, сессия, кирүү каналы.
Эмбеддинг: биргелешкен мейкиндик user/item (MF/Word2Vec2Rec/transformers), multimodal (текст/сүрөттөр).
Сапаты: point-in-time (жүзүн жок), UTC-Time, окуялардын демпотенттиги, PII жашыруу.

2) Негизги парадигмалар

1. Content-based - айтемдин жана колдонуучунун профилинин белгилери боюнча жакындык.
2. Коллаборациялык чыпкалоо (CF) - өз ара аракеттенүү сигналдары боюнча окшош колдонуучулар/айтемдер.
3. Матрицалык факторизация/эмбеддинг - жашыруун факторлор, dot-product/MLP үчүн score.
4. Learning-to-Rank (LTR) - тизмелерди ранжирлөө үчүн градиент/нейрон тармактары (pairwise/listwise).
5. Re-ranking катмары - диверсификация/жаңылык/чектөөлөрдү эске алуу менен post-processing.
6. Контексттик бандиттер - exploration-exploitation менен онлайн окутуу.
7. RL/seq-сунуштар - жол/сессия оптималдаштыруу (көп баскычтуу сыйлык).

3) Чечим кабыл алуу конвейери

1. Recall (тез талапкерлерди тандоо, 200-5k): ANN эмбеддинг, эрежелер-бейс/категория, популярдуулугу.
2. Rank (так эсеби, 20-200): LTR/MLP бай чүчүкулак менен.
3. Re-rank/Policy (фин. тизме, 5-30): көп максаттуу оптималдаштыруу + чектөөлөр жана диверсификация.
4. Action :/push/e-mail/жеке терезе менен каптарды жана "тынч саат".
5. Feedback: implicit/explicit сигналдары → кайра даярдоо/бандит-жаңыртуу.

4) Көп максаттуу максаттар жана чектөөлөр

Максаттары: CTR/CTCVR, сактоо, киреше, маржа, LTV, канааттануу, ылдамдык.
Чектөөлөр: байланыш жыштыгы, RG/комплаенс, категориялардын ар түрдүүлүгү, бренддердин/провайдерлердин квоталары, fairness.

Формулировка:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Practice: policy-aware re-ranking (караңыз § 7), бул жерде ылдамдык эрежелер менен бириктирилген.

5) муздак баштоо жана чакан маалыматтар

Жаңы колдонуучулар: сегмент/канал/гео боюнча популярдуулугу, анкета/биринчи басылган мазмун, кеңири чалгындоо менен бандит.
Жаңы айтемдер: контент-эмбеддингдер (текст/теги), метадеректер, провайдер/жанр боюнча "look-alike".
Few-shot: которуу эмбеддинг/көп тапшырма (shared tower).

6) Баалоо өлчөмдөрү

Оффлайн

Классификация/рейтинг: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Бизнес: eCPM/eRPM, күтүлгөн киреше/маржа, LTV прокси.
Көп максаттуу: салмактуу метриктер (мисалы, NDCG менен gain = баалуулук).
Калибрлөө: Brier, ECE (ыктымалдык үчүн).
Списки: coverage/diversity/novelty/serendipity.

Онлайн

A/B жана бандиттик тесттер: CTR, CTCVR, киреше/сессия, D1/D7 сактоо, даттануулар/жооптор (guardrails), latency/SLA.
Инкремент: lift%, CUPED/квазиэксперименттер татаал рандомизация менен.

7) Ар түрдүүлүк жана policy-aware кайра карап чыгуу

MMR/PM-2/xQuAD: "актуалдуулук × жаңылык" балансы.
Квоталар: жанр/провайдерлер/тобокелдик категориялары боюнча min/max.
Fairness: системалуу кыйшаюуларды болтурбоо үчүн үлүштөрдү чектөө.

Эсепти мисал:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Гистерезис: "жарк этпей" тизмелери; инерция менен позицияңызды жаңылаңыз.

8) Контексттик бандиттер жана RL

Бандиттер (LinUCB, Томпсон): тез онлайн-окуу, мониторинг жүргүзүү. Биринчи позиция/чыгармачылык/канал үчүн жакшы.
Каскаддык бандиттер: оптималдаштыруу top-k.
RL (DQN/Policy Gradient/SlateQ): сессиялык персоналдаштыруу, көп баскычтуу сыйлыкты оптималдаштыруу (кайтарым/киреше/узак сессия).
Коопсуздук: Off-Police баалоо (IPS/DR), симуляторлор, изилдөө, коопсуздук RL.

9) себеп таасири астында жекелештирүү

Uplift моделдери: ким тийиши керек (persuadables), Qini/AUUC, uplift @k.
Treatment-aware ранжирлөө: ордуна "чийки" CTR инкремент ыктымалдыгын камтыйт.
Guardrails: Do-Not-Disturb сегменттери, RG-эрежелери, fairness.

10) Архитектура жана MLOps

Feature Store: онлайн/оффлайн паритет, пункту-in-time, сессия үчүн TTL.
Candidate services: ANN/FAISS/ScaNN, сегменттер боюнча кэш/шардинг.
Ranker: gradient boosting/MLP/Tower архитектура, калибрлөө.
Policy/Re-rank: эрежелер/чектөөлөр, диверсификация, бандиттик катмар.
Оркестр: суроо-талаптын ыктымалдыгы, p95 latency ≤ 100-300 ms, DLQ/retry.
Байкоо: trace 'correlation _ id', fich-drift (PSI), сапат метрикасы, "stop-кран".

11) Коопсуздук, купуялык, этика

PII-минималдаштыруу: tokenization, RLS/CLS, masking.
түшүндүрмө: top-features/көрсөтүү себептери; даттануу жолу.
Этика/RG: жыштык, "тынч саат", аялуу топтордун агрессивдүү offers тыюу.
Комплаенс: чечимдер/логдордун аудити, саясатчылардын жана чыгармачылыктардын версиялары.

12) Паспорт жана decision tables

Сунуш кылуучунун паспорту (мисал)

ID/версия: 'REC _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), бренддердин квоталары, RG чыпкалары, жыштык капкактары

Максаттар/көрсөткүчтөр: NDCG @ 10, eRPM, даттануулар ≤ X, latency p95 ≤ 150 мс

A/C: 14 күн, CUPED; guardrails - RG/жеткирүү

Ээлери/Логин/Runibook

Decision table (эскиз)

Шарт	Контекст	Иш-аракет	Чектөөлөр	Комментарий
`new_user` & `low_history`	Онбординг	popular@segment + content-based seed	Cap жыштык, RG	муздак баштоо
`session_len>3` & `diversity_low`	сессия	re-rank с MMR	min 3 категориялары	Серендүүлүк
`uplift_push≥τ`	Оффералар	жеке бош	Do-Not-Disturb, даттануулар ≤ X	эффекттер, CTR эмес

13) Псевдо-код (скетч)

A. Гибриддик recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling чыгармачылыгы үчүн

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Диагностика жана мониторинг

Сапаты: NDCG/Recall @k, eRPM, coverage/diversity, калибрлөө.
Онлайн: CTR/CTCVR, киреше/сессия, кармоо, даттануулар/жооптор, latency/timeout.
Дрейф: PSI/KL негизги көрсөткүчтөр боюнча, оффлайн байланыштын төмөндөшү онлайн.
Чектөөлөр: квоталарды/ар түрдүүлүктү аткаруу, RG чыпкаларына сокку уруу, жыштык капкактары.
Рунибуки: recall деградациясы (ANNдин кулашы), даттануулардын өсүшү, таймаштардын көбөйүшү, авариялык фолбэк (popular-safe).

15) Көп каталар

Инкременттин/баалуулуктун ордуна "чийки CTR" оптималдаштыруу.
Жок re-ranking катмар → аз түрдүүлүк, "көрүү туннели".
Келечектен жүздөр, TZ аралаштыруу, сигналдардын макулдашылбаган аныктамалары.
калибрлөө жана босоголордун жоктугу → "бузулган" бюджет жана жыштык капка.
Ignor RG/этика жана fairness → даттануулар, тобокелдиктер, жөнгө салуучу көйгөйлөр.
Nesinhron онлайн/оффлайн → прод-ката.

16) жекелештирүү чыгаруу алдында чек-тизмеси

паспорт модели (максаттары, чектөөлөрү, метрика, ээлери, нускалары)
Recall/Rank/Re-rank таратылган; ANN жана кэш жылытуу
PIT чүчүкулак жана калибрлөө, оффлайн бенчмарктар (NDCG/PR-AUC) өттү
A/B-дизайн жана guardrails; decision-ready отчет (таасири жана тобокелдиктер)
Чектөөлөр: RG/жыштыгы/ар түрдүү/квота - киргизилген жана мониторинг
байкоо, Алерт, "stop-кран", folbacks (popular-safe)
Документация жана Рунибуки, инкременталдык жакшыртуу планы

Жыйынтык

Жекелештирүү моделдери бир гана policy-aware системасы катары натыйжалуу: бай маалыматтар жана эмбеддинг → гибрид Recall/Rank/Re-rank → бандиттер/RL онлайн ылайыкташтыруу үчүн → катуу чектөөлөр жана этика боюнча көп максаттуу максаттар → тартиптүү MLOps жана мониторинг. Мындай контур "сунуштарды" гана эмес, ROMI, LTV жана канааттанууну жогорулатуучу башкарылуучу чечимдерди берет - коопсуз, ачык-айкын жана кайталанма.

Персоналдаштыруу моделдери