Моделҳои фардикунонӣ
Моделҳои фардикунонӣ
Фардикунонӣ системаест, ки дар он маълумотҳо → моделҳо → сиёсати намоишӣ → амал → фикру мулоҳизаҳо мавҷуданд. Ҳадаф аз баланд бардоштани арзиши афзоянда (даромад/нигоҳдорӣ/қаноатмандӣ) ҳангоми қонеъ кардани маҳдудиятҳо (ахлоқ/RG, ҳадди басомад, гуногунрангӣ, тару тоза, SLA) иборат аст.
1) Маълумот ва нуқтаи назар
Ашёи хом: ҳодисаҳо (манзараҳо/кликҳо/бозиҳо/харид/амонатҳо), феҳристи мундариҷа (атрибутҳо), профилҳои корбар, контекст (вақт/гео/дастгоҳ/канал), сигналҳои сифат (бот/қаллобӣ).
Фикӣ:- Корбар: RFM, афзалиятҳои категория, ҳассосияти нарх, вақти рӯз, дастгоҳ.
- Банди: жанр/категория, студия/провайдер, забон, нарх/ноустуворӣ, "тару тоза".
- Контекст: dow/hod, promo/events, сессия, канали вуруд.
- Ҷобаҷогузорӣ: фосилаҳои муштараки корбар/ашё (MF/Word2Vec2Rec/transformers), мултимодалӣ (матн/тасвирҳо).
- Сифат: нуқтаи вақт (бе чеҳра), UTC-вақт, аблаҳии рӯйдодҳо, ниқоби PII.
2) Парадигмаҳои асосӣ
1. Дар асоси мундариҷа - наздикӣ аз рӯи хусусиятҳои суроға ва профили корбар.
2. Филтри муштарак (CF) - корбарони шабеҳ/aytems дар асоси сигналҳои муштарак.
3. Факторизатсия/ҷобаҷогузории матритса - омилҳои пинҳон, нуқта-маҳсулот/MLP барои хол.
4. Learning-to-Rank (LTR) - шабакаҳои градиентӣ/нейрон барои рӯйхатҳои гурӯҳбандӣ (ҷуфт/рӯйхат).
5. Аз нав гурӯҳбандии қабат - коркарди баъдиҷангӣ, бо дарназардошти диверсификатсия/навоварӣ/маҳдудиятҳо.
6. Бандитҳои контекстӣ - омӯзиши онлайн бо иктишоф-истисмор.
7. Тавсияҳои RL/seq - оптимизатсияи роҳ/сессия (мукофоти бисёрҷониба).
3) Лӯлаи қарор
1. Ба ёд оред (интихоби босуръати номзадҳо, 200-5k): ANN аз рӯи воридкунӣ, қоидаҳо/категория, маъруфият.
2. Рутба (холҳои дақиқ, 20-200): LTR/MLP бо хусусиятҳои бой.
3. Рутба/Сиёсат (Фин. Рӯйхат, 5-30): оптимизатсияи бисёрҷанба + маҳдудиятҳо ва диверсификатсия.
4. Амал: нишон додан/тела додан/почтаи электронӣ/намоиши шахсӣ бо посбонони даҳон ва "соатҳои ором".
5. Фикру мулоҳизаҳо: сигналҳои номуайян/возеҳ → бозомӯзӣ/bandit-update.
4) Ҳадафҳо ва маҳдудиятҳои бисёрҳадаф
Ҳадафҳо: CTR/CTCVR, нигоҳдорӣ, даромад, маржа, LTV, қаноатмандӣ, суръат.
Маҳдудиятҳо: басомади тамос, RG/мутобиқат, намудҳои гуногун, квотаҳои бренд/провайдер, адолат.
[
\ max\sum _ i w_i\cdot\text {Objective} _ i\quad
\ матн {с. т.} матн {caps, RG, гуногунрангӣ, SLA}
]
Амал: аз нав гурӯҳбандӣ кардани сиёсат (ниг. § 7), ки суръат бо қоидаҳо якҷоя карда мешавад.
5) Оғози хунук ва маълумоти хурд
Истифодабарандагони нав: маъруфият аз рӯи сегмент/канал/гео, мундариҷа дар асоси саволнома/клики аввал, бандит бо зеҳни васеъ.
Aitems нав: воридкунии мундариҷа (матн/барчасбҳо), метамаълумот, "ба ҳам монанд" аз ҷониби провайдер/жанр.
Миқдори ками тир: ҷобаҷогузории интиқол/манораи муштарак.
6) Нишондиҳандаҳои баҳодиҳӣ
Офлайн
Тасниф/рейтинг: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Тиҷорат: ECPM/eRPM, даромад/маржаи пешбинишуда, прокси LTV.
Multipurpose: ченакҳои вазншуда (масалан, NDCG бо фоида = арзиш).
Калибрченкунӣ: Brier, ECE (барои эҳтимолият).
Списки: фарогирӣ/гуногунрангӣ/навоварӣ/серендипитсия.
Онлайн
Санҷишҳои A/B ва bandit: CTR, CTCVR, даромад/сессия, нигоҳдории D1/D7, шикоятҳо/обуна (посбонҳо), ниҳонӣ/SLA.
Афзоиш: бардоштан%, таҷрибаҳои CUPED/квази-дар тасодуфии мураккаб.
7) Диверсификатсия ва рейтинги такрории сиёсат
MMR/PM-2/xQuAD: тавозуни "аҳамият × навоварӣ".
Квотаҳо: min/max аз рӯи жанр/провайдер/категорияи хатар.
Адолат: Маҳдудияти саҳмияҳо барои пешгирӣ кардани skewing системавӣ.
[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {{text {click}} +\beta\cdot\text {Value} -\gamma\cdot} text {Fatigue} + Novelty}
]
Гистерезис: рӯйхатҳои "чашм напӯшед"; Навсозии ашёҳо бо инерсия.
8) Бандитҳои контекстуалӣ ва RL
Бандитҳо (Lin UCB, Томпсон): онлайн-омӯзиши зуд, назорати иктишофӣ. Хуб барои мавқеи аввал/эҷодӣ/канал.
Бандитҳои каскадӣ: оптимизатсияи боло-к.
RL (DQN/Policy Gradient/Slate
Бехатарӣ: арзёбии берун аз сиёсат (IPS/DR), тренажерҳо, сарпӯшҳо барои таҳқиқот, RL бехатар.
9) Фардикунонӣ барои таъсири сабабӣ
Моделҳои баландошёна: кӣ бояд ламс карда шавад (боварибахш), Qini/AUUC, uplift @ k.
Рейтинги огоҳона дар табобат: Ба ҷои CTR-и хом эҳтимолияти афзоиш дохил карда мешавад.
Гвардияҳо: Сегментҳои Do-Not-Disturb, қоидаҳои RG, адолат.
10) Меъморӣ ва MLO ps
Дӯкони хусусият: паритети онлайн/офлайнӣ, нуқтаи вақт, TTL барои хусусиятҳои сессия.
Хидматҳои номзадӣ: ANN/FAISS/Sca
Ранкер: баланд бардоштани градиент/меъмории MLP/манораҳо, калибрченкунӣ.
Сиёсат/Рутба: қоидаҳо/маҳдудиятҳо, диверсификатсия, қабати бандит.
Оркестр: idempotency дархост, p95 дермонӣ ≤ 100-300 мс, DLQ/retray.
Мушоҳида: пайгирии таносуби _ id, PSI, ченакҳои сифат, stopcock.
11) Амният, махфият, ахлоқ
Кам кардани PII: токенизатсия, RLS/CLS, ниқоб.
Фаҳмондадиҳӣ: хусусиятҳои боло/сабабҳои намоиш; роҳи муроҷиат.
Этика/RG: ҳадди басомад, "соатҳои ором", манъи пешниҳодҳои хашмгин аз гурӯҳҳои осебпазир.
Мувофиқат: аудити қарорҳо/гузоришҳо, версияҳои сиёсат ва эҷодкорон.
12) Шиносномаҳо ва ҷадвалҳои қарор
Шаҳодатномаи истинод (мисол)
ID/версия: 'REC _ HYBRID _ RANK _ v5'
Ёдовар мешавем: ANN (ҷобаҷогузории корбар/ашё), top-500
Ранкер: LTR-GBM + MLP (хусусиятҳо: корбар RFM, банди мета, контекст)
Рутба: PM-2 (гуногунрангӣ), квотаҳои бренд, филтрҳои RG, ҳадди басомад
Ҳадафҳо/Ченакҳо: NDCG @ 10, eRPM, zhaloby ≤ Kh, latency p95 ≤ 150 ms
A/B: 14 рӯз, CUPED; посбонҳо - RG/таҳвил
Соҳибон/Сабти ном/Runibook
Ҷадвали қарор
13) Кодекси псевдо (эскиз)
A. гибрид ба хотир меорад + дараҷа + рутба
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
Интихоби Б.Томпсон барои эҷодкорон
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Ташхис ва мониторинг
Сифат: NDCG/Recall @ k, ERPM, фарогирӣ/гуногунрангӣ, калибрченкунӣ.
Онлайн: CTR/CTCVR, даромад/сессия, нигоҳдорӣ, шикоятҳо/обуна, таъхир/вақт.
Дрифт: PSI/KL аз рӯи хусусиятҳои асосӣ, тарки таносуби oflayn↔onlayn.
Маҳдудиятҳо: иҷрои квотаҳо/гуногунрангӣ, таъсир ба филтрҳои RG, ҳадди басомад.
Runibooks: таназзулро ба хотир оред (тарки ANN), зиёд шудани шикоятҳо, афзоиши танаффус, бозгашти фавқулодда (маъмул-бехатар).
15) Хатогиҳои зуд-зуд
Оптимизатсияи "CTR хом" ба ҷои афзоиш/арзиш.
Қабати дубора гурӯҳбандишаванда → гуногунии кам, "нақби биниш" вуҷуд надорад.
Чеҳраҳо аз оянда, омезиши TZ, таърифҳои номувофиқи сигнал.
Набудани калибрченкунӣ ва ҳудудҳо → буҷа ва ҳадди басомадҳо "бадтар мешаванд".
RG/ахлоқ ва адолатро нодида гиред § шикоятҳо, хатарҳо, масъалаҳои танзимкунанда.
Хусусияти онлайн/офлайнӣ ғайри синхрон → нокомӣ дар фурӯш.
16) Рӯйхати санҷиши фардикунонии пеш аз озодкунӣ
- Шиносномаи намунавӣ (ҳадафҳо, маҳдудиятҳо, ченакҳо, соҳибон, версияҳо)
- Ёдрас/Rank/Re-rank; ANN ва кэшҳо гарм шуданд
- Хусусиятҳои PIT ва калибрченкунӣ, нишондиҳандаҳои офлайнӣ (NDCG/PR-AUC) гузаштанд
- Тарҳи A/B ва посбонҳо; гузориши омода оид ба қарор
- Маҳдудиятҳои RG/Басомад/Гуногунӣ/Квота - Татбиқ ва назорат
- Мушоҳидакорӣ, огоҳиҳо, таваққуфи кран, пӯшишҳо (маъмул-бехатар)
- Ҳуҷҷатгузорӣ ва Runibooks, Нақшаи такмили афзоиш
Ҷамъ
Моделҳои фардикунонӣ танҳо ҳамчун системаи огоҳии сиёсат самаранок мебошанд: маълумоти бой ва ҷобаҷогузорӣ → гибридии Recall/Rank/Re-rank/bandits/RL барои мутобиқсозии онлайн → ҳадафҳои бисёрҳадаф барои маҳдудиятҳои қатъӣ ва ахлоқӣ → MLO ps ва мониторинги интизомӣ. Чунин схема на танҳо "тавсияҳо", балки қарорҳои идорашавандаро пешниҳод мекунад, ки ROMI, LTV ва қаноатмандиро афзоиш медиҳанд - бехатар, шаффоф ва репродуктивӣ.