Կերպարների մոդելներ
Կերպարի մոդելներ
Կերպարիզացիան մի համակարգ է, որտեղ ռուսական մոդելի տվյալները ցույց են տալիս ռուսական գործողությունը հակադարձ կապ։ Նպատակն է առավելագույնի հասցնել իրական արժեքը (եկամուտ/պահել/բավարարվածություն) սահմանափակումների (էթիկա/RG, հաճախականության կաթիլներ, բազմազանություն, թարմություն, SLA)։
1) Տվյալները և ներկայացումները
Հումքը 'իրադարձություններ (դիտումներ/խաղեր/գնումներ/դեպոզիտներ), բովանդակության կատալոգ (ատրիբուտներ), օգտագործողի պրոֆիլներ, ենթատեքստեր (ժամանակ/գեո/սարք/ջրանցք), որակի ազդանշաններ (բոտ/ֆրոդ)։
Ֆիչին
User: RFM, կատեգորիաների նախընտրությունները, արժեքավոր զգայունությունը, օրվա ժամանակը, սարքը։
Item: ժանր/կատեգորիա, ստուդիա/պրովայդեր, լեզուն, գինը/անկայունությունը, «թարմ»։
Exprest: dow/hod, promo/ivents, նստաշրջան, մուտքի ալիք։
Ammedings: User/item (MF/Word2Vec2Rec/transformers), մուլտիմոդալ (տեքստ/պատկեր)։
Որակը 'point-in-time (առանց աղվեսների), UTC-ժամանակը, իրադարձությունների գաղափարախոսությունը, PII դիմակավորումը։
2) Հիմնական պարադիգմները
1. Content-based-ը մոտ է item-ի և օգտագործողի մոդելի նշաններով։
2. Համագործակցային ֆիլտրը (CF) նման օգտագործողներ/այթեմներ է փոխազդեցության ազդանշանների վրա։
3. Մատրիցային ֆակտորիզացիան/էմբեդինգները թաքնված գործոններ են, dot-entt/MLP score համար։
4. Learning-to-Rank (LTR) - գրադիենտ բուստինգ/նյարդային ցանցեր ցուցակները դասակարգելու համար (pairwise/listwise)։
5. Re-ranking շերտը post-processing է, հաշվի առնելով/novise/սահմանափակումները։
6. Համատեքստային ավազակները առցանց ուսուցում են contation-edoitation-ի հետ։
7. RL/seq-առաջարկությունները ճանապարհի/նստաշրջանի լավատեսությունն են (բազմաթիվ մրցանակներ)։
3) Որոշումների կայացման փոխակրիչ
1. Recall (թեկնածուների արագ ընտրությունը, 200-5k): ANN-ը սաղմեդդինգներով, կանոնները-բեյս/կատեգորիա, ժողովրդականություն։
2. Rank (ճշգրիտ սկորինգը, 20-200): LTR/MLP հարուստ ավարտներով։
3. Re-rank/Policy (ֆին. ցանկը, 5-30) 'բազմաբնույթ օպտիմիզացիա + սահմանափակումը և ինդեքսավորումը։
4. Action: ցուցադրություն/2019/e-mail/անձնական վիտրինը գլխարկներով և «հանգիստ ժամերով»։
5. Feedback: implicit/medicit ազդանշանները հակադարձում են/բանդիտ նորարարություն։
4) Բազմաթիվ նպատակներ և սահմանափակումներ
Նպատակները ՝ CTR/CTCVR, պահպանումը, եկամուտները, մարժան, LTV, բավարարվածությունը, արագությունը։
Սահմանափակումներ ՝ շփումների հաճախականությունը, RG/կոմպլենսը, կատեգորիաների բազմազանությունը, բրենդների քվոտաները/պրովայդերը, fairness։
Ձևակերպում
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Պրակտիկա 'արեք policy-are-ranking (տե՛ ս 387), որտեղ սկորը միացված է կանոններին։
5) Սառը մեկնարկը և փոքր տվյալները
Նոր օգտագործողները 'հայտնի սեգմենտով/ww.ru/geo, բովանդակություն-based հարցաթերթիկ/առաջին տեսահոլովակ, ավազակ լայն հետախուզությամբ։
Նոր items 'բովանդակություն-սաղմեդինգներ (տեքստ/tegi), մետատվյալներ, «look-alike» պրովայդեր/ժանրի վրա։
Few-shot 'էմբեդինգների/մուլտֆիլմի առաջադրանքի տեղափոխումը (shared tower)։
6) Գնահատականների մետրերը
Օֆլինը
Դասակարգումը/դասակարգումը 'AUC/PR-AUC, NDCG @ k, MAP, Recall @ k։
Բիզնեսը ՝ eCPM/eRPM, ակնկալելի եկամուտ/մարջա, LTV proxy։
Բազմազան 'կշռված չափումներ (օրինակ, NDCG-ը gain = արժեքով)։
Տրամաչափություն ՝ Brier, IV (հավանականության համար)։
Списки: coverage/diversity/novelty/serendipity.
Առցանց
A/B և ավազակային թեստեր ՝ CTR, CTCVR, եկամուտ/նստաշրջան, D1/D7, բողոքներ/ազդանշաններ (guardrails), latency/SLA։
Redrement: lift%, CUPED/quaziexperiment բարդ ռանդոմիզացիայի ժամանակ։
7) Ինտերֆեյսը և policy-aermre-ranking
MMR/PM-2/xQUAD: հավասարակշռություն «revantenty novisna»։
Քվոտաներ ՝ min/max ժանրերում/պրովայդերներ/ռիսկային կատեգորիաներ։
Fairness: սահմանափակել մասնաբաժինը համակարգային խաչմերուկներին հակազդելու համար։
Սկորինգի օրինակ
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Գիստերեվիչը 'ոչ թե «գաղթել» ցուցակներով։ թարմացրեք դիրքերը իներցիայի հետ։
8) Համատեքստային ավազակները և RL-ը
Բանդիտները (LinUCB, Thompson) 'արագ onport-learn, վերահսկողությունը։ Լավ է առաջին դիրքի/ստեղծագործական/ջրանցքի համար։
Կասկադային ավազակները 'top-k-ի օպտիմիզացումը։
RL (DQN/Policy Gradient/Slast Q) 'նստաշրջանի կերպարը, բազմաշերտ մրցանակների օպտիմիզացումը (108/եկամուտներ/երկար նստաշրջան)։
Անվտանգությունը 'փլեյ-պոլիսի գնահատումը (IPS/DR), սիմուլյատորները, ուսումնասիրության գլխարկները, safe RL-ը։
9) Կերպարիզացիա պատճառահետևանքային ազդեցության տակ
Uplift մոդելները 'ո՞ վ պետք է դիպչել (persuadables), Qini/AUUC, uplift @ k.
Treatium-aultions-aranging-ը 'միացրեք քրոմենթի հավանականությունը «հում» CTR-ի փոխարեն։
Guardrails: Do-Cort-Disturb հատվածները, RG կանոնները, fairness։
10) Ճարտարապետությունը և MLOps-ը
Feature Store: Առցանց/offline paritet, point-in-time, TTL-ի համար։
Candidate 2019: ANN/FAISS/ScaNN, քեշինգ/շարդինգ հատվածներով։
Ranker: գրադիենտ բուստինգը/MLP/Tower ճարտարապետություն, տրամաբանություն։
Policy/Re-rank: կանոնները/սահմանափակումները, ինդեքսավորումը, ավազակային շերտը։
Orcestration: Դիմումների համադրելիությունը, p95 latency 24100-300 ms, DLQ/retrai։
Դիտարկումը 'հետք' wwww.relation _ id ', fich-drift (PSI), որակի չափումներ, «stop-cran»։
11) Անվտանգություն, գաղտնիություն, էթիկա
PII-նվազեցումը 'տոկենիզացիա, RFC/CLS, դիմակավորում։
Բացատրություն ՝ top-features/ցուցադրման պատճառները։ բողոքարկման ճանապարհը։
Էթիկա/RG 'հաճախականության գլխարկներ, «հանգիստ ժամացույցներ», խոցելի խմբերի ագրեսիվ օֆերի արգելքներ։
Կոմպլանսը 'որոշումների/լոգարանների աուդիտ, քաղաքական և ստեղծագործական տարբերակներ։
12) Անձնագրեր և decision tables
Առաջարկի անձնագիր (օրինակ)
ID/տարբերակը '«REC _ HYBRID _ RANK _ v5»
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversity), բրենդերի քվոտաներ, RG ֆիլտրեր, հաճախականության գլխարկներ
Նպատակներ/մետրիկներ ՝ NDCG @ 10, eRPM, բողոքներ X, latency p95-150
A/B: 14 օր, CUPED; gudrails - RG/առաքում
Սեփականատերեր/տրամաբանություն/ռունիբուկ
Decision table (ուրվագիծ)
13) Կեղծ կոդը (սկետչ)
A. Windows Recall + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling ստեղծագործողների համար
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Ախտորոշումը և լուծումը
Որակը ՝ NDCG/Recall @ k, eRPM, coverage/diversity, տրամաչափը։
Առցանց 'CTR/CTCVR, եկամուտը/նստաշրջանը, պահելը, բողոքները/ազդանշանները, latency/timeout։
Դրեյֆը 'PSI/KL հիմնական փուլերով, օֆլինի հարաբերակցության նվազումը առցանց է։
Սահմանափակումներ 'քվոտ/diversity, հարվածներ RG ֆիլտրերում, հաճախականության կաթիլներ։
Ռունիբուկի 'ռեքալի քայքայումը (ANN-ի անկումը), բողոքների աճը, թայմաուտների աճը, վթարային ֆոլբեքը (popular-safe)։
15) Հաճախակի սխալներ
«Հում CTR» -ի օպտիմիզացումը ռենտգենյան/արժեքների փոխարեն։
Ոչ թե re-ranking շերտը բացատրվում է բազմազանությամբ, «տեսողության թունել»։
Ապագայի աղվեսները, TZ խառնուրդը, ազդանշանների չհամաձայնեցված սահմանումները։
Տրամաբանության և շեմերի բացակայությունը «փչացնում է» բյուջեն և հաճախականության կաթիլները։
RG/էթիկայի և fairness-ի անտեսումը բացատրում է բողոքները, ռիսկերը, կարգավորող խնդիրները։
Nesinhron առցանց/offline fich-ը վաճառում է ձախողում։
16) Chek-Show-Show-Show-ի առջև
- Մոդելի անձնագիր (նպատակներ, սահմանափակումներ, չափումներ, տերեր, վարկածներ)
- Recall/Rank/Re-rank բաժանված են; ANN եւ կեշի քրտնաջան
- PIT-fichi և տրամաչափը, բենչարքի օֆլայնը (NDCG/PR-AUC) անցանելի են։
- A/B դիզայն և guardrails; decision-ready (ազդեցություն և ռիսկեր)
- Սահմանափակումներ ՝ RG/հաճախականություն/diversity/քվոտաներ, ներդրվում և վերահսկվում են։
- Դիտարկումը, ալերտները, «կանգառ-կռանը», ֆոլբեկները (popular-safe)
- Մոսկվան և ռունիբուկները, ռեմենտալ բարելավման պլանը
Արդյունքը
Նիշերի մոդելները արդյունավետ են միայն որպես policy-ault համակարգ 'հարուստ տվյալներ և սաղմեդդինգներ Recall/Rank/Rank/Re-rank ռուսական ավազակախմբեր/RL-ը, որպեսզի առցանց հարմարեցվեն ռուսական բազմաբնույթ նպատակները կոշտ սահմանափակումների և էթիկայի համար, որոնք տեղադրված են MLOps-ի և ռուսական։ Այս նախաձեռնությունը տալիս է ոչ միայն «առաջարկություններ», այլ կառավարվող լուծումներ, որոնք բարձրացնում են ROMI, LTV և բավարարվածությունը 'անվտանգ, թափանցիկ և վերարտադրված։