Կերպարների մոդելներ

Կերպարի մոդելներ

Կերպարիզացիան մի համակարգ է, որտեղ ռուսական մոդելի տվյալները ցույց են տալիս ռուսական գործողությունը հակադարձ կապ։ Նպատակն է առավելագույնի հասցնել իրական արժեքը (եկամուտ/պահել/բավարարվածություն) սահմանափակումների (էթիկա/RG, հաճախականության կաթիլներ, բազմազանություն, թարմություն, SLA)։

1) Տվյալները և ներկայացումները

Հումքը 'իրադարձություններ (դիտումներ/խաղեր/գնումներ/դեպոզիտներ), բովանդակության կատալոգ (ատրիբուտներ), օգտագործողի պրոֆիլներ, ենթատեքստեր (ժամանակ/գեո/սարք/ջրանցք), որակի ազդանշաններ (բոտ/ֆրոդ)։

Ֆիչին

User: RFM, կատեգորիաների նախընտրությունները, արժեքավոր զգայունությունը, օրվա ժամանակը, սարքը։

Item: ժանր/կատեգորիա, ստուդիա/պրովայդեր, լեզուն, գինը/անկայունությունը, «թարմ»։

Exprest: dow/hod, promo/ivents, նստաշրջան, մուտքի ալիք։

Ammedings: User/item (MF/Word2Vec2Rec/transformers), մուլտիմոդալ (տեքստ/պատկեր)։

Որակը 'point-in-time (առանց աղվեսների), UTC-ժամանակը, իրադարձությունների գաղափարախոսությունը, PII դիմակավորումը։

2) Հիմնական պարադիգմները

1. Content-based-ը մոտ է item-ի և օգտագործողի մոդելի նշաններով։

2. Համագործակցային ֆիլտրը (CF) նման օգտագործողներ/այթեմներ է փոխազդեցության ազդանշանների վրա։

3. Մատրիցային ֆակտորիզացիան/էմբեդինգները թաքնված գործոններ են, dot-entt/MLP score համար։

4. Learning-to-Rank (LTR) - գրադիենտ բուստինգ/նյարդային ցանցեր ցուցակները դասակարգելու համար (pairwise/listwise)։

5. Re-ranking շերտը post-processing է, հաշվի առնելով/novise/սահմանափակումները։

6. Համատեքստային ավազակները առցանց ուսուցում են contation-edoitation-ի հետ։

7. RL/seq-առաջարկությունները ճանապարհի/նստաշրջանի լավատեսությունն են (բազմաթիվ մրցանակներ)։

3) Որոշումների կայացման փոխակրիչ

1. Recall (թեկնածուների արագ ընտրությունը, 200-5k): ANN-ը սաղմեդդինգներով, կանոնները-բեյս/կատեգորիա, ժողովրդականություն։

2. Rank (ճշգրիտ սկորինգը, 20-200): LTR/MLP հարուստ ավարտներով։

3. Re-rank/Policy (ֆին. ցանկը, 5-30) 'բազմաբնույթ օպտիմիզացիա + սահմանափակումը և ինդեքսավորումը։

4. Action: ցուցադրություն/2019/e-mail/անձնական վիտրինը գլխարկներով և «հանգիստ ժամերով»։

5. Feedback: implicit/medicit ազդանշանները հակադարձում են/բանդիտ նորարարություն։

4) Բազմաթիվ նպատակներ և սահմանափակումներ

Նպատակները ՝ CTR/CTCVR, պահպանումը, եկամուտները, մարժան, LTV, բավարարվածությունը, արագությունը։

Սահմանափակումներ ՝ շփումների հաճախականությունը, RG/կոմպլենսը, կատեգորիաների բազմազանությունը, բրենդների քվոտաները/պրովայդերը, fairness։

Ձևակերպում

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Պրակտիկա 'արեք policy-are-ranking (տե՛ ս 387), որտեղ սկորը միացված է կանոններին։

5) Սառը մեկնարկը և փոքր տվյալները

Նոր օգտագործողները 'հայտնի սեգմենտով/ww.ru/geo, բովանդակություն-based հարցաթերթիկ/առաջին տեսահոլովակ, ավազակ լայն հետախուզությամբ։

Նոր items 'բովանդակություն-սաղմեդինգներ (տեքստ/tegi), մետատվյալներ, «look-alike» պրովայդեր/ժանրի վրա։

Few-shot 'էմբեդինգների/մուլտֆիլմի առաջադրանքի տեղափոխումը (shared tower)։

6) Գնահատականների մետրերը

Օֆլինը

Դասակարգումը/դասակարգումը 'AUC/PR-AUC, NDCG @ k, MAP, Recall @ k։

Բիզնեսը ՝ eCPM/eRPM, ակնկալելի եկամուտ/մարջա, LTV proxy։

Բազմազան 'կշռված չափումներ (օրինակ, NDCG-ը gain = արժեքով)։

Տրամաչափություն ՝ Brier, IV (հավանականության համար)։

Списки: coverage/diversity/novelty/serendipity.

Առցանց

A/B և ավազակային թեստեր ՝ CTR, CTCVR, եկամուտ/նստաշրջան, D1/D7, բողոքներ/ազդանշաններ (guardrails), latency/SLA։

Redrement: lift%, CUPED/quaziexperiment բարդ ռանդոմիզացիայի ժամանակ։

7) Ինտերֆեյսը և policy-aermre-ranking

MMR/PM-2/xQUAD: հավասարակշռություն «revantenty novisna»։

Քվոտաներ ՝ min/max ժանրերում/պրովայդերներ/ռիսկային կատեգորիաներ։

Fairness: սահմանափակել մասնաբաժինը համակարգային խաչմերուկներին հակազդելու համար։

Սկորինգի օրինակ

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Գիստերեվիչը 'ոչ թե «գաղթել» ցուցակներով։ թարմացրեք դիրքերը իներցիայի հետ։

8) Համատեքստային ավազակները և RL-ը

Բանդիտները (LinUCB, Thompson) 'արագ onport-learn, վերահսկողությունը։ Լավ է առաջին դիրքի/ստեղծագործական/ջրանցքի համար։

Կասկադային ավազակները 'top-k-ի օպտիմիզացումը։

RL (DQN/Policy Gradient/Slast Q) 'նստաշրջանի կերպարը, բազմաշերտ մրցանակների օպտիմիզացումը (108/եկամուտներ/երկար նստաշրջան)։

Անվտանգությունը 'փլեյ-պոլիսի գնահատումը (IPS/DR), սիմուլյատորները, ուսումնասիրության գլխարկները, safe RL-ը։

9) Կերպարիզացիա պատճառահետևանքային ազդեցության տակ

Uplift մոդելները 'ո՞ վ պետք է դիպչել (persuadables), Qini/AUUC, uplift @ k.

Treatium-aultions-aranging-ը 'միացրեք քրոմենթի հավանականությունը «հում» CTR-ի փոխարեն։

Guardrails: Do-Cort-Disturb հատվածները, RG կանոնները, fairness։

10) Ճարտարապետությունը և MLOps-ը

Feature Store: Առցանց/offline paritet, point-in-time, TTL-ի համար։

Candidate 2019: ANN/FAISS/ScaNN, քեշինգ/շարդինգ հատվածներով։

Ranker: գրադիենտ բուստինգը/MLP/Tower ճարտարապետություն, տրամաբանություն։

Policy/Re-rank: կանոնները/սահմանափակումները, ինդեքսավորումը, ավազակային շերտը։

Orcestration: Դիմումների համադրելիությունը, p95 latency 24100-300 ms, DLQ/retrai։

Դիտարկումը 'հետք' wwww.relation _ id ', fich-drift (PSI), որակի չափումներ, «stop-cran»։

11) Անվտանգություն, գաղտնիություն, էթիկա

PII-նվազեցումը 'տոկենիզացիա, RFC/CLS, դիմակավորում։

Բացատրություն ՝ top-features/ցուցադրման պատճառները։ բողոքարկման ճանապարհը։

Էթիկա/RG 'հաճախականության գլխարկներ, «հանգիստ ժամացույցներ», խոցելի խմբերի ագրեսիվ օֆերի արգելքներ։

Կոմպլանսը 'որոշումների/լոգարանների աուդիտ, քաղաքական և ստեղծագործական տարբերակներ։

12) Անձնագրեր և decision tables

Առաջարկի անձնագիր (օրինակ)

ID/տարբերակը '«REC _ HYBRID _ RANK _ v5»

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), բրենդերի քվոտաներ, RG ֆիլտրեր, հաճախականության գլխարկներ

Նպատակներ/մետրիկներ ՝ NDCG @ 10, eRPM, բողոքներ X, latency p95-150

A/B: 14 օր, CUPED; gudrails - RG/առաքում

Սեփականատերեր/տրամաբանություն/ռունիբուկ

Decision table (ուրվագիծ)

Պայմանը	Համատեքստը	Գործողություն	Սահմանափակումներ	Մեկնաբանություն
`new_user` & `low_history`	onbording	popular@segment + content-based seed	հաճախականության կաթիլներ, RG, RG	սառը սկիզբ
`session_len>3` & `diversity_low`	նստաշրջան	re-rank с MMR	min 3 կատեգորիայի	սերենդինպություն
`uplift_push≥τ`	offers	անձնական ֆուտբոլ	Do-Wint-Disturb, բողոքներ wwwX	, ոչ CTR

13) Կեղծ կոդը (սկետչ)

A. Windows Recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling ստեղծագործողների համար

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Ախտորոշումը և լուծումը

Որակը ՝ NDCG/Recall @ k, eRPM, coverage/diversity, տրամաչափը։

Առցանց 'CTR/CTCVR, եկամուտը/նստաշրջանը, պահելը, բողոքները/ազդանշանները, latency/timeout։

Դրեյֆը 'PSI/KL հիմնական փուլերով, օֆլինի հարաբերակցության նվազումը առցանց է։

Սահմանափակումներ 'քվոտ/diversity, հարվածներ RG ֆիլտրերում, հաճախականության կաթիլներ։

Ռունիբուկի 'ռեքալի քայքայումը (ANN-ի անկումը), բողոքների աճը, թայմաուտների աճը, վթարային ֆոլբեքը (popular-safe)։

15) Հաճախակի սխալներ

«Հում CTR» -ի օպտիմիզացումը ռենտգենյան/արժեքների փոխարեն։

Ոչ թե re-ranking շերտը բացատրվում է բազմազանությամբ, «տեսողության թունել»։

Ապագայի աղվեսները, TZ խառնուրդը, ազդանշանների չհամաձայնեցված սահմանումները։

Տրամաբանության և շեմերի բացակայությունը «փչացնում է» բյուջեն և հաճախականության կաթիլները։

RG/էթիկայի և fairness-ի անտեսումը բացատրում է բողոքները, ռիսկերը, կարգավորող խնդիրները։

Nesinhron առցանց/offline fich-ը վաճառում է ձախողում։

16) Chek-Show-Show-Show-ի առջև

Մոդելի անձնագիր (նպատակներ, սահմանափակումներ, չափումներ, տերեր, վարկածներ)
Recall/Rank/Re-rank բաժանված են; ANN եւ կեշի քրտնաջան
PIT-fichi և տրամաչափը, բենչարքի օֆլայնը (NDCG/PR-AUC) անցանելի են։
A/B դիզայն և guardrails; decision-ready (ազդեցություն և ռիսկեր)
Սահմանափակումներ ՝ RG/հաճախականություն/diversity/քվոտաներ, ներդրվում և վերահսկվում են։
Դիտարկումը, ալերտները, «կանգառ-կռանը», ֆոլբեկները (popular-safe)
Մոսկվան և ռունիբուկները, ռեմենտալ բարելավման պլանը

Արդյունքը

Նիշերի մոդելները արդյունավետ են միայն որպես policy-ault համակարգ 'հարուստ տվյալներ և սաղմեդդինգներ Recall/Rank/Rank/Re-rank ռուսական ավազակախմբեր/RL-ը, որպեսզի առցանց հարմարեցվեն ռուսական բազմաբնույթ նպատակները կոշտ սահմանափակումների և էթիկայի համար, որոնք տեղադրված են MLOps-ի և ռուսական։ Այս նախաձեռնությունը տալիս է ոչ միայն «առաջարկություններ», այլ կառավարվող լուծումներ, որոնք բարձրացնում են ROMI, LTV և բավարարվածությունը 'անվտանգ, թափանցիկ և վերարտադրված։

Կերպարների մոդելներ

Կերպարի մոդելներ

Առցանց

Decision table (ուրվագիծ)

B. Thompson Sampling ստեղծագործողների համար

Արդյունքը

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով