निजीकरण मॉडल

निजीकरण एक ऐसी प्रणाली है जहां डेटा → मॉडल → नीति → क्रिया → प्रतिक्रिया प्रदर्शित करते हैं लक्ष्य बाधाओं (नैतिकता/आरजी, आवृत्ति कैप, विविधता, ताजगी, एसएलए) को पूरा करते हुए वृद्धिशील मूल्य (आय/प्रतिधारण/संतुष्टि) को अधिकतम करना है।

1) डेटा और विचार

कच्चे माल: घटनाएँ (दृश्य/क्लिक/गेम/खरीद/जमा), सामग्री कैटलॉग (विशेषताएं), उपयोगकर्ता प्रोफाइल, संदर्भ (समय/भू/डिवाइस/चैनल), गुणवत्ता संकेत (बॉट/धोखाधड़ी)।

फिकी:

उपयोगकर्ता: RFM, श्रेणी वरीयता, मूल्य संवेदनशीलता, दिन का समय, उपकरण।
आइटम: शैली/श्रेणी, स्टूडियो/प्रदाता, भाषा, मूल्य/अस्थिरता, "ताजगी"।
संदर्भ: dow/hod, promo/events, सत्र, लॉगइन चैनल।
एम्बेडिंग: उपयोगकर्ता/आइटम सहयोगी स्थान (MF/Word2Vec2Rec/ट्रांसफार्मर), मल्टीमॉडल (टेक्स्ट/इमेज)।
गुणवत्ता: पॉइंट-इन-टाइम (चेहरे के बिना), यूटीसी-टाइम, घटनाओं की पहचान, पीआईआई मास्किंग।

2) बुनियादी प्रतिमान

1. सामग्री-आधारित - पते और उपयोगकर्ता प्रोफ़ाइल की विशेषताओं के अनुसार निकटता।

2. सहयोगात्मक फ़िल्टरिंग (CF) - बातचीत संकेतों के आधार पर समान उपयोगकर्ता/aytems।

3. मैट्रिक्स फैक्टराइजेशन/एम्बेडिंग - छिपे हुए कारक, स्कोर के लिए डॉट-प्रोडक्ट/एमएलपी।

4. लर्निंग-टू-रैंक (एलटीआर) - रैंकिंग सूचियों (जोड़ीदार/सूची में) के लिए ढाल बूस्टिंग/तंत्रिका नेटवर्क।

5. परत की पुन: रैंकिंग - प्रसंस्करण, विविधीकरण/नवीनता/प्रतिबंधों को ध्यान में रखते हुए।

6. प्रासंगिक डाकू - अन्वेषण-शोषण के साथ ऑनलाइन सीखना।

7. आरएल/सेक-सिफारिशें - पथ/सत्र अनुकूलन (बहु-चरण पुरस्कार)।

3) निर्णय पाइपलाइन

1. रिकॉल करें (तेजी से उम्मीदवार चयन, 200-5k): एएनएन एम्बेडिंग, नियम-आधार/श्रेणी, लोकप्रियता द्वारा।

2. रैंक (सटीक स्कोरिंग, 20-200): समृद्ध विशेषताओं के साथ एलटीआर/एमएलपी।

3. पुन: रैंक/नीति (Fin. सूची, 5-30): बहुउद्देशीय अनुकूलन + बाधाएं और विविधीकरण।

4. एक्शन: माउथ गार्ड और "शांत घड़ी" के साथ शो/पुश/ई-मेल/पर्सनल शोकेस।

5. प्रतिक्रिया: अंतर्निहित/स्पष्ट संकेत - रिट्रेनिंग/बैंडिट-अपडेट।

4) बहुउद्देश्यीय लक्ष्य और सीमाएँ

उद्देश्य: CTR/CTCVR, प्रतिधारण, राजस्व, मार्जिन, LTV, संतुष्टि, गति।

प्रतिबंध: संपर्क आवृत्ति, आरजी/अनुपालन, श्रेणियों की विविधता, ब्रांड/प्रदाता कोटा, निष्पक्षता।

शब्द:

[
~ max łsum _ i w_i\cdot\text {obsective} _ i ~ quad
~ text {s। t.} पाठ {caps, RG, विविधता, SLA}
]

अभ्यास: नीति-जागरूक री-रैंकिंग करें (देखें) 7), जहां गति को नियमों के साथ जोड़ा जाता है।

5) ठंड की शुरुआत और छोटे डेटा

नए उपयोगकर्ता: खंड/चैनल/जियो द्वारा लोकप्रियता, प्रश्नावली द्वारा सामग्री-आधारित/पहला क्लिक, व्यापक बुद्धिमत्ता के साथ डाकू।

नए आइटम: प्रदाता/शैली द्वारा सामग्री एम्बेडिंग (पाठ/टैग), मेटाडेटा, "लुक-एक जैसा"।

कुछ शॉट: एम्बेडिंग ट्रांसफर/शेयर टॉवर।

6) स्कोरिंग मैट्रिक्स

ऑफ़ लाइन

वर्गीकरण/रैंकिंग: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k।

व्यवसाय: ईसीपीएम/ईआरपीएम, अपेक्षित राजस्व/मार्जिन, एलटीवी प्रॉक्सी।

बहुउद्देशीय: भारित मैट्रिक्स (उदा। लाभ = मूल्य के साथ NDCG)।

अंशांकन: बैरियर, ईसीई (संभावनाओं के लिए)।

Списки: कवरेज/विविधता/नवीनता/गंभीरता।

ऑनलाइन

A/B और डाकू परीक्षण: CTR, CTCVR, आय/सत्र, D1/D7 प्रतिधारण, शिकायत/सदस्यता (रेलिंग), विलंबता/SLA।

वृद्धि: जटिल यादृच्छिकता में लिफ्ट%, CUPED/अर्ध-प्रयोग।

7) विविधीकरण और नीति-जागरूक फिर से रैंकिंग

MMR/PM-2/xQuAD: "प्रासंगिकता × नवीनता" का संतुलन।

कोटा: न्यूनतम/अधिकतम शैली/प्रदाता/जोखिम श्रेणी द्वारा।

निष्पक्षता: व्यवस्थित तिरछा होने से बचने के लिए शेयरों को सीमित करें।

स्कोरिंग उदाहरण:

[
~ textstyle × text {Score} = × alpha é cdot {hat {{wwwe text {click} + wwwe beta é cdot × text} - × gama wwwe cdot {text {text {dot} + Novelty}
]

हिस्टेरिसिस: "पलक" सूची न करें; जड़ ता के साथ आइटम अद्यतन करें।

8) प्रासंगिक डाकू और आरएल

डाकू (LinUCB, थॉम्पसन): तेजी से ऑनलाइन-सीखना, अन्वेषण नियंत्रण। पहली स्थिति/रचनात्मक/चैनल के लिए अच्छा।

कैस्केडिंग डाकुओं: शीर्ष-के अनुकूलन।

आरएल (डीक्यूएन/नीति ग्रेडिएंट/स्लेटक्यू): सत्र निजीकरण, बहु-चरण इनाम अनुकूलन (रिटर्न/राजस्व/लंबा सत्र)।

सुरक्षा: ऑफ-पॉलिसी मूल्यांकन (IPS/DR), सिमुलेटर, अनुसंधान के लिए कैप, सुरक्षित RL।

9) कारण प्रभाव के लिए निजीकरण

उत्थान मॉडल: जिन्हें छुआ जाना चाहिए (अनुनय), Qini/AUUC, उत्थान @ k।

उपचार-जागरूक रैंकिंग: कच्चे सीटीआर के बजाय वृद्धि संभावना शामिल करें।

गार्ड: डू-नॉट-डिस्टर्ब सेगमेंट, आरजी नियम, निष्पक्षता।

10) वास्तुकला और MLOps

फ़ीचर स्टोर: ऑनलाइन/ऑफ़लाइन समता, प्वाइंट-इन-टाइम, सत्र सुविधाओं के लिए टीटीएल।

उम्मीदवार सेवाएं: ANN/FAISS/ScaNN, खंड द्वारा कैशिंग/शार्टिंग।

रैंकर: ढाल बूस्टिंग/एमएलपी/टॉवर आर्किटेक्चर, अंशांकन।

नीति/पुन: रैंक: नियम/प्रतिबंध, विविधीकरण, दस्यु परत।

ऑर्केस्ट्रेशन: अनुरोध आइडेम्पोटेंसी, p95 विलंबता ≤ 100-300 एमएस, डीएलक्यू/रिट्रे।

अवलोकन: सहसंबंध _ आईडी ट्रेस, पीएसआई, गुणवत्ता मेट्रिक्स, स्टॉपकॉक।

11) सुरक्षा, गोपनीयता, नैतिकता

पीआईआई कम से कम: टोकन, आरएलएस/सीएलएस, मास्किंग।

व्याख्यात्मकता: शीर्ष-सुविधाएँ/दिखाने के कारण; अपील का रास्ता।

नैतिकता/आरजी: आवृत्ति कैप, "शांत घंटे", कमजोर समूहों से आक्रामक प्रस्तावों पर प्रतिबंध।

अनुपालन: निर्णयों/लॉगों का लेखा परीक्षा, नीतियों और रचनाओं के संस्करण।

12) पासपोर्ट और निर्णय टेबल

संदर्भ प्रमाणपत्र (उदाहरण)

आईडी/संस्करण: 'REC _ HYBRID _ RANK _ v5'

रिकॉल करें: ANN (उपयोगकर्ता/आइटम एम्बेडिंग), शीर्ष -500

रैंकर: LTR-GBM + MLP (सुविधाएँ: उपयोगकर्ता RFM, आइटम मेटा, संदर्भ)

री-रैंक: PM-2 (विविधता), ब्रांड कोटा, आरजी फिल्टर, फ्रीक्वेंसी कैप

लक्ष्य/मेट्रिक्स: NDCG @ 10, eRPM, zhaloby≤Kh, विलंबता p95≤150 ms

A/B: 14 दिन, CUPED; रेलिंग - आरजी/डिलीवरेबिलिटी

मालिक/लॉगिंग/रनिबुक

निर्णय तालिका

हालत	संदर्भ	क्रिया	प्रतिबंध	टिप्पणी
'new _ user' और 'low _ history'	ऑनबोर्डिंग	लोकप्रिय @ खंड + सामग्री-आधारित बीज	आवृत्ति कैप, आरजी	ठंड की शुरुआ
'session _ len> 3' और 'विविधता _ low'	सत्र	री-रैंक с एमएमआर	न्यूनतम 3 श्रेणियां	गंभीरता
'uplift_push≥τ'	प्रस्ताव	व्यक्तिगत	Do-Not-Disturb, zhaloby≤Kh	प्रभाव, सीटीआर नहीं

13) छद्म कोड (स्केच)

ए। हाइब्रिड रिकॉल + रैंक + री-रैंक

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

बी। क्रिएटिव के लिए थॉम्पसन नमूना

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) निदान और निगरानी

गुणवत्ता: NDCG/Recall @ k, eRPM, कवरेज/विविधता, अंशांकन।

ऑनलाइन: CTR/CTCVR, आय/सत्र, प्रतिधारण, शिकायत/सदस्यता, विलंबता/समय समाप्त।

बहाव: प्रमुख विशेषताओं द्वारा पीएसआई/केएल, oflayn↔onlayn सहसंबंध ड्रॉप।

प्रतिबंध: कोटा/विविधता की पूर्ति, आरजी फिल्टर, आवृत्ति कैप को प्रभावित करती है।

Runibooks: याद करें गिरावट (ANN ड्रॉप), शिकायतों में वृद्धि, टाइमआउट में वृद्धि, आपातकालीन फोलबैक (लोकप्रिय-सुरक्षित)।

15) बार-बार त्रुटियाँ

वृद्धि/मूल्य के बजाय "कच्चे सीटीआर" का अनुकूलन।

कोई री-रैंकिंग परत नहीं है → विभिन्न किस्म, "दृष्टि सुरंग"।

भविष्य से चेहरे, TZ मिश्रण, असंगत सिग्नल परिभाषाएं।

अंशांकन और थ्रेसहोल्ड की कमी - बजट और आवृत्ति कैप "बिगड़जाते हैं।"

आरजी/नैतिकता और निष्पक्षता - शिकायतों, जोखिमों, विनियामक मुद्दों को अनदेखा करें।

ऑनलाइन/ऑफ़लाइन गैर-सिंक्रॉन सुविधा - बिक्री में विफलता।

16) प्री-रिलीज़निजीकरण चेकलिस्ट

मॉडल पासपोर्ट (लक्ष्य, सीमाएं, मैट्रिक्स, मालिक, संस्करण)
रिकॉल/रैंक/री-रैंक पोस्ट; ANN और कैश गर्म हो गया
PIT सुविधाएँ और अंशांकन, ऑफ़ लाइन बेंचमार्क (NDCG/PR-AUC) पारित
ए/बी डिजाइन और रेलिंग; निर्णय के लिए तैयार रिपोर्ट
आरजी/आवृत्ति/विविधता/कोटा बाधाएं - कार्यान्वित और निगरानी
अवलोकन, अलर्ट, स्टॉप-क्रेन, फोलबैक (लोकप्रिय-सुरक्षित)
प्रलेखन और रनिबुक, वृद्धिशील सुधार योजना

कुल

निजीकरण मॉडल केवल एक नीति-जागरूक प्रणाली के रूप में प्रभावी हैं: समृद्ध डेटा और एम्बेडिंग - एक रिकॉल/रैंक/रे-रैंक हाइब्रिड बैंडिट्स/आरएल ऑनलाइन अनुकूलन के लिए - सख्त प्रतिबंधों और नैतिकता के लिए बहुउपाय लक्य। इस तरह का सर्किट न केवल "सिफारिशें" प्रदान करता है, बल्कि प्रबंधनीय समाधान जो ROMI, LTV और संतुष्टि को बढ़ाते हैं - सुरक्षित, पारदर्शी और प्रजनन योग्य।

निजीकरण मॉडल