निजीकरण मॉडल
निजीकरण मॉडल
निजीकरण एक ऐसी प्रणाली है जहां डेटा → मॉडल → नीति → क्रिया → प्रतिक्रिया प्रदर्शित करते हैं लक्ष्य बाधाओं (नैतिकता/आरजी, आवृत्ति कैप, विविधता, ताजगी, एसएलए) को पूरा करते हुए वृद्धिशील मूल्य (आय/प्रतिधारण/संतुष्टि) को अधिकतम करना है।
1) डेटा और विचार
कच्चे माल: घटनाएँ (दृश्य/क्लिक/गेम/खरीद/जमा), सामग्री कैटलॉग (विशेषताएं), उपयोगकर्ता प्रोफाइल, संदर्भ (समय/भू/डिवाइस/चैनल), गुणवत्ता संकेत (बॉट/धोखाधड़ी)।
फिकी:- उपयोगकर्ता: RFM, श्रेणी वरीयता, मूल्य संवेदनशीलता, दिन का समय, उपकरण।
- आइटम: शैली/श्रेणी, स्टूडियो/प्रदाता, भाषा, मूल्य/अस्थिरता, "ताजगी"।
- संदर्भ: dow/hod, promo/events, सत्र, लॉगइन चैनल।
- एम्बेडिंग: उपयोगकर्ता/आइटम सहयोगी स्थान (MF/Word2Vec2Rec/ट्रांसफार्मर), मल्टीमॉडल (टेक्स्ट/इमेज)।
- गुणवत्ता: पॉइंट-इन-टाइम (चेहरे के बिना), यूटीसी-टाइम, घटनाओं की पहचान, पीआईआई मास्किंग।
2) बुनियादी प्रतिमान
1. सामग्री-आधारित - पते और उपयोगकर्ता प्रोफ़ाइल की विशेषताओं के अनुसार निकटता।
2. सहयोगात्मक फ़िल्टरिंग (CF) - बातचीत संकेतों के आधार पर समान उपयोगकर्ता/aytems।
3. मैट्रिक्स फैक्टराइजेशन/एम्बेडिंग - छिपे हुए कारक, स्कोर के लिए डॉट-प्रोडक्ट/एमएलपी।
4. लर्निंग-टू-रैंक (एलटीआर) - रैंकिंग सूचियों (जोड़ीदार/सूची में) के लिए ढाल बूस्टिंग/तंत्रिका नेटवर्क।
5. परत की पुन: रैंकिंग - प्रसंस्करण, विविधीकरण/नवीनता/प्रतिबंधों को ध्यान में रखते हुए।
6. प्रासंगिक डाकू - अन्वेषण-शोषण के साथ ऑनलाइन सीखना।
7. आरएल/सेक-सिफारिशें - पथ/सत्र अनुकूलन (बहु-चरण पुरस्कार)।
3) निर्णय पाइपलाइन
1. रिकॉल करें (तेजी से उम्मीदवार चयन, 200-5k): एएनएन एम्बेडिंग, नियम-आधार/श्रेणी, लोकप्रियता द्वारा।
2. रैंक (सटीक स्कोरिंग, 20-200): समृद्ध विशेषताओं के साथ एलटीआर/एमएलपी।
3. पुन: रैंक/नीति (Fin. सूची, 5-30): बहुउद्देशीय अनुकूलन + बाधाएं और विविधीकरण।
4. एक्शन: माउथ गार्ड और "शांत घड़ी" के साथ शो/पुश/ई-मेल/पर्सनल शोकेस।
5. प्रतिक्रिया: अंतर्निहित/स्पष्ट संकेत - रिट्रेनिंग/बैंडिट-अपडेट।
4) बहुउद्देश्यीय लक्ष्य और सीमाएँ
उद्देश्य: CTR/CTCVR, प्रतिधारण, राजस्व, मार्जिन, LTV, संतुष्टि, गति।
प्रतिबंध: संपर्क आवृत्ति, आरजी/अनुपालन, श्रेणियों की विविधता, ब्रांड/प्रदाता कोटा, निष्पक्षता।
शब्द:[
~ max łsum _ i w_i\cdot\text {obsective} _ i ~ quad
~ text {s। t.} पाठ {caps, RG, विविधता, SLA}
]
अभ्यास: नीति-जागरूक री-रैंकिंग करें (देखें) 7), जहां गति को नियमों के साथ जोड़ा जाता है।
5) ठंड की शुरुआत और छोटे डेटा
नए उपयोगकर्ता: खंड/चैनल/जियो द्वारा लोकप्रियता, प्रश्नावली द्वारा सामग्री-आधारित/पहला क्लिक, व्यापक बुद्धिमत्ता के साथ डाकू।
नए आइटम: प्रदाता/शैली द्वारा सामग्री एम्बेडिंग (पाठ/टैग), मेटाडेटा, "लुक-एक जैसा"।
कुछ शॉट: एम्बेडिंग ट्रांसफर/शेयर टॉवर।
6) स्कोरिंग मैट्रिक्स
ऑफ़ लाइन
वर्गीकरण/रैंकिंग: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k।
व्यवसाय: ईसीपीएम/ईआरपीएम, अपेक्षित राजस्व/मार्जिन, एलटीवी प्रॉक्सी।
बहुउद्देशीय: भारित मैट्रिक्स (उदा। लाभ = मूल्य के साथ NDCG)।
अंशांकन: बैरियर, ईसीई (संभावनाओं के लिए)।
Списки: कवरेज/विविधता/नवीनता/गंभीरता।
ऑनलाइन
A/B और डाकू परीक्षण: CTR, CTCVR, आय/सत्र, D1/D7 प्रतिधारण, शिकायत/सदस्यता (रेलिंग), विलंबता/SLA।
वृद्धि: जटिल यादृच्छिकता में लिफ्ट%, CUPED/अर्ध-प्रयोग।
7) विविधीकरण और नीति-जागरूक फिर से रैंकिंग
MMR/PM-2/xQuAD: "प्रासंगिकता × नवीनता" का संतुलन।
कोटा: न्यूनतम/अधिकतम शैली/प्रदाता/जोखिम श्रेणी द्वारा।
निष्पक्षता: व्यवस्थित तिरछा होने से बचने के लिए शेयरों को सीमित करें।
स्कोरिंग उदाहरण:[
~ textstyle × text {Score} = × alpha é cdot {hat {{wwwe text {click} + wwwe beta é cdot × text} - × gama wwwe cdot {text {text {dot} + Novelty}
]
हिस्टेरिसिस: "पलक" सूची न करें; जड़ ता के साथ आइटम अद्यतन करें।
8) प्रासंगिक डाकू और आरएल
डाकू (LinUCB, थॉम्पसन): तेजी से ऑनलाइन-सीखना, अन्वेषण नियंत्रण। पहली स्थिति/रचनात्मक/चैनल के लिए अच्छा।
कैस्केडिंग डाकुओं: शीर्ष-के अनुकूलन।
आरएल (डीक्यूएन/नीति ग्रेडिएंट/स्लेटक्यू): सत्र निजीकरण, बहु-चरण इनाम अनुकूलन (रिटर्न/राजस्व/लंबा सत्र)।
सुरक्षा: ऑफ-पॉलिसी मूल्यांकन (IPS/DR), सिमुलेटर, अनुसंधान के लिए कैप, सुरक्षित RL।
9) कारण प्रभाव के लिए निजीकरण
उत्थान मॉडल: जिन्हें छुआ जाना चाहिए (अनुनय), Qini/AUUC, उत्थान @ k।
उपचार-जागरूक रैंकिंग: कच्चे सीटीआर के बजाय वृद्धि संभावना शामिल करें।
गार्ड: डू-नॉट-डिस्टर्ब सेगमेंट, आरजी नियम, निष्पक्षता।
10) वास्तुकला और MLOps
फ़ीचर स्टोर: ऑनलाइन/ऑफ़लाइन समता, प्वाइंट-इन-टाइम, सत्र सुविधाओं के लिए टीटीएल।
उम्मीदवार सेवाएं: ANN/FAISS/ScaNN, खंड द्वारा कैशिंग/शार्टिंग।
रैंकर: ढाल बूस्टिंग/एमएलपी/टॉवर आर्किटेक्चर, अंशांकन।
नीति/पुन: रैंक: नियम/प्रतिबंध, विविधीकरण, दस्यु परत।
ऑर्केस्ट्रेशन: अनुरोध आइडेम्पोटेंसी, p95 विलंबता ≤ 100-300 एमएस, डीएलक्यू/रिट्रे।
अवलोकन: सहसंबंध _ आईडी ट्रेस, पीएसआई, गुणवत्ता मेट्रिक्स, स्टॉपकॉक।
11) सुरक्षा, गोपनीयता, नैतिकता
पीआईआई कम से कम: टोकन, आरएलएस/सीएलएस, मास्किंग।
व्याख्यात्मकता: शीर्ष-सुविधाएँ/दिखाने के कारण; अपील का रास्ता।
नैतिकता/आरजी: आवृत्ति कैप, "शांत घंटे", कमजोर समूहों से आक्रामक प्रस्तावों पर प्रतिबंध।
अनुपालन: निर्णयों/लॉगों का लेखा परीक्षा, नीतियों और रचनाओं के संस्करण।
12) पासपोर्ट और निर्णय टेबल
संदर्भ प्रमाणपत्र (उदाहरण)
आईडी/संस्करण: 'REC _ HYBRID _ RANK _ v5'
रिकॉल करें: ANN (उपयोगकर्ता/आइटम एम्बेडिंग), शीर्ष -500
रैंकर: LTR-GBM + MLP (सुविधाएँ: उपयोगकर्ता RFM, आइटम मेटा, संदर्भ)
री-रैंक: PM-2 (विविधता), ब्रांड कोटा, आरजी फिल्टर, फ्रीक्वेंसी कैप
लक्ष्य/मेट्रिक्स: NDCG @ 10, eRPM, zhaloby≤Kh, विलंबता p95≤150 ms
A/B: 14 दिन, CUPED; रेलिंग - आरजी/डिलीवरेबिलिटी
मालिक/लॉगिंग/रनिबुक
निर्णय तालिका
13) छद्म कोड (स्केच)
ए। हाइब्रिड रिकॉल + रैंक + री-रैंक
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
बी। क्रिएटिव के लिए थॉम्पसन नमूना
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) निदान और निगरानी
गुणवत्ता: NDCG/Recall @ k, eRPM, कवरेज/विविधता, अंशांकन।
ऑनलाइन: CTR/CTCVR, आय/सत्र, प्रतिधारण, शिकायत/सदस्यता, विलंबता/समय समाप्त।
बहाव: प्रमुख विशेषताओं द्वारा पीएसआई/केएल, oflayn↔onlayn सहसंबंध ड्रॉप।
प्रतिबंध: कोटा/विविधता की पूर्ति, आरजी फिल्टर, आवृत्ति कैप को प्रभावित करती है।
Runibooks: याद करें गिरावट (ANN ड्रॉप), शिकायतों में वृद्धि, टाइमआउट में वृद्धि, आपातकालीन फोलबैक (लोकप्रिय-सुरक्षित)।
15) बार-बार त्रुटियाँ
वृद्धि/मूल्य के बजाय "कच्चे सीटीआर" का अनुकूलन।
कोई री-रैंकिंग परत नहीं है → विभिन्न किस्म, "दृष्टि सुरंग"।
भविष्य से चेहरे, TZ मिश्रण, असंगत सिग्नल परिभाषाएं।
अंशांकन और थ्रेसहोल्ड की कमी - बजट और आवृत्ति कैप "बिगड़जाते हैं।"
आरजी/नैतिकता और निष्पक्षता - शिकायतों, जोखिमों, विनियामक मुद्दों को अनदेखा करें।
ऑनलाइन/ऑफ़लाइन गैर-सिंक्रॉन सुविधा - बिक्री में विफलता।
16) प्री-रिलीज़निजीकरण चेकलिस्ट
- मॉडल पासपोर्ट (लक्ष्य, सीमाएं, मैट्रिक्स, मालिक, संस्करण)
- रिकॉल/रैंक/री-रैंक पोस्ट; ANN और कैश गर्म हो गया
- PIT सुविधाएँ और अंशांकन, ऑफ़ लाइन बेंचमार्क (NDCG/PR-AUC) पारित
- ए/बी डिजाइन और रेलिंग; निर्णय के लिए तैयार रिपोर्ट
- आरजी/आवृत्ति/विविधता/कोटा बाधाएं - कार्यान्वित और निगरानी
- अवलोकन, अलर्ट, स्टॉप-क्रेन, फोलबैक (लोकप्रिय-सुरक्षित)
- प्रलेखन और रनिबुक, वृद्धिशील सुधार योजना
कुल
निजीकरण मॉडल केवल एक नीति-जागरूक प्रणाली के रूप में प्रभावी हैं: समृद्ध डेटा और एम्बेडिंग - एक रिकॉल/रैंक/रे-रैंक हाइब्रिड बैंडिट्स/आरएल ऑनलाइन अनुकूलन के लिए - सख्त प्रतिबंधों और नैतिकता के लिए बहुउपाय लक्य। इस तरह का सर्किट न केवल "सिफारिशें" प्रदान करता है, बल्कि प्रबंधनीय समाधान जो ROMI, LTV और संतुष्टि को बढ़ाते हैं - सुरक्षित, पारदर्शी और प्रजनन योग्य।