सिफारिश प्रणाली
सिफारिश प्रणाली
सिफारिश प्रणाली केवल एक "सीटीआर मॉडल नहीं है। "यह डेटा उम्मीदवारों की एक पाइपलाइन है - रैंकिंग नीति कार्रवाई, प्रतिक्रिया जो वास्तविक दुनिया की बाधाओं (गति, आवृत्ति कैप, विविधता, नैतिकता/अनुपालन) के तहत वृद्धिशील मूल्य का अनुकूलन करती है।
1) डेटा, संकेत और अभ्यावेदन
घटनाएँ: दृश्य/क्लिक/जोड़ें/खरीद/जमा, समय-समय, रद्द करना।
सामग्री/कैटलॉग: विशेषताएं (श्रेणियां/शैलियाँ/स्टूडियो/मूल्य/ताजगी/अस्थिरता)।
उपयोक्ता प्रोफाइल: RFM, वरीयताएँ, उपकरण/चैनल, समयबद्ध.
संदर्भ: घंटा/दिन/छुट्टियां/मैच, लोकेल/टीजेड, प्रदर्शन साइट।
गुणवत्ता: पॉइंट-इन-टाइम व्यंजनों, घटनाओं की पहचान, डेडअप/एंटीबॉट, पीआईआई मास्किंग।
एम्बेडिंग: साझा स्थान में उपयोगकर्ता/आइटम/संदर्भ (MF/Word2Vec2Rec/ट्रांसफार्मर), मल्टीमॉडल (टेक्स्ट/इमेज)।
2) वास्तुकला: रिकॉल करें → रैंक → री-रैंक → एक्शन
1. उम्मीदवार याद करते हैं (200-5000 उम्मीदवार): ANN (FAISS/ScaNN), लोकप्रियता/रुझान, नियम-आधारित फिल्टर।
2. रैंकिंग (20-200): एलटीआर (जीबीएम/एनएन), टॉवर आर्किटेक्चर, द्विआधारी/बहु-लक्ष्य लक्ष्य (क्लिक, रूपांतरण, मूल्य)।
3. नीति-जागरूक पुन: रैंक (अंतिम सूची में 5-30): विविधीकरण/नवीनता/गंभीरता, ब्रांड/श्रेणी कोटा, आरजी/अनुपालन, आवृत्ति कैप, निष्पक्षता।
4. एक्शन: कूलडाउन और "शांत घंटे" के साथ शो/पुश/ई-मेल/पर्सनल शोकेस।
5. प्रतिक्रिया: लॉग 'impression→click→action→value', नकारात्मक प्रतिक्रिया (स्किप, शिकायत)।
3) मॉडल प्रतिमान
सामग्री-आधारित: आईटी सुविधाओं और प्रोफ़ाइल द्वारा निकटता वस्तुओं के लिए एक ठंडी शुरुआत के लिए आदर्श।
सहयोगात्मक फ़िल्टरिंग: इंटरैक्शन मैट्रिक्स द्वारा उपयोगकर्ता-उपयोगकर्ता/आइटम-आइटम।
फैक्टराइजेशन/एम्बेडिंग: एमएफ/बीपीआर/न्यूएमएफ, टू-टॉवर एमएलपी (उपयोगकर्ता टॉवर × आइटम टॉवर)।
लर्निंग-टू-रैंक: जोड़ीदार/लिस्टवाइज (लैम्बडामार्ट, रैंकनेट), एनडीसीजी ऑप्टिमाइजेशन @ k।
सत्र/अनुक्रमिक: GRU4Rec, SASRec, ट्रांसफॉर्मर (T5-style) - सत्र में क्रम/संदर्भ।
प्रासंगिक डाकू: त्वरित ऑनलाइन अनुकूलन और रचनात्मक के लिए LinUCB/थॉम्पसन।
आरएल: मल्टी-स्टेप अवार्ड (रिटेंशन/एलटीवी) के लिए स्लेटक्यू/डीक्यूएन/पॉलिसी ग्रेडिएंट।
कारण/उत्थान दृष्टिकोण: सिफारिशें जो वृद्धि को ध्यान में रखती हैं, न कि "कच्चे सीटीआर"।
4) कार्य के उद्देश्य, सीमाएं और निर्माण
उद्देश्य: सीटीआर/सीटीसीवीआर, राजस्व/मार्जिन/एलटीवी, प्रतिधारण, संतुष्टि, गति।
सीमाएं: विविधीकरण, प्रदाता/श्रेणी कोटा, आवृत्ति कैप, आरजी/अनुपालन, निष्पक्षता/नैतिकता, एसएलए पी 95।
नीति-जागरूक पुन: रैंक (स्केलराइजेशन का उदाहरण):[
~ textstyle score = é alpha é cdot· hat p_{\text{click}} + × beta é cdot × text {value}
~ gamma é cdot é text {Fatigue} + łdelta é cdot· text {Novelty} - łsum _ j lambda _ j _ j पाठ {Pance} j
]
जहां दंड कोटा/आरजी/आवृत्ति/एकरसता उल्लंघन हैं।
5) मेट्रिक्स और स्कोरिंग
ऑफ़ लाइन
प्रासंगिकता/रैंकिंग: AUC/PR-AUC, Recall @ k, MAP, NDCG @ k।
व्यवसाय: ईआरपीएम/ईसीपीएम, प्रॉक्सी-एलटीवी, अपेक्षित मार्जिन।
अंशांकन: बैरियर, ईसीई (थ्रेसहोल्ड/नीतियों के लिए महत्वपूर्ण)।
Списки: कवरेज/विविधता/नवीनता/गंभीरता।
ऑनलाइन
A/B/मल्टी-लेबल परीक्षण: CTR, CTCVR, आय/सत्र, प्रतिधारण, शिकायत/सदस्यता (रेल), विलंबता/समय समाप्ति।
कारण मूल्यांकन: CUPED, अर्ध-प्रयोग (DiD/सिंथेटिक नियंत्रण) सीमित यादृच्छिककरण पर।
उत्थान मेट्रिक्स: Qini/AUUC, uplift @ k - उपचार-जागरूक सिफारिशों के लिए।
6) ठंड की शुरुआत और विरल
नए उपयोगकर्ता: लोकप्रिय @ सेगमेंट, सामग्री सर्वेक्षण, पहले क्लिक पर आधारित सामग्री, व्यापक खुफिया के साथ डाकू।
नए aytems: मेटाडेटा/टेक्स्ट एम्बेडिंग/चित्र + स्टूडियो/श्रेणी द्वारा समान रूप से।
छोटे डोमेन: ट्रांसफर लर्निंग, मल्टी-टास्क (साझा टॉवर), क्रॉस-डोमेन आसवन।
7) विविधीकरण, नवीनता, गंभीरता
एल्गोरिदम: MMR, xQUAD, PM-2; एकरसता के लिए जुर्माना।
कोटा: श्रेणी/ब्रांड/जोखिम वर्ग द्वारा न्यूनतम/अधिकतम।
सूची स्थिरता: स्थिति जड़ ता, अद्यतन हिस्टेरिसिस; आउटपुट को "फ्लैश" न करें।
8) बुनियादी ढांचा और एमएलओपी
फ़ीचर स्टोर: PIT व्यंजनों, सत्र सुविधाओं के लिए TTL, ऑनलाइन/ऑफ़लाइन समता।
ANN सेवाएं: FAISS/ScaNN, शार्डिंग/कैश, प्रतिकृति।
रैंकर: वास्तविक समय की विशेषताएं, अंशांकन, संस्करण हस्ताक्षर।
नीति/पुन: रैंक परत: सीमा/कोटा/आरजी/आवृत्तियों/विविधता।
SLA: एंड-टू-एंड p95 ≤ 100-300 мс; गिरावट के तहत फॉलबैक (लोकप्रिय-सुरक्षित)।
अवलोकन: सहसंबंध _ आईडी निशान, सुविधा बहाव (पीएसआई), ऑनलाइन गुणवत्ता मैट्रिक्स, क्रेन को रोकें।
9) सुरक्षा, गोपनीयता, नैतिकता
पीआईआई न्यूनतम, आरएलएस/सीएलएस, मास्किंग।
प्रदर्शन से पहले आरजी/अनुपालन फिल्टर, आवृत्ति कैप, शांत घंटे।
खंड द्वारा निष्पक्षता निदान; शो के कारणों की व्याख्या; अपील का रास्ता।
10) स्यूडो-कोड: रिकॉल करें → रैंक → री-रैंक हाइब्रिड
python
Recall cand_emb = ann.recall(user_embed, topk=500)
cand_rule = popular.by_segment(user.segment, k=200)
cands = dedup(cand_emb + cand_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker.predict(features) # p(click), value
Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0.3,'B':0.3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0.6, value=0.3, novelty=0.1)
)
return final[:N]
थॉम्पसन सैंपलिंग फॉर क्रिएटिव्स (स्केच)
python beta priors per creative: (α, β)
samples = {cr: np.random.beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples.get)
show(chosen)
update(alpha, beta, reward=click)
11) छद्म-एसक्यूएल: नकारात्मक प्रतिक्रिया और आवृत्ति कैप
sql
-- Последний показ и флаги «скрыть/жалоба» → баним на 7 дней
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l.user_id=:uid AND l.item_id=i.item_id
WHERE COALESCE(l.hidden,false)=false
AND COALESCE(l.reported,false)=false
AND (l.last_ts IS NULL OR l.last_ts < NOW() - INTERVAL '7 day');
12) निर्णय तालिका
13) एंटी-पैटर्न
वृद्धि और मूल्य के बजाय "कच्चे सीटीआर" का अनुकूलन।
री-रैंक परत की कमी - अतिरिक्त एकरसता, "दृष्टि सुरंग"।
भविष्य से चेहरे; TZ मिश्रण; गैर-बहुमुखी सिग्नल परिभाषाएँ।
संभावनाओं का कोई अंशांकन नहीं - गलत थ्रेसहोल्ड/पॉलिसी।
आरजी/नैतिकता/निष्पक्षता - शिकायतों/जोखिमों/जुर्माना को अनदेखा करें।
ऑनलाइन/ऑफलाइन डेसिंक्रोनाइज्ड फीचर और मैट्रिक्स - भोजन में "ड्रॉडाउन"।
फॉलबैक और स्टॉप वाल्व की अनुपस्थिति।
14) सिफारिश लॉन्च चेकलिस्ट
- सिस्टम पासपोर्ट - उद्देश्य, सीमाएं, मेट्रिक्स, मालिक, संस्करण
- रिकॉल/रैंक/री-रैंक तलाकशुदा; ANN गर्म हुआ, कैश कॉन्फ़िगर किया गया
- PIT सुविधाएँ, अंशांकन, ऑफ़ लाइन बेंचमार्क (NDCG/PR-AUC) पारित
- ए/बी डिजाइन और रेलिंग; निर्णय के लिए तैयार रिपोर्
- प्रतिबंध: विविधता/कोटा/आरजी/आवृत्ति कैप - कार्यान्वित और निगरानी
- SLA p95, निशान, अलर्ट, क्रेन और लोकप्रिय-सुरक्षित फॉलबैक रोकें
- प्रलेखन, रनिबुक, वृद्धिशील सुधार योजना
परिणाम
एक मजबूत सिफारिश प्रणाली नीति-जागरूक पाइपलाइन है: एक हाइब्रिड रिकॉल/रैंक/री-रैंक जो गति, नैतिकता और विविधता की बाधाओं के तहत वृद्धिशील मूल्य का अनुकूलन करता है। ऑनलाइन अनुकूलन, एमएलओपी अनुशासन और सही कारण मूल्यांकन के लिए डाकुओं/आरएल को जोड़ कर, आपको "सूचियों के लिए सूची" नहीं मिलती है, लेकिन प्रबंधित समाधान जो रोमी, एलटीवी और उपयोगकर्ता संतुष्टि को बढ़ाते हैं - स्थिर और सुरक्थिर।