सिफारिश प्रणाली

सिफारिश प्रणाली केवल एक "सीटीआर मॉडल नहीं है। "यह डेटा उम्मीदवारों की एक पाइपलाइन है - रैंकिंग नीति कार्रवाई, प्रतिक्रिया जो वास्तविक दुनिया की बाधाओं (गति, आवृत्ति कैप, विविधता, नैतिकता/अनुपालन) के तहत वृद्धिशील मूल्य का अनुकूलन करती है।

1) डेटा, संकेत और अभ्यावेदन

घटनाएँ: दृश्य/क्लिक/जोड़ें/खरीद/जमा, समय-समय, रद्द करना।

सामग्री/कैटलॉग: विशेषताएं (श्रेणियां/शैलियाँ/स्टूडियो/मूल्य/ताजगी/अस्थिरता)।

उपयोक्ता प्रोफाइल: RFM, वरीयताएँ, उपकरण/चैनल, समयबद्ध.

संदर्भ: घंटा/दिन/छुट्टियां/मैच, लोकेल/टीजेड, प्रदर्शन साइट।

गुणवत्ता: पॉइंट-इन-टाइम व्यंजनों, घटनाओं की पहचान, डेडअप/एंटीबॉट, पीआईआई मास्किंग।

एम्बेडिंग: साझा स्थान में उपयोगकर्ता/आइटम/संदर्भ (MF/Word2Vec2Rec/ट्रांसफार्मर), मल्टीमॉडल (टेक्स्ट/इमेज)।

2) वास्तुकला: रिकॉल करें → रैंक → री-रैंक → एक्शन

1. उम्मीदवार याद करते हैं (200-5000 उम्मीदवार): ANN (FAISS/ScaNN), लोकप्रियता/रुझान, नियम-आधारित फिल्टर।

2. रैंकिंग (20-200): एलटीआर (जीबीएम/एनएन), टॉवर आर्किटेक्चर, द्विआधारी/बहु-लक्ष्य लक्ष्य (क्लिक, रूपांतरण, मूल्य)।

3. नीति-जागरूक पुन: रैंक (अंतिम सूची में 5-30): विविधीकरण/नवीनता/गंभीरता, ब्रांड/श्रेणी कोटा, आरजी/अनुपालन, आवृत्ति कैप, निष्पक्षता।

4. एक्शन: कूलडाउन और "शांत घंटे" के साथ शो/पुश/ई-मेल/पर्सनल शोकेस।

5. प्रतिक्रिया: लॉग 'impression→click→action→value', नकारात्मक प्रतिक्रिया (स्किप, शिकायत)।

3) मॉडल प्रतिमान

सामग्री-आधारित: आईटी सुविधाओं और प्रोफ़ाइल द्वारा निकटता; वस्तुओं के लिए एक ठंडी शुरुआत के लिए आदर

सहयोगात्मक फ़िल्टरिंग: इंटरैक्शन मैट्रिक्स द्वारा उपयोगकर्ता-उपयोगकर्ता/आइटम-आइटम।

फैक्टराइजेशन/एम्बेडिंग: एमएफ/बीपीआर/न्यूएमएफ, टू-टॉवर एमएलपी (उपयोगकर्ता टॉवर × आइटम टॉवर)।

लर्निंग-टू-रैंक: जोड़ीदार/लिस्टवाइज (लैम्बडामार्ट, रैंकनेट), एनडीसीजी ऑप्टिमाइजेशन @ k।

सत्र/अनुक्रमिक: GRU4Rec, SASRec, ट्रांसफॉर्मर (T5-style) - सत्र में क्रम/संदर्भ।

प्रासंगिक डाकू: त्वरित ऑनलाइन अनुकूलन और रचनात्मक के लिए LinUCB/थॉम्पसन।

आरएल: मल्टी-स्टेप अवार्ड (रिटेंशन/एलटीवी) के लिए स्लेटक्यू/डीक्यूएन/पॉलिसी ग्रेडिएंट।

कारण/उत्थान दृष्टिकोण: सिफारिशें जो वृद्धि को ध्यान में रखती हैं, न कि "कच्चे सीटीआर"।

4) कार्य के उद्देश्य, सीमाएं और निर्माण

उद्देश्य: सीटीआर/सीटीसीवीआर, राजस्व/मार्जिन/एलटीवी, प्रतिधारण, संतुष्टि, गति।

सीमाएं: विविधीकरण, प्रदाता/श्रेणी कोटा, आवृत्ति कैप, आरजी/अनुपालन, निष्पक्षता/नैतिकता, एसएलए पी 95।

नीति-जागरूक पुन: रैंक (स्केलराइजेशन का उदाहरण):

[
~ textstyle score = é alpha é cdot· hat p_{\text{click}} + × beta é cdot × text {value}

gamma é cdot text {Fatigue} + łdelta é cdot é text {Novelty} - sum _ j _ j lambda _ j पाठ {Pance} j
]

जहां दंड कोटा/आरजी/आवृत्ति/एकरसता उल्लंघन हैं।

5) मेट्रिक्स और स्कोरिंग

ऑफ़ लाइन

प्रासंगिकता/रैंकिंग: AUC/PR-AUC, Recall @ k, MAP, NDCG @ k।

व्यवसाय: ईआरपीएम/ईसीपीएम, प्रॉक्सी-एलटीवी, अपेक्षित मार्जिन।

अंशांकन: बैरियर, ईसीई (थ्रेसहोल्ड/नीतियों के लिए महत्वपूर्ण)।

Списки: कवरेज/विविधता/नवीनता/गंभीरता।

ऑनलाइन

A/B/मल्टी-लेबल परीक्षण: CTR, CTCVR, आय/सत्र, प्रतिधारण, शिकायत/सदस्यता (रेल), विलंबता/समय समाप्ति।

कारण मूल्यांकन: CUPED, अर्ध-प्रयोग (DiD/सिंथेटिक नियंत्रण) सीमित यादृच्छिककरण पर।

उत्थान मेट्रिक्स: Qini/AUUC, uplift @ k - उपचार-जागरूक सिफारिशों के लिए।

6) ठंड की शुरुआत और विरल

नए उपयोगकर्ता: लोकप्रिय @ सेगमेंट, सामग्री सर्वेक्षण, पहले क्लिक पर आधारित सामग्री, व्यापक बुद्धिमत्ता के

नए aytems: मेटाडेटा/टेक्स्ट एम्बेडिंग/चित्र + स्टूडियो/श्रेणी द्वारा समान रूप से।

छोटे डोमेन: ट्रांसफर लर्निंग, मल्टी-टास्क (साझा टॉवर), क्रॉस-डोमेन आसवन।

7) विविधीकरण, नवीनता, गंभीरता

एल्गोरिदम: MMR, xQUAD, PM-2; एकरसता के लिए जुर्माना।

कोटा: श्रेणी/ब्रांड/जोखिम वर्ग द्वारा न्यूनतम/अधिकतम।

सूची स्थिरता: स्थिति जड़ ता, अद्यतन हिस्टेरिसिस; आउटपुट को "फ्लैश" न करें।

8) बुनियादी ढांचा और एमएलओपी

फ़ीचर स्टोर: PIT व्यंजनों, सत्र सुविधाओं के लिए TTL, ऑनलाइन/ऑफ़लाइन समता।

ANN सेवाएं: FAISS/ScaNN, शार्डिंग/कैश, प्रतिकृति।

रैंकर: वास्तविक समय की विशेषताएं, अंशांकन, संस्करण हस्ताक्षर।

नीति/पुन: रैंक परत: सीमा/कोटा/आरजी/आवृत्तियों/विविधता।

SLA: एंड-टू-एंड p95 ≤ 100-300 мс; गिरावट के तहत फॉलबैक (लोकप्रिय-सुरक्षित)।

अवलोकन: सहसंबंध _ आईडी निशान, सुविधा बहाव (पीएसआई), ऑनलाइन गुणवत्ता मैट्रिक्स, क्रेन को रोकें।

9) सुरक्षा, गोपनीयता, नैतिकता

पीआईआई न्यूनतम, आरएलएस/सीएलएस, मास्किंग।

प्रदर्शन से पहले आरजी/अनुपालन फिल्टर, आवृत्ति कैप, शांत घंटे।

खंड द्वारा निष्पक्षता निदान; शो के कारणों की व्याख्या; अपील का रास्ता।

10) स्यूडो-कोड: रिकॉल करें → रैंक → री-रैंक हाइब्रिड

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

थॉम्पसन सैंपलिंग फॉर क्रिएटिव्स (स्केच)

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11) छद्म-एसक्यूएल: नकारात्मक प्रतिक्रिया और आवृत्ति कैप

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12) निर्णय तालिका

हालत	संदर्भ	क्रिया	प्रतिबंध	टिप्पणी
'new _ user & low_history'	ऑनबोर्डिंग	लोकप्रिय @ खंड + सामग्री-बीज	आवृत्ति कैप, आरजी	ठंड की शुरुआत
'session _ len> 3 & diversity_low'	सत्र	MMR/xQUAD री-रैंक	न्यूनतम 3 श्रेणियां	गंभीरता
'uplift_push≥τ'	प्रस्ताव	व्यक्तिगत धक्	Do-Not-Disturb, zhaloby≤Kh	वेतन वृद्धि, सीटीआर नहीं
'risk_RG≥τ'	कोई भी	जोखिम सामग्री	आरजी/अनुपालन	सुरक्षा

13) एंटी-पैटर्न

वृद्धि और मूल्य के बजाय "कच्चे सीटीआर" का अनुकूलन।

री-रैंक परत की कमी - अतिरिक्त एकरसता, "दृष्टि सुरंग"।

भविष्य से चेहरे; TZ मिश्रण; गैर-बहुमुखी सिग्नल परिभाषाएँ।

संभावनाओं का कोई अंशांकन नहीं - गलत थ्रेसहोल्ड/पॉलिसी।

आरजी/नैतिकता/निष्पक्षता - शिकायतों/जोखिमों/जुर्माना को अनदेखा करें।

ऑनलाइन/ऑफलाइन डेसिंक्रोनाइज्ड फीचर और मैट्रिक्स - भोजन में "ड्रॉडाउन"।

फॉलबैक और स्टॉप वाल्व की अनुपस्थिति।

14) सिफारिश लॉन्च चेकलिस्ट

सिस्टम पासपोर्ट - उद्देश्य, सीमाएं, मेट्रिक्स, मालिक, संस्करण
रिकॉल/रैंक/री-रैंक तलाकशुदा; ANN गर्म हुआ, कैश कॉन्फ़िगर किया गया
PIT सुविधाएँ, अंशांकन, ऑफ़ लाइन बेंचमार्क (NDCG/PR-AUC) पारित
ए/बी डिजाइन और रेलिंग; निर्णय के लिए तैयार रिपोर्
प्रतिबंध: विविधता/कोटा/आरजी/आवृत्ति कैप - कार्यान्वित और निगरानी
SLA p95, निशान, अलर्ट, क्रेन और लोकप्रिय-सुरक्षित फॉलबैक रोकें
प्रलेखन, रनिबुक, वृद्धिशील सुधार योजना

कुल

एक मजबूत सिफारिश प्रणाली नीति-जागरूक पाइपलाइन है: एक हाइब्रिड रिकॉल/रैंक/री-रैंक जो गति, नैतिकता और विविधता की बाधाओं के तहत वृद्धिशील मूल्य का अनुकूलन करता है। ऑनलाइन अनुकूलन, एमएलओपी अनुशासन और सही कारण मूल्यांकन के लिए डाकुओं/आरएल को जोड़ कर, आपको "सूचियों के लिए सूची" नहीं मिलती है, लेकिन प्रबंधित समाधान जो रोमी, एलटीवी और उपयोगकर्ता संतुष्टि को बढ़ाते हैं - स्थिर और सुरक्थिर।

सिफारिश प्रणाली