सुदृढीकरण प्रशिक्षण
1) आईगेमिंग में आरएल का उद्देश्य और स्थान
आरएल अनिश्चितता और प्रतिक्रिया के लिए समय के साथ कार्रवाई नीतियों का अनुकूलन करता
गेम कैटलॉग (स्लेट-आरएल) का निजीकरण: स्क्रीन/पुश के लिए ऑफ़ र के एक सेट का चयन।
बोनस/प्रोमो अनुकूलन: दुरुपयोग के जोखिम को ध्यान में रखते हुए आकार/प्रकार/समय।
आरजी/रिटेंशन में प्रतिक्रियाएं: कब और कैसे हस्तक्षेप करना है (नरम सूचनाएं/ठहराव/वृद्धि)।
संचालन: गतिशील सीमा प्रबंधन, समर्थन कतारों का प्राथमिकता।
यातायात और खरीद: नीलामी में बोली, बजट-पेसिंग।
न केवल पर्यवेक्षण किया गया: लक्ष्य चर एक दीर्घकालिक इनाम (LTV, भलाई, जोखिम में कमी) है, जिसे इष्टतम रूप से संचित किया जाना चाहिए, न कि केवल भविष्यवाणी की।
2) मूल शब्द
स्थिति (s_t): खिलाड़ी प्रोफ़ाइल, सत्र संदर्भ, बाजार
एक्शन (a_t): ऑफर, गेम्स का चयन (स्लेट), आरजी ट्रिगर, बोली लगाने वाला शर्त।
इनाम (r_t): मिश्रित मीट्रिक (आय - आरजी/एएमएल दंड - मूल्य)।
3) विधि परिवार
3. 1 डाकू (स्टेटलेस)
मल्टी-आर्म्ड बैंडिट: (łepsilon) -greedy, UCB, थॉम्पसन सैंपलिंग।
प्रासंगिक डाकू: खिलाड़ी/सत्र लक्षणों पर विचार करें।
स्लेट/रैंकिंग डाकू: सेट चयन की पेशकश; स्थितिगत प्रभाव समायोजित क
3. 2 पूर्ण आरएल
नीति ग्रेडिएंट/अभिनेता-आलोचक: REINFORCE, A2C/A3C, PPO - बड़े स्थानों के लिए प्रतिरोधी।
क्यू-लर्निंग/डीप क्यू-नेटवर्क: असतत एक्शन, ऑफ़ लाइन लर्निंग विद एक्सपीरियंस बफर।
कंजर्वेटिव/ऑफ़लाइन आरएल: सीक्यूएल, बीसीक्यू, आईक्यूएल - ऑनलाइन शोषण के बिना लॉग से सीखें।
3. 3 सुरक्षित/प्रतिबंधित आरएल
विवश आरएल (सीएमडीपी): आरजी/एएमएल/बजट बाधाओं के तहत अनुकूलन।
जोखिम-संवेदनशील: CVaR-RL, दंड आकार देना, Lagrangian методы।
4) पुरस्कार डिजाइन (इनाम आकार देना)
पुरस्कार के मूल्य और जोखिम को प्रतिबिंबित करना चाहिए
राजस्व: वृद्धिशील शुद्ध राजस्व/एलटीवी ("कच्ची दरों" नहीं) में योगदान।
जिम्मेदार नाटक: जोखिम पैटर्न के लिए दंड, सीमा से अधिक, थकाऊ प्रोत्साहन।
अनुपालन/एएमएल: कार्रवाई के लिए दंड जो असुरक्षित गतिविधि की संभावना को बढ़ाता है।
अनुभव की गुणवत्ता: सीटीआर/सीवीआर/सत्र की लंबाई, लेकिन "ओवरहीटिंग" से बचने के लिए टोपी/वजन के साथ।
मिश्रित इनाम (स्यूडोकोड) का उदाहरण:python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost
5) ऑफ़ लाइन प्रशिक्षण और मूल्यांकन (सुरक्षा की कुंजी)
ऑनलाइन अन्वेषण निषिद्ध/महंगा है - हम ऑफलाइन आरएल और प्रतिवाद मूल्यांकन का उपयोग करते हैं:- IPS/DR: सिफारिश लॉग पर उलटा प्रोपेंसिटी स्कोरिंग/डबल रॉबस्ट।
- रीप्ले/सिमुलेटर: कस्टम/प्रदाता प्रतिक्रिया मॉडल के साथ सिमुलेटर।
- रूढ़िवादी विनियमन: इन लॉग (CQL/IQL) का समर्थन करने के लिए जुर्माना से बाहर निकलें।
- लॉगर नीति: छापों (प्रवृत्ति) की संभावना को लॉग इन करें ताकि एक सही अनुमान हो।
python value_dr = np.mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a s)/μ(a s)
6) प्रासंगिक डाकू: तेज शुरुआत
अनुक्रम छोटा होने पर "सौम्य" ऑनलाइन सीखने के लिए एक दृष्टिकोण:- थॉम्पसन सैंपलिंग (लॉगिट): गुणांक द्वारा पीछे - कार्रवाई का विकल्प।
- यूसीबी: तंग बजट और मजबूत सर के लिए।
- नियमितीकरण निष्पक्षता/आरजी: मुखौटा अस्वीकार्य क्रियाएं, छापों की आवृत्ति को सीमित करें।
python β ~ Posterior() # выбор из апостериорного распределения scores = X @ β # контекстные оценки actions = top_k(scores, k=slate_size, mask=policy_mask)
7) स्लेट-आरएल (किट सिफारिशें)
लक्ष्य: पूरे सेट के इनाम को अधिकतम करने के लिए (ध्यान में रखते हुए, कार्ड प्रतियोगिता)।
विधियाँ: सूची-डाकुओं, स्लेट-क्यू, कारक के साथ नीति ढाल (प्लैकेट-लूस)।
स्थिति सुधार: स्थिति द्वारा प्रवृत्ति; स्वीकार्य सीमा के भीतर यादृच्छिककरण।
8) सुरक्षा, आरजी/एएमएल और अनुपालन
आरएल केवल "संरक्षित मोड" में चलता है:- कठिन बाधाएं: विषाक्त प्रस्तावों का निषेध, आवृत्ति प्रतिबंध, "शीतलन"।
- नीति परिरक्षण: अनुमान से पहले और बाद में आरजी/एएमएल नीति द्वारा कार्रवाई को फ़िल्टर करें।
- दोहरे अनुकूलन: प्रतिबंधों के लिए लैग्रेंज गुणक (उदाहरण के लिए, "आक्रामक" का हिस्सा प्रदान करता है)।
- नैतिकता और निष्पक्ष-उपयोग: प्रॉक्सी सुविधाओं को बाहर करें, ऑडिट को प्रभावित करें।
python a = policy.sample(s)
if not passes_guardrails(a, s):
a = safe_fallback(s) # правило/минимальный оффер
9) डेटा और सर्विंग आर्किटेक्चर
ऑफ़ लाइन लूप
लेकहाउस: इंप्रेशन/क्लिक/रूपांतरण, प्रोपेंसिटीज, लागत के लॉग।
फ़ीचर स्टोर (ऑफ़लाइन): पॉइंट-इन-टाइम सुविधाएँ, सही लेबल।
प्रशिक्षण: ऑफलाइन आरएल (सीक्यूएल/आईक्यूएल) + सिमुलेटर; IPS/DR सत्यापन
ऑनलाइन/निकट-वास्तविक समय
Feechee: त्वरित खिड़कियां (1-60 मिनट), खिलाड़ी/सत्र संकेत, सीमा और आरजी/एएमएल मास्क।
सेवारत: gRPC/REST, p95 50-150 ms (निजीकरण), कैनरी रूटिंग।
लॉग: 'पॉलिसी _ आईडी', 'प्रवृत्ति', 'स्लेट', 'गार्ड _ मास्क', वास्तविक परिणाम सहेजें।
10) मेट्रिक्स और प्रयोग
ऑफ़ लाइन: DR/IPS-मूल्यांकन मूल्य, कवरेज समर्थन, लॉगर से विचलन।
ऑनलाइन: नेट रेवेन्यू/एलटीवी, आरजी सिग्नल (टाइम-टू-इंटरवेन), दुरुपयोग-दर, सीटीआर/सीवीआर/प्रतिधारण के लिए वृद्धि।
जोखिम मैट्रिक्स: सीवीएआर, रेलिंग उल्लंघन का अनुपात, आरजी हस्तक्षेप की आवृत्ति।
प्रयोग: ए/बी/एन ट्रैफिक कैपिंग और "किल-स्विच", अनुक्रमिक-परीक्षण के साथ।
11) लागत इंजीनियरिंग और प्रदर्शन
क्रियाओं की जटिलता: हम ऑफ़ र के स्लेट/स्थान के आकार को सीमित करते हैं।
सुविधाओं/समाधानों का कैश: लोकप्रिय राज्यों के लिए छोटी टीटीएल।
अपघटन: दो-चरण (उम्मीदवार पीढ़ी → री-रैंक)।
शेड्यूल पर ऑफ़ लाइन प्रशिक्षण: दैनिक/साप्ताहिक रिट्रेन; ऑनलाइन - केवल आसान अनुकूलन (डाकुओं)।
12) उदाहरण (टुकड़े)
सुरक्षित दंड पीपीओ (थंबनेल):python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy = -E[ clip_ratio(pi, old_pi) A ]
loss_value = mse(V(s), R)
loss_safety = λ relu(safety_metric - safety_cap)
loss_total = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)
कंजर्वेटिव क्यू-लर्निंग (विचार):
python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])
आरजी मास्क के साथ संदर्भ डाकू:
python scores = model(x) # предсказанные полезности scores[~allowed_mask] = -inf # запретные действия a = argmax(scores) if rand()>eps else random_allowed()
13) प्रक्रियाएं, भूमिकाएँ और आरएसीआई
आर (जिम्मेदार): डेटा साइंस (आरएल मॉडल/बैंडिट्स), एमएलओपी (प्लेटफॉर्म/लॉगिंग/मूल्यांकन), डेटा इंग (फीचर/सिमुलेटर)।
ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
सी (परामर्श): अनुपालन/डीपीओ (आरजी/एएमएल/पीआईआई), कानूनी (प्रस्तावों की शर्तें), सुरक्षा (रहस्य/केएमएस), एसआरई (एसएलओ/मूल्य), उत्पाद।
I (सूचित): विपणन/सीआरएम, संचालन, समर्थन।
14) कार्यान्वयन रोडमैप
एमवीपी (4-6 सप्ताह):1. आरजी/एएमएल मास्क और प्रवृत्ति लॉगिंग के साथ 1 प्रस्ताव चुनने के लिए संदर्भ डाकू।
2. ऑफ़ लाइन IPS/DR स्कोर, A/B (यातायात का 5-10%), किल-स्विच तक सीमित है।
3. डैशबोर्ड: मूल्य (डीआर), सीटीआर/सीवीआर, आरजी मैट्रिक्स, रेलिंग उल्लंघन।
चरण 2 (6-12 सप्ताह):- स्लेट डाकू (N = 3-5 कार्ड), स्थितिगत सुधार; दो-चरण candidate→re -रैंक।
- सिम्युलेटर के साथ ऑफलाइन आरएल (IQL/CQL); नियमित रूप से पीछे हटना।
- विवश-आरएल: आक्रामकता/आवृत्ति, दोहरे अनुकूलन पर सीमा।
- सख्त कैप और ऑडिट के साथ आरजी हस्तक्षेप (सुरक्षित आरएल) नीतियां।
- सीवीएआर प्रतिबंधों के साथ बजट-पेसिंग और बोली (नीलामी)।
- अंतःक्षेत्रीय अनुकूलन, अनुमान और प्रस्तावों की लागत पर चार्जबैक।
15) प्री-सेल चेकलिस्ट
- लॉग में 'पॉलिसी _ आईडी', 'प्रवृत्ति', मास्क/बाधाएं, परिणाम शामिल हैं।
- डीआर/आईपीएस स्कोर स्थिर; पर्याप्त डेटा समर्थन (लॉगर के साथ ओवरलैप)।
- गार्ड: सूची, आवृत्ति सीमा, शीतलन, किल-स्विच को बाधित करें।
- आरजी/एएमएल/कानूनी नियमों पर सहमत; ऑडिट सक्षम (मामलों के लिए WORM)।
- कैनरी रिलीज और यातायात सीमा; निगरानी मूल्य/आरजी/दुरुपयोग।
- पुरस्कार और जोखिम प्रलेखन; नीति कार्ड (मालिक, संस्करण, एसएलए)।
- नियंत्रण में लागत: विलंबता p95, लागत/अनुरोध, स्लॉट आकार, कैश।
16) एंटी-पैटर्न
सुरक्षा और ऑफ़ लाइन मूल्यांकन के बिना ऑनलाइन अन्वेषण।
दुरुपयोग और आरजी → विषाक्त नीति को छोड़ कर क्लिक/शर्त पुरस्कार।
लॉग द्वारा औचित्य और सही कारण मूल्यांकन की कमी।
बहुत अधिक एक्शन स्पेस, कोई मास्क/कैपिंग नहीं।
निवास और नियमों के बिना मिश्रण क्षेत्र/क्षेत्राधिकार।
किल-स्विच और कैनरी की अनुपस्थिति।
17) नीचे की रेखा
आरएल आईगेमिंग प्लेटफॉर्म अनुकूली नीतियां देता है जो आरजी/एएमएल/लीगल के अनुपालन के दौरान दीर्घकालिक मूल्य को अधिकतम करती हैं। सुरक्षित कार्यान्वयन की कुंजी ऑफ़ लाइन/रूढ़िवादी तरीके, सही कारण मूल्यांकन (IPS/DR), सख्त रेलिंग, पारदर्शी इनाम, MLOps अनुशासन और क्रमिक रोलआउट है। इस तरह आपको जिम्मेदारी और अनुपालन पर समझौता किए बिना शुद्ध राजस्व/एलटीवी वृद्धि मिलती है।