सुदृढीकरण प्रशिक्षण

1) आईगेमिंग में आरएल का उद्देश्य और स्थान

आरएल अनिश्चितता और प्रतिक्रिया के लिए समय के साथ कार्रवाई नीतियों का अनुकूलन करता

गेम कैटलॉग (स्लेट-आरएल) का निजीकरण: स्क्रीन/पुश के लिए ऑफ़ र के एक सेट का चयन।

बोनस/प्रोमो अनुकूलन: दुरुपयोग के जोखिम को ध्यान में रखते हुए आकार/प्रकार/समय।

आरजी/रिटेंशन में प्रतिक्रियाएं: कब और कैसे हस्तक्षेप करना है (नरम सूचनाएं/ठहराव/वृद्धि)।

संचालन: गतिशील सीमा प्रबंधन, समर्थन कतारों का प्राथमिकता।

यातायात और खरीद: नीलामी में बोली, बजट-पेसिंग।

न केवल पर्यवेक्षण किया गया: लक्ष्य चर एक दीर्घकालिक इनाम (LTV, भलाई, जोखिम में कमी) है, जिसे इष्टतम रूप से संचित किया जाना चाहिए, न कि केवल भविष्यवाणी की।

2) मूल शब्द

स्थिति (s_t): खिलाड़ी प्रोफ़ाइल, सत्र संदर्भ, बाजार प्रतिबंध।

एक्शन (a_t): ऑफर, गेम्स का चयन (स्लेट), आरजी ट्रिगर, बोली लगाने वाला शर्त।

इनाम (r_t): मिश्रित मीट्रिक (आय - आरजी/एएमएल दंड - मूल्य)।

नीति (é pi (a)	): क्रियाओं का वितरण।
उद्देश्य: गंभीर बाधाओं (सुरक्षा/अनुपालन) के अंतर्गत अपेक्षित कुल पुरस्कार को अधिकतम करने के लिए।

3) विधि परिवार

3. 1 डाकू (स्टेटलेस)

मल्टी-आर्म्ड बैंडिट: (łepsilon) -greedy, UCB, थॉम्पसन सैंपलिंग।

प्रासंगिक डाकू: खिलाड़ी/सत्र लक्षणों पर विचार करें।

स्लेट/रैंकिंग डाकू: सेट चयन की पेशकश; स्थितिगत प्रभाव समायोजित करें।

3. 2 पूर्ण आरएल

नीति ग्रेडिएंट/अभिनेता-आलोचक: REINFORCE, A2C/A3C, PPO - बड़े स्थानों के लिए प्रतिरोधी।

क्यू-लर्निंग/डीप क्यू-नेटवर्क: असतत एक्शन, ऑफ़ लाइन लर्निंग विद एक्सपीरियंस बफर।

कंजर्वेटिव/ऑफ़लाइन आरएल: सीक्यूएल, बीसीक्यू, आईक्यूएल - ऑनलाइन शोषण के बिना लॉग से सीखें।

3. 3 सुरक्षित/प्रतिबंधित आरएल

विवश आरएल (सीएमडीपी): आरजी/एएमएल/बजट बाधाओं के तहत अनुकूलन।

जोखिम-संवेदनशील: CVaR-RL, दंड आकार देना, Lagrangian методы।

4) पुरस्कार डिजाइन (इनाम आकार देना)

पुरस्कार के मूल्य और जोखिम को प्रतिबिंबित करना चाहिए:

राजस्व: वृद्धिशील शुद्ध राजस्व/एलटीवी ("कच्ची दरों" नहीं) में योगदान।
जिम्मेदार नाटक: जोखिम पैटर्न के लिए दंड, सीमा से अधिक, थकाऊ प्रोत्साहन।
अनुपालन/एएमएल: कार्रवाई के लिए दंड जो असुरक्षित गतिविधि की संभावना को बढ़ाता है।
अनुभव की गुणवत्ता: सीटीआर/सीवीआर/सत्र की लंबाई, लेकिन "ओवरहीटिंग" से बचने के लिए टोपी/वजन के साथ।

मिश्रित इनाम (स्यूडोकोड) का उदाहरण:

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) ऑफ़ लाइन प्रशिक्षण और मूल्यांकन (सुरक्षा की कुंजी)

ऑनलाइन अन्वेषण निषिद्ध/महंगा है - हम ऑफलाइन आरएल और प्रतिवाद मूल्यांकन का उपयोग करते हैं:

IPS/DR: सिफारिश लॉग पर उलटा प्रोपेंसिटी स्कोरिंग/डबल रॉबस्ट।
रीप्ले/सिमुलेटर: कस्टम/प्रदाता प्रतिक्रिया मॉडल के साथ सिमुलेटर।
रूढ़िवादी विनियमन: इन लॉग (CQL/IQL) का समर्थन करने के लिए जुर्माना से बाहर निकलें।
लॉगर नीति: छापों (प्रवृत्ति) की संभावना को लॉग इन करें ताकि एक सही अनुमान हो।

डीआर मूल्यांकन (योजना):

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) प्रासंगिक डाकू: तेज शुरुआत

अनुक्रम छोटा होने पर "सौम्य" ऑनलाइन सीखने के लिए एक दृष्टिकोण:

थॉम्पसन सैंपलिंग (लॉगिट): गुणांक द्वारा पीछे - कार्रवाई का विकल्प।
यूसीबी: तंग बजट और मजबूत सर के लिए।
नियमितीकरण निष्पक्षता/आरजी: मुखौटा अस्वीकार्य क्रियाएं, छापों की आवृत्ति को सीमित करें।

टीएस स्यूडो कोड:

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) स्लेट-आरएल (किट सिफारिशें)

लक्ष्य: पूरे सेट के इनाम को अधिकतम करने के लिए (ध्यान में रखते हुए, कार्ड प्रतियोगिता)।

विधियाँ: सूची-डाकुओं, स्लेट-क्यू, कारक के साथ नीति ढाल (प्लैकेट-लूस)।

स्थिति सुधार: स्थिति द्वारा प्रवृत्ति; स्वीकार्य सीमा के भीतर यादृच्छिककरण।

8) सुरक्षा, आरजी/एएमएल और अनुपालन

आरएल केवल "संरक्षित मोड" में चलता है:

कठिन बाधाएं: विषाक्त प्रस्तावों का निषेध, आवृत्ति प्रतिबंध, "शीतलन"।
नीति परिरक्षण: अनुमान से पहले और बाद में आरजी/एएमएल नीति द्वारा कार्रवाई को फ़िल्टर करें।
दोहरे अनुकूलन: प्रतिबंधों के लिए लैग्रेंज गुणक (उदाहरण के लिए, "आक्रामक" का हिस्सा प्रदान करता है)।
नैतिकता और निष्पक्ष-उपयोग: प्रॉक्सी सुविधाओं को बाहर करें, ऑडिट को प्रभावित करें।

शिलिंग (स्यूडोकोड):

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) डेटा और सर्विंग आर्किटेक्चर

ऑफ़ लाइन लूप

लेकहाउस: इंप्रेशन/क्लिक/रूपांतरण, प्रोपेंसिटीज, लागत के लॉग।

फ़ीचर स्टोर (ऑफ़लाइन): पॉइंट-इन-टाइम सुविधाएँ, सही लेबल।

प्रशिक्षण: ऑफलाइन आरएल (सीक्यूएल/आईक्यूएल) + सिमुलेटर; IPS/DR सत्यापन

ऑनलाइन/निकट-वास्तविक समय

Feechee: त्वरित खिड़कियां (1-60 मिनट), खिलाड़ी/सत्र संकेत, सीमा और आरजी/एएमएल मास्क।

सेवारत: gRPC/REST, p95 50-150 ms (निजीकरण), कैनरी रूटिंग।

लॉग: 'पॉलिसी _ आईडी', 'प्रवृत्ति', 'स्लेट', 'गार्ड _ मास्क', वास्तविक परिणाम सहेजें।

10) मेट्रिक्स और प्रयोग

ऑफ़ लाइन: DR/IPS-मूल्यांकन मूल्य, कवरेज समर्थन, लॉगर से विचलन।

ऑनलाइन: नेट रेवेन्यू/एलटीवी, आरजी सिग्नल (टाइम-टू-इंटरवेन), दुरुपयोग-दर, सीटीआर/सीवीआर/प्रतिधारण के लिए वृद्धि।

जोखिम मैट्रिक्स: सीवीएआर, रेलिंग उल्लंघन का अनुपात, आरजी हस्तक्षेप की आवृत्ति।

प्रयोग: ए/बी/एन ट्रैफिक कैपिंग और "किल-स्विच", अनुक्रमिक-परीक्षण के साथ।

11) लागत इंजीनियरिंग और प्रदर्शन

क्रियाओं की जटिलता: हम ऑफ़ र के स्लेट/स्थान के आकार को सीमित करते हैं।

सुविधाओं/समाधानों का कैश: लोकप्रिय राज्यों के लिए छोटी टीटीएल।

अपघटन: दो-चरण (उम्मीदवार पीढ़ी → री-रैंक)।

शेड्यूल पर ऑफ़ लाइन प्रशिक्षण: दैनिक/साप्ताहिक रिट्रे ऑनलाइन - केवल आसान अनुकूलन (डाकुओं)।

12) उदाहरण (टुकड़े)

सुरक्षित दंड पीपीओ (थंबनेल):

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

कंजर्वेटिव क्यू-लर्निंग (विचार):

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

आरजी मास्क के साथ संदर्भ डाकू:

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) प्रक्रियाएं, भूमिकाएँ और आरएसीआई

आर (जिम्मेदार): डेटा साइंस (आरएल मॉडल/बैंडिट्स), एमएलओपी (प्लेटफॉर्म/लॉगिंग/मूल्यांकन), डेटा इंग (फीचर/सिमुलेटर)।

ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।

सी (परामर्श): अनुपालन/डीपीओ (आरजी/एएमएल/पीआईआई), कानूनी (प्रस्तावों की शर्तें), सुरक्षा (रहस्य/केएमएस), एसआरई (एसएलओ/मूल्य), उत्पाद।

I (सूचित): विपणन/सीआरएम, संचालन, समर्थन।

14) कार्यान्वयन रोडमैप

एमवीपी (4-6 सप्ताह):

1. आरजी/एएमएल मास्क और प्रवृत्ति लॉगिंग के साथ 1 प्रस्ताव चुनने के लिए संदर्भ डाकू।

2. ऑफ़ लाइन IPS/DR स्कोर, A/B (यातायात का 5-10%), किल-स्विच तक सीमित है।

3. डैशबोर्ड: मूल्य (डीआर), सीटीआर/सीवीआर, आरजी मैट्रिक्स, रेलिंग उल्लंघन।

चरण 2 (6-12 सप्ताह):

स्लेट डाकू (N = 3-5 कार्ड), स्थितिगत सुधार; दो-चरण candidate→re -रैंक।
सिम्युलेटर के साथ ऑफलाइन आरएल (IQL/CQL); नियमित रूप से पीछे हटना।
विवश-आरएल: आक्रामकता/आवृत्ति, दोहरे अनुकूलन पर सीमा।

चरण 3 (12-20 सप्ताह):

सख्त कैप और ऑडिट के साथ आरजी हस्तक्षेप (सुरक्षित आरएल) नीतियां।
सीवीएआर प्रतिबंधों के साथ बजट-पेसिंग और बोली (नीलामी)।
अंतःक्षेत्रीय अनुकूलन, अनुमान और प्रस्तावों की लागत पर चार्जबैक।

15) प्री-सेल चेकलिस्ट

लॉग में 'पॉलिसी _ आईडी', 'प्रवृत्ति', मास्क/बाधाएं, परिणाम शामिल हैं।
डीआर/आईपीएस स्कोर स्थिर; पर्याप्त डेटा समर्थन (लॉगर के साथ ओवरलैप)।
गार्ड: सूची, आवृत्ति सीमा, शीतलन, किल-स्विच को बाधित करें।
आरजी/एएमएल/कानूनी नियमों पर सहमत; ऑडिट सक्षम (मामलों के लिए WORM)।
कैनरी रिलीज और यातायात सीमा; निगरानी मूल्य/आरजी/दुरुपयोग।
पुरस्कार और जोखिम प्रलेखन; नीति कार्ड (मालिक, संस्करण, एसएलए)।
नियंत्रण में लागत: विलंबता p95, लागत/अनुरोध, स्लॉट आकार, कैश।

16) एंटी-पैटर्न

सुरक्षा और ऑफ़ लाइन मूल्यांकन के बिना ऑनलाइन अन्वेषण।

दुरुपयोग और आरजी → विषाक्त नीति को छोड़ कर क्लिक/शर्त पुरस्कार।

लॉग द्वारा औचित्य और सही कारण मूल्यांकन की कमी।

बहुत अधिक एक्शन स्पेस, कोई मास्क/कैपिंग नहीं।

निवास और नियमों के बिना मिश्रण क्षेत्र/क्षेत्राधिकार।

किल-स्विच और कैनरी की अनुपस्थिति।

17) नीचे की रेखा

आरएल आईगेमिंग प्लेटफॉर्म अनुकूली नीतियां देता है जो आरजी/एएमएल/लीगल के अनुपालन के दौरान दीर्घकालिक मूल्य को अधिकतम करती हैं। सुरक्षित कार्यान्वयन की कुंजी ऑफ़ लाइन/रूढ़िवादी तरीके, सही कारण मूल्यांकन (IPS/DR), सख्त रेलिंग, पारदर्शी इनाम, MLOps अनुशासन और क्रमिक रोलआउट है। इस तरह आपको जिम्मेदारी और अनुपालन पर समझौता किए बिना शुद्ध राजस्व/एलटीवी वृद्धि मिलती है।

सुदृढीकरण प्रशिक्षण

ऑनलाइन/निकट-वास्तविक समय

हमसे संपर्क करें

त्वरित संपर्क

वीडियो जल्द ही अपडेट किया जाएगा

हम इस समय परियोजनाओं में बहुत व्यस्त हैं