آموزش تقویت

1) هدف و محل RL در iGaming

RL بهینه سازی سیاست های عمل در طول زمان برای عدم اطمینان و بازخورد:

شخصی سازی کاتالوگ بازی (Slate-RL): انتخاب مجموعه ای از پیشنهادات برای صفحه نمایش/فشار.
پاداش/بهینه سازی تبلیغی: اندازه/نوع/زمان بندی با توجه به خطر سوء استفاده.
واکنش در RG/احتباس: زمان و چگونگی مداخله (اطلاعیه های نرم/مکث/تشدید).
عملیات: مدیریت محدودیت پویا، اولویت بندی صف های پشتیبانی.
ترافیک و تدارکات: مناقصه در مزایده، بودجه گام به گام.

چرا نه تنها نظارت: متغیر هدف یک پاداش بلند مدت (LTV، سلامت، کاهش ریسک) است که باید به طور مطلوب انباشته شود و نه فقط پیش بینی شود.

2) متن اصلی

وضعیت (s_t): مشخصات بازیکن، زمینه جلسه، محدودیت های بازار.
عمل (a_t): پیشنهاد، انتخاب بازی (تخته سنگ)، RG ماشه، شرط پیشنهاد دهنده.
پاداش (r_t): متریک مخلوط (درآمد - مجازات RG/AML - ارزش).

خط مشی (\pi (a	ب) توزیع فعالیتها.
هدف: به حداکثر رساندن پاداش کل مورد انتظار (\mathbb {E} _\pi [\sum\gamma ^ t r_t]) تحت محدودیت های شدید (ایمنی/انطباق).

3) خانواده های روش

3. ۱ راهزنان (بدون تابعیت)

راهزن چند مسلح: (\epsilon) -greedy، UCB، تامپسون نمونه برداری.
راهزنان متنی: ویژگی های بازیکن/جلسه را در نظر بگیرید.
Slate/Ranking Bandits: انتخاب مجموعه پیشنهاد ؛ اثرات موقعیتی را تنظیم کنید.

3. 2 RL کامل

گرادیان سیاست/بازیگر-منتقد: REINFORCENT، A2C/A3C، PPO - مقاوم در برابر فضاهای بزرگ.

Q-Learning/Deep Q-Networks: اقدامات گسسته، یادگیری آفلاین با بافر تجربه

محافظه کار/آفلاین RL: CQL، BCQ، IQL - یادگیری از سیاهههای مربوط بدون بهره برداری آنلاین.

3. 3 امن/محدود RL

(Constrained RL (CMDP: بهینه سازی تحت محدودیت های RG/AML/بودجه.
حساس به ریسک: CVaR-RL، شکل دادن به مجازات، методы لاگرانژی.

4) طراحی جایزه (شکل دادن پاداش)

این جایزه باید منعکس کننده ارزش و خطرات:

درآمد: کمک به افزایش درآمد خالص/LTV (نه «نرخ خام»).
بازی مسئولانه: مجازات برای الگوهای خطر، بیش از حد محدودیت ها، انگیزه های خسته کننده.
AML: مجازات برای اقداماتی که احتمال فعالیت ناامن را افزایش می دهد.
کیفیت تجربه: CTR/CVR/طول جلسه، اما با کلاه/وزن برای جلوگیری از «بیش از حد گرم».

نمونه ای از پاداش مخلوط (pseudocode):

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) آموزش و ارزیابی آفلاین (کلید امنیت)

توضیح آنلاین ممنوع/گران است → ما از RL آفلاین و ارزیابی خلاف واقع استفاده می کنیم:

IPS/DR: معکوس گرایش امتیاز/دو برابر قوی در سیاهههای مربوط به توصیه.
پخش/شبیه سازی: شبیه سازی با مدل های پاسخ سفارشی/ارائه دهنده.
مقررات محافظه کارانه: مجازات خروج برای حمایت از این سیاهههای مربوط (CQL/IQL).
سیاست Logger: احتمال impressions (تمایل) را وارد کنید تا برآورد صحیح وجود داشته باشد.

ارزیابی DR (طرح):

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) راهزنان متنی: شروع سریع

یک رویکرد برای یادگیری آنلاین «ملایم» زمانی که دنباله کوتاه است:

تامپسون نمونه برداری (logit): خلفی با ضرایب → انتخاب عمل.
UCB: برای بودجه های تنگ و سارس قوی.
تنظیم انصاف/RG: ماسک اقدامات غیر قابل قبول، محدود کردن فرکانس برداشت.

کد شبه TS:

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) Slate-RL (توصیه های کیت)

هدف: به حداکثر رساندن پاداش کل مجموعه (با توجه به موقعیت های حساب، رقابت کارت).
روش کار: Listwise-bandits, slate-Q, policy gradient with factorization (Plackett-Luce).
اصلاح موقعیت: تمایل به موقعیت ؛ تصادفی در محدوده قابل قبول.

8) ایمنی، RG/AML و انطباق

RL فقط در «حالت محافظت شده» اجرا می شود:

محدودیت های سخت: ممنوعیت پیشنهادات سمی، محدودیت فرکانس، «خنک کننده».
سیاست حفاظت: فیلتر کردن عمل توسط سیاست RG/AML قبل و بعد از استنتاج.
بهینه سازی دوگانه: ضریب لاگرانژ برای محدودیت ها (به عنوان مثال، سهم پیشنهادات «تهاجمی» ≤ θ).
اخلاق و استفاده منصفانه: حذف ویژگی های پروکسی، حسابرسی تاثیر می گذارد.

شیلینگ (شبه کد):

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) داده ها و خدمت معماری

حلقه آفلاین

دریاچه: سیاهههای مربوط از برداشت/کلیک/تبدیل، تمایلات، هزینه.
ویژگی فروشگاه (آفلاین): ویژگی های نقطه در زمان، برچسب های صحیح.

آموزش: RL آفلاین (CQL/IQL) + شبیه ساز ؛ اعتبار سنجی IPS/DR

آنلاین/نزدیک به زمان واقعی

Feechee: پنجره های سریع (1-60 دقیقه)، علائم پخش/جلسه، محدودیت ها و ماسک های RG/AML.
خدمت: gRPC/REST، p95 50-150 ms (شخصی سازی)، مسیریابی قناری.
سیاهههای مربوط: صرفه جویی در 'policy _ id'، 'تمایل'، 'تخته سنگ'، 'guard _ mask'، نتیجه واقعی.

10) معیارها و آزمایش

آفلاین: ارزش ارزیابی DR/IPS، پشتیبانی پوشش، واگرایی از چوب.
آنلاین: افزایش به درآمد خالص/LTV، سیگنال های RG (زمان مداخله)، نرخ سوء استفاده، CTR/CVR/حفظ.
معیارهای خطر: CVaR، نسبت نقض گاردریل، فرکانس مداخلات RG.
آزمایش: A/B/n با پوشش ترافیکی و «سوئیچ کشتن»، تست متوالی.

11) مهندسی هزینه و عملکرد

پیچیدگی اقدامات: ما اندازه تخته سنگ/فضای پیشنهادات را محدود می کنیم.
کش از ویژگی های/راه حل: TTLs کوتاه برای کشورهای محبوب.
تجزیه: دو مرحله (تولید نامزد → رتبه مجدد).
آموزش آفلاین در برنامه: آموزش مجدد روزانه/هفتگی ؛ آنلاین - تنها سازگاری آسان (راهزنان).

12) نمونه ها (قطعات)

مجازات امن PPO (تصویر بند انگشتی):

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

محافظه کار Q-یادگیری (ایده):

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

راهزن زمینه با ماسک RG:

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) فرآیندها، نقش ها و RACI

R (مسئول): علوم داده (مدل RL/راهزنان)، MLOps (پلت فرم/ورود به سیستم/ارزیابی)، داده ها مهندس (ویژگی/شبیه سازی).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (RG/AML/PII)، حقوقی (شرایط پیشنهادات)، امنیت (اسرار/KMS)، SRE (SLO/ارزش)، محصول.
I (مطلع): بازاریابی/CRM، عملیات، پشتیبانی.

14) نقشه راه پیاده سازی

MVP (4-6 هفته):

1. راهزن زمینه برای انتخاب 1 پیشنهاد با ماسک RG/AML و ورود به سیستم گرایش.

2. آفلاین IPS/DR نمره، محدود به A/B (5-10٪ از ترافیک)، کشتن سوئیچ.

3. داشبورد: ارزش (DR)، CTR/CVR، معیارهای RG، نقض گاردریل.

مرحله 2 (6-12 هفته):

راهزن تخته سنگ (N = 3-5 کارت)، اصلاحات موقعیتی ؛ نامزد دو مرحله → دوباره رتبه.
آفلاین RL (IQL/CQL) با شبیه ساز ؛ آموزش مجدد به طور منظم.
Constrained-RL: محدودیت در پرخاشگری/فرکانس، بهینه سازی دوگانه.

مرحله 3 (12-20 هفته):

سیاست های مداخله RG (RL ایمن) با کلاه ها و ممیزی های دقیق.
بودجه گام و مناقصه (مزایده) با محدودیت CVaR.
سازگاری بین منطقه ای، بازپرداخت در هزینه استنتاج و پیشنهادات.

15) چک لیست پیش فروش

سیاهههای مربوط شامل «policy _ id»، «تمایل»، ماسک/محدودیت ها، نتایج.
DR/IPS نمره پایدار ؛ پشتیبانی داده کافی (همپوشانی با logger).
Guardrails: لیست های مهار، محدودیت فرکانس، cooldown، سوئیچ کشتن.
RG/AML/حقوقی در مورد قوانین توافق ؛ حسابرسی فعال (WORM برای موارد).
آزادی قناری و محدودیت های ترافیکی ؛ نظارت بر ارزش/RG/سوء استفاده.
جایزه و اسناد خطر; کارت سیاست (مالک، نسخه، SLA).
هزینه تحت کنترل: تاخیر p95، هزینه/درخواست، اندازه اسلات، کش.

16) ضد الگوهای

توضیح آنلاین بدون حفاظت و ارزیابی آفلاین.
جایزه کلیک/شرط بندی به استثنای سوء استفاده و RG → سیاست سمی.
عدم تناسب و ارزیابی علت و معلولی صحیح توسط سیاهههای مربوط.
فضای عمل بیش از حد، بدون ماسک/پوشش.
مخلوط کردن مناطق/حوزه های قضایی بدون اقامت و قوانین.
عدم وجود سوئیچ کشتن و قناری.

17) خط پایین

RL سیاست های تطبیقی پلت فرم iGaming را فراهم می کند که ارزش بلند مدت را در حالی که مطابق با RG/AML/Legal است، به حداکثر می رساند. کلید اجرای ایمن روش های آفلاین/محافظه کارانه، ارزیابی صحیح علت (IPS/DR)، گارد محافظ دقیق، پاداش شفاف، نظم و انضباط MLOps و گسترش تدریجی است. به این ترتیب شما می توانید درآمد خالص/LTV رشد بدون به خطر انداختن مسئولیت و انطباق.

آموزش تقویت

آنلاین/نزدیک به زمان واقعی

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم