Gücləndirici təlim

1) Təyinatı və iGaming RL yeri

RL qeyri-müəyyənlik və rəy üçün zaman hərəkətləri siyasətini optimallaşdırır:

Oyun kataloqunun (Slate-RL) personallaşdırılması: ekran/top üçün təkliflər dəstinin seçilməsi.
Bonuslar/promo optimallaşdırılması: ölçüsü/növü/sui-qəsd riski nəzərə alınmaqla vaxt.
RG/Retention-da reaksiyalar: nə vaxt və necə müdaxilə etmək (yumşaq notifikasiya/fasilə/eskalasiya).
Əməliyyatlar: limitlərin dinamik idarə edilməsi, sapport növbələrinin prioritetləşdirilməsi.
Trafik və alış: hərraclarda biddinq, büdcə paysinqi.

Niyə yalnız supervised deyil: hədəf dəyişən - yalnız proqnozlaşdırmaq deyil, optimal şəkildə yığılması lazım olan uzunmüddətli mükafatdır (LTV, wellbeing, risk azaldılması).

2) Əsas ifadə

Status (s_t): oyunçu profili, sessiya konteksti, bazar məhdudiyyətləri.
Fəaliyyət (a_t): offer, oyun seçimi (slate), RG tetikçisi, bidder dərəcəsi.
Mükafat (r_t): qarışıq metrika (gəlir - RG/AML cərimələri - dəyəri).

Siyasət (\pi (a)	s): hərəkətlərin paylanması.
Məqsəd: gözlənilən ümumi mükafatı (\mathbb {E} _\pi [\sum\gamma ^ t r_t]) ciddi məhdudiyyətlərlə (safety/complayens) maksimuma çatdırmaq.

3) Metodlar ailəsi

3. 1 Quldurlar (halsız)

Multi-Armed Bandit: (\epsilon)-greedy, UCB, Thompson Sampling.
Kontekst quldurlar: oyunçu/sessiya əlamətlərini nəzərə alın.
Slate/Ranking Bandits: təklif dəsti seçimi; mövqe effektlərini düzəldir.

3. 2 Tam RL

Policy Gradient/Actor-Critic: REINFORCE, A2C/A3C, PPO - geniş məkanlara davamlı.
Q-Learning/Deep Q-Networks: diskret hərəkətlər, təcrübə tamponu ilə oflayn təlim.
Conservative/Offline RL: CQL, BCQ, IQL - onlayn eksplorasiya olmadan log vasitəsilə öyrənmək.

3. 3 Təhlükəsiz/məhdud RL

Constrained RL (CMDP): RG/AML/büdcə məhdudiyyətlərində optimallaşdırma.
Risk-Sensitive: CVaR-RL, penalty shaping, Lagrangian методы.

4) Mükafat dizaynı (reward shaping)

Mükafat dəyər və riskləri əks etdirməlidir:

Gəlir: Artımlı Net Revenue/LTV («xam dərəcələr» deyil).
Məsuliyyətli oyun: risk nümunələrinə görə cərimələr, limitləri aşmaq, stimulları yormaq.
Komplayens/AML: təhlükəli fəaliyyət ehtimalını artıran hərəkətlərə görə cərimələr.
Təcrübə keyfiyyəti: CTR/CVR/seans uzunluğu, lakin «həddindən artıq istiləşmə» qarşısını almaq üçün cap/weight ilə.

Qarışıq mükafat nümunəsi (psevdokod):

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) Offline təlim və qiymətləndirmə (təhlükəsizlik açarı)

Online eksplor qadağan/yollar → offline RL və counterfactual evaluation istifadə:

IPS/DR: Inverse Propensity Scoring/Doubly Robust.
Replay/Simulators: xüsusi/provayder cavab modelləri ilə simulyatorlar.
Conservative Regularization: Bu log dəstəyi (CQL/IQL) üçün cərimə.
Loqger Siyasəti: Düzgün qiymətləndirmə üçün göstəriş ehtimallarını (propensity) qiymətləndiririk.

DR qiymətləndirilməsi (sxem):

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) Kontekstli quldurlar: sürətli başlanğıc

Ardıcıllıq qısa olduqda «yumşaq» onlayn təlim üçün yanaşma:

Thompson Sampling (logit): posterior əmsalları → hərəkət seçimi.
UCB: məhdud büdcələr və güclü sərlər üçün.
Fairness/RG nizamlanması: yolverilməz hərəkətləri maskalamaq, nümayiş tezliyini məhdudlaşdırmaq.

Psevdokod TS:

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) Slate-RL (set tövsiyələr)

Məqsəd: bütün dəstin mükafatını maksimuma çatdırmaq (mövqelərin uçotu, kartların rəqabəti).
Metodlar: Listwise-quldurlar, slate-Q, faktorizasiya ilə policy gradient (Plackett-Luce).
Mövqelərin korreksiyası: mövqelər üzrə propensity; icazə verilən sərhədlər daxilində randomizasiya.

8) Təhlükəsizlik, RG/AML və uyğunluq

RL yalnız "guarded mode 'da başlayır:

Sərt qaydalar (hard constraints): zəhərli offerlərin qadağan edilməsi, tezlik məhdudiyyətləri, «soyutma».
Policy Shielding: featuring əvvəl və sonra RG/AML siyasəti ilə hərəkət süzmək.
Dual optimizasiya: məhdudiyyətlər üçün Lagrange multiplier (məsələn, «aqressiv» offerlərin payı ≤ θ).
Etika və fair-use: proxy-ficks istisna, təsir audit.

Şildinq (psevdokod):

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) Məlumat və Servinq Arxitekturası

Oflayn kontur

Lakehouse: nümayiş/klik/dönüşüm, propensiti, cost.
Feature Store (offline): point-in-time ficks, düzgün etiketlər.
Təlim: offline RL (CQL/IQL) + simulyatorlar; IPS/DR validasiya.

Online/near-real-time

Fiçlər: sürətli pəncərələr (1-60 dəq), oyunçu/sessiya əlamətləri, limitlər və RG/AML maskaları.
Xidmət: gRPC/REST, p95 50-150 ms (personalizasiya), kanarya marşrutlaşdırma.
Qeydlər: saxlayın 'policy _ id', 'propensity', 'slate', 'guard _ mask', faktiki nəticə.

10) Metrika və təcrübə

Offline: DR/IPS qiymətləndirilməsi value, coverage dəstək, loger divergence.
Online: Net Revenue/LTV inklement, RG siqnalları (time-to-intervene), abuse-rate, CTR/CVR/retention.
Risk metrikası: CVaR, guardrails pozuntularının nisbəti, RG müdaxilə tezliyi.
Təcrübələr: A/B/n trafik kappinqi və «kill-switch», sequential-testing.

11) Cost mühəndisliyi və performans

Hərəkət mürəkkəbliyi: Slate/offer məkanını məhdudlaşdırın.
Cache fich/həllər: populyar hallar üçün qısa TTL.
Dekompozisiya: two-stage (candidate generation → re-rank).
Oflayn təlim: gündəlik/həftəlik retrain; online - yalnız asan adaptasiya (bandits).

12) Nümunələr (fraqmentlər)

Təhlükəsiz cərimə ilə PPO (eskiz):

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

Conservative Q-Learning (ideya):

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

RG maskalı kontekstli quldur:

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) Proseslər, rollar və RACI

R (Responsible): Data Science (RL modelləri/quldurlar), MLOps (platforma/loging/qiymətləndirmə), Data Eng (Fich/Simulyatorlar).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (RG/AML/PII), Legal (Offer şərtləri), Security (Security/KMS), SRE (SLO/dəyəri), Product.
I (Informed): Marketinq/CRM, Əməliyyatlar, Dəstək.

14) Tətbiqi yol xəritəsi

MVP (4-6 həftə):

1. RG/AML maskaları və propensiti loqosu ilə 1 offer seçmək üçün kontekst quldur.

2. IPS/DR, A/B (5-10% trafik), kill-switch ilə məhdudlaşdırılmış oflayn qiymətləndirmə.

3. Dashbord: value (DR), CTR/CVR, RG-metrika, guardrails pozuntuları.

Faza 2 (6-12 həftə):

Slate-bandit (N = 3-5 kart), mövqe düzəlişləri; two-stage candidate→re-rank.
Simulyator ilə Offline RL (IQL/CQL); müntəzəm retrain.
Constrained-RL: aqressivlik/tezlik limitləri, dual optimallaşdırma.

Faza 3 (12-20 həftə):

RG müdaxilə siyasəti (safe RL) ciddi caps və audit ilə.
CVaR məhdudiyyətləri ilə büdcə-paysinq və biddinq (hərraclar).
Bölgələrarası adaptasiya, inferens və offerlərin qiymətinə görə chargeback.

15) Satış öncəsi yoxlama siyahısı

Qeydlər 'policy _ id', 'propensity', maskalar/məhdudiyyətlər, nəticələr ehtiva edir.
DR/IPS qiymətləndirilməsi sabitdir; kifayət qədər məlumat dəstəyi (loger ilə overlap).
Guardrails: qadağan siyahıları, tezlik limitləri, cooldown, kill-switch.
RG/AML/Legal razılaşdırılmış qaydalar; audit daxildir (iş üçün WORM).
Kanarya Release və trafik limitləri; value/RG/abuse monitorinqi.
Mükafat və risklərin sənədləşdirilməsi; siyasət kartı (owner, versiyası, SLA).
Nəzarət altında qiymət: latency p95, cost/request, slayt ölçüsü, cache.

16) Anti-nümunələr

Təhlükəsizlik və oflayn qiymətləndirmə olmadan onlayn eksplor.
Sui-istifadə və RG → zəhərli siyasət istisna olmaqla «klik/bahis» mükafatı.
Propensitin və düzgün causal qiymətləndirmənin olmaması.
Çox böyük fəaliyyət sahəsi, maskalar/kappinq yoxdur.
Bölgələrin/yurisdiksiyaların rezidentlik və qaydalar olmadan qarışması.
Kill-switch və kanaryaların olmaması.

17) Yekun

RL iGaming platformasına RG/AML/Legal-a riayət edərkən uzunmüddətli dəyəri maksimuma çatdıran adaptiv siyasətlər verir. Təhlükəsiz tətbiqin açarı offline/mühafizəkar metodlar, düzgün causal qiymətləndirmə (IPS/DR), ciddi gözətçilər, şəffaf mükafat, MLOps intizamı və tədricən rolloutdur. Beləliklə, məsuliyyət və komplayens kompromisləri olmadan Net Revenue/LTV artımını əldə edəcəksiniz.

Gücləndirici təlim

Online/near-real-time

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq