Gücləndirici təlim
1) Təyinatı və iGaming RL yeri
RL qeyri-müəyyənlik və rəy üçün zaman hərəkətləri siyasətini optimallaşdırır:- Oyun kataloqunun (Slate-RL) personallaşdırılması: ekran/top üçün təkliflər dəstinin seçilməsi.
- Bonuslar/promo optimallaşdırılması: ölçüsü/növü/sui-qəsd riski nəzərə alınmaqla vaxt.
- RG/Retention-da reaksiyalar: nə vaxt və necə müdaxilə etmək (yumşaq notifikasiya/fasilə/eskalasiya).
- Əməliyyatlar: limitlərin dinamik idarə edilməsi, sapport növbələrinin prioritetləşdirilməsi.
- Trafik və alış: hərraclarda biddinq, büdcə paysinqi.
Niyə yalnız supervised deyil: hədəf dəyişən - yalnız proqnozlaşdırmaq deyil, optimal şəkildə yığılması lazım olan uzunmüddətli mükafatdır (LTV, wellbeing, risk azaldılması).
2) Əsas ifadə
Status (s_t): oyunçu profili, sessiya konteksti, bazar məhdudiyyətləri.
Fəaliyyət (a_t): offer, oyun seçimi (slate), RG tetikçisi, bidder dərəcəsi.
Mükafat (r_t): qarışıq metrika (gəlir - RG/AML cərimələri - dəyəri).
3) Metodlar ailəsi
3. 1 Quldurlar (halsız)
Multi-Armed Bandit: (\epsilon)-greedy, UCB, Thompson Sampling.
Kontekst quldurlar: oyunçu/sessiya əlamətlərini nəzərə alın.
Slate/Ranking Bandits: təklif dəsti seçimi; mövqe effektlərini düzəldir.
3. 2 Tam RL
Policy Gradient/Actor-Critic: REINFORCE, A2C/A3C, PPO - geniş məkanlara davamlı.
Q-Learning/Deep Q-Networks: diskret hərəkətlər, təcrübə tamponu ilə oflayn təlim.
Conservative/Offline RL: CQL, BCQ, IQL - onlayn eksplorasiya olmadan log vasitəsilə öyrənmək.
3. 3 Təhlükəsiz/məhdud RL
Constrained RL (CMDP): RG/AML/büdcə məhdudiyyətlərində optimallaşdırma.
Risk-Sensitive: CVaR-RL, penalty shaping, Lagrangian методы.
4) Mükafat dizaynı (reward shaping)
Mükafat dəyər və riskləri əks etdirməlidir:- Gəlir: Artımlı Net Revenue/LTV («xam dərəcələr» deyil).
- Məsuliyyətli oyun: risk nümunələrinə görə cərimələr, limitləri aşmaq, stimulları yormaq.
- Komplayens/AML: təhlükəli fəaliyyət ehtimalını artıran hərəkətlərə görə cərimələr.
- Təcrübə keyfiyyəti: CTR/CVR/seans uzunluğu, lakin «həddindən artıq istiləşmə» qarşısını almaq üçün cap/weight ilə.
python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost
5) Offline təlim və qiymətləndirmə (təhlükəsizlik açarı)
Online eksplor qadağan/yollar → offline RL və counterfactual evaluation istifadə:- IPS/DR: Inverse Propensity Scoring/Doubly Robust.
- Replay/Simulators: xüsusi/provayder cavab modelləri ilə simulyatorlar.
- Conservative Regularization: Bu log dəstəyi (CQL/IQL) üçün cərimə.
- Loqger Siyasəti: Düzgün qiymətləndirmə üçün göstəriş ehtimallarını (propensity) qiymətləndiririk.
python value_dr = np.mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a s)/μ(a s)
6) Kontekstli quldurlar: sürətli başlanğıc
Ardıcıllıq qısa olduqda «yumşaq» onlayn təlim üçün yanaşma:- Thompson Sampling (logit): posterior əmsalları → hərəkət seçimi.
- UCB: məhdud büdcələr və güclü sərlər üçün.
- Fairness/RG nizamlanması: yolverilməz hərəkətləri maskalamaq, nümayiş tezliyini məhdudlaşdırmaq.
python β ~ Posterior() # выбор из апостериорного распределения scores = X @ β # контекстные оценки actions = top_k(scores, k=slate_size, mask=policy_mask)
7) Slate-RL (set tövsiyələr)
Məqsəd: bütün dəstin mükafatını maksimuma çatdırmaq (mövqelərin uçotu, kartların rəqabəti).
Metodlar: Listwise-quldurlar, slate-Q, faktorizasiya ilə policy gradient (Plackett-Luce).
Mövqelərin korreksiyası: mövqelər üzrə propensity; icazə verilən sərhədlər daxilində randomizasiya.
8) Təhlükəsizlik, RG/AML və uyğunluq
RL yalnız "guarded mode 'da başlayır:- Sərt qaydalar (hard constraints): zəhərli offerlərin qadağan edilməsi, tezlik məhdudiyyətləri, «soyutma».
- Policy Shielding: featuring əvvəl və sonra RG/AML siyasəti ilə hərəkət süzmək.
- Dual optimizasiya: məhdudiyyətlər üçün Lagrange multiplier (məsələn, «aqressiv» offerlərin payı ≤ θ).
- Etika və fair-use: proxy-ficks istisna, təsir audit.
python a = policy.sample(s)
if not passes_guardrails(a, s):
a = safe_fallback(s) # правило/минимальный оффер
9) Məlumat və Servinq Arxitekturası
Oflayn kontur
Lakehouse: nümayiş/klik/dönüşüm, propensiti, cost.
Feature Store (offline): point-in-time ficks, düzgün etiketlər.
Təlim: offline RL (CQL/IQL) + simulyatorlar; IPS/DR validasiya.
Online/near-real-time
Fiçlər: sürətli pəncərələr (1-60 dəq), oyunçu/sessiya əlamətləri, limitlər və RG/AML maskaları.
Xidmət: gRPC/REST, p95 50-150 ms (personalizasiya), kanarya marşrutlaşdırma.
Qeydlər: saxlayın 'policy _ id', 'propensity', 'slate', 'guard _ mask', faktiki nəticə.
10) Metrika və təcrübə
Offline: DR/IPS qiymətləndirilməsi value, coverage dəstək, loger divergence.
Online: Net Revenue/LTV inklement, RG siqnalları (time-to-intervene), abuse-rate, CTR/CVR/retention.
Risk metrikası: CVaR, guardrails pozuntularının nisbəti, RG müdaxilə tezliyi.
Təcrübələr: A/B/n trafik kappinqi və «kill-switch», sequential-testing.
11) Cost mühəndisliyi və performans
Hərəkət mürəkkəbliyi: Slate/offer məkanını məhdudlaşdırın.
Cache fich/həllər: populyar hallar üçün qısa TTL.
Dekompozisiya: two-stage (candidate generation → re-rank).
Oflayn təlim: gündəlik/həftəlik retrain; online - yalnız asan adaptasiya (bandits).
12) Nümunələr (fraqmentlər)
Təhlükəsiz cərimə ilə PPO (eskiz):python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy = -E[ clip_ratio(pi, old_pi) A ]
loss_value = mse(V(s), R)
loss_safety = λ relu(safety_metric - safety_cap)
loss_total = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)
Conservative Q-Learning (ideya):
python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])
RG maskalı kontekstli quldur:
python scores = model(x) # предсказанные полезности scores[~allowed_mask] = -inf # запретные действия a = argmax(scores) if rand()>eps else random_allowed()
13) Proseslər, rollar və RACI
R (Responsible): Data Science (RL modelləri/quldurlar), MLOps (platforma/loging/qiymətləndirmə), Data Eng (Fich/Simulyatorlar).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (RG/AML/PII), Legal (Offer şərtləri), Security (Security/KMS), SRE (SLO/dəyəri), Product.
I (Informed): Marketinq/CRM, Əməliyyatlar, Dəstək.
14) Tətbiqi yol xəritəsi
MVP (4-6 həftə):1. RG/AML maskaları və propensiti loqosu ilə 1 offer seçmək üçün kontekst quldur.
2. IPS/DR, A/B (5-10% trafik), kill-switch ilə məhdudlaşdırılmış oflayn qiymətləndirmə.
3. Dashbord: value (DR), CTR/CVR, RG-metrika, guardrails pozuntuları.
Faza 2 (6-12 həftə):- Slate-bandit (N = 3-5 kart), mövqe düzəlişləri; two-stage candidate→re-rank.
- Simulyator ilə Offline RL (IQL/CQL); müntəzəm retrain.
- Constrained-RL: aqressivlik/tezlik limitləri, dual optimallaşdırma.
- RG müdaxilə siyasəti (safe RL) ciddi caps və audit ilə.
- CVaR məhdudiyyətləri ilə büdcə-paysinq və biddinq (hərraclar).
- Bölgələrarası adaptasiya, inferens və offerlərin qiymətinə görə chargeback.
15) Satış öncəsi yoxlama siyahısı
- Qeydlər 'policy _ id', 'propensity', maskalar/məhdudiyyətlər, nəticələr ehtiva edir.
- DR/IPS qiymətləndirilməsi sabitdir; kifayət qədər məlumat dəstəyi (loger ilə overlap).
- Guardrails: qadağan siyahıları, tezlik limitləri, cooldown, kill-switch.
- RG/AML/Legal razılaşdırılmış qaydalar; audit daxildir (iş üçün WORM).
- Kanarya Release və trafik limitləri; value/RG/abuse monitorinqi.
- Mükafat və risklərin sənədləşdirilməsi; siyasət kartı (owner, versiyası, SLA).
- Nəzarət altında qiymət: latency p95, cost/request, slayt ölçüsü, cache.
16) Anti-nümunələr
Təhlükəsizlik və oflayn qiymətləndirmə olmadan onlayn eksplor.
Sui-istifadə və RG → zəhərli siyasət istisna olmaqla «klik/bahis» mükafatı.
Propensitin və düzgün causal qiymətləndirmənin olmaması.
Çox böyük fəaliyyət sahəsi, maskalar/kappinq yoxdur.
Bölgələrin/yurisdiksiyaların rezidentlik və qaydalar olmadan qarışması.
Kill-switch və kanaryaların olmaması.
17) Yekun
RL iGaming platformasına RG/AML/Legal-a riayət edərkən uzunmüddətli dəyəri maksimuma çatdıran adaptiv siyasətlər verir. Təhlükəsiz tətbiqin açarı offline/mühafizəkar metodlar, düzgün causal qiymətləndirmə (IPS/DR), ciddi gözətçilər, şəffaf mükafat, MLOps intizamı və tədricən rolloutdur. Beləliklə, məsuliyyət və komplayens kompromisləri olmadan Net Revenue/LTV artımını əldə edəcəksiniz.