Омӯзиши тақвият

1) Мақсад ва ҷои RL дар i-Gaming

RL сиёсати амалро бо мурури замон барои номуайянӣ ва фикру мулоҳизаҳо оптимизатсия мекунад:

Фардикунонии каталоги бозӣ (Slate-RL): интихоби маҷмӯи пешниҳодҳо барои экран/тела.
Оптимизатсияи бонус/промо: андоза/намуд/вақт бо назардошти хатари сӯиистифода.
Реаксияҳо дар RG/Нигоҳдорӣ: кай ва чӣ гуна мудохила кардан (огоҳиҳои мулоим/таваққуф/шиддат).
Амалиётҳо: идоракунии маҳдудияти динамикӣ, афзалияти навбати дастгирӣ.
Ҳаракати нақлиёт ва харид: тендерҳо дар музоядаҳо, пешпардохти буҷа.

Чаро на танҳо назорат карда мешавад: тағирёбандаи ҳадаф мукофоти дарозмуддат (LTV, некӯаҳволӣ, коҳиши хатар) мебошад, ки бояд оптималӣ ҷамъ карда шавад ва на танҳо пешгӯӣ карда шавад.

2) Матни асосӣ

Статус (s_t): профили бозингар, контексти сессия, маҳдудиятҳои бозор.
Амал (a_t): пешниҳод, интихоби бозиҳо (шифер), триггери RG, гарави довталабон.
Подош (r_t): ченаки омехта (даромад - ҷаримаҳои RG/AML - арзиши).

Сиёсат (\pi (a)	s)): тақсими амалҳо.
Ҳадаф: ба ҳадди аксар расонидани мукофоти умумии пешбинишуда (\mathbb {E} _\pi [\sum\gamma = t r_t]) дар доираи маҳдудиятҳои шадид (бехатарӣ/мутобиқат).

3) Оилаҳои усул

3. 1 Бандитҳо (бешаҳрвандӣ)

Бандити бисёрсоҳавӣ: (\epsilon) -greedy, UCB, Томпсон Намуна.
Бандитҳои контекстӣ: Хусусиятҳои бозингар/сессияро баррасӣ кунед.
Бандитҳои шифер/гурӯҳбандӣ: Интихоби маҷмӯаро пешниҳод кунед; таъсири мавқеъро танзим кунед.

3. 2 RL пурра

Сиёсати градиент/актёр-танқид: INFORCE, A2C/A3C, PPO - ба ҷойҳои калон тобовар аст.
Шабакаҳои Q-Learning/Deep Q: Амалҳои дискретӣ, Омӯзиши офлайнӣ бо буфери таҷриба.
Консервативӣ/оффлайн RL: CQL, BCQ, IQL - бидуни истисмори онлайн аз гузоришҳо ёд гиред.

3. 3 RL бехатар/маҳдуд

RL маҳдуд (CMDP): оптимизатсия дар доираи маҳдудиятҳои RG/AML/буҷа.
Хавф-хассос: CV ‌ a-R-RL, ҷаримабандӣ, Лагрангян методы.

4) Тарҳи ҷоиза (ташаккули мукофот)

Мукофот бояд арзиш ва хатарҳои зеринро инъикос кунад:

Даромад: Саҳм ба афзоиши афзояндаи даромади холис/LTV (на "сатҳи хом").
Бозии масъулиятнок: ҷаримаҳо барои шакли хатар, аз ҳад зиёд, ҳавасмандкуниҳои хаста.
Мувофиқат/AML: ҷаримаҳо барои амалҳое, ки эҳтимолияти фаъолияти хатарнокро зиёд мекунанд.
Сифати таҷриба: дарозии CTR/CVR/сессия, аммо бо ҳадди аққал/вазн барои пешгирӣ кардани "аз ҳад зиёд гарм шудан".

Намунаи мукофоти омехта (псевдокод):

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) Омӯзиш ва арзёбии офлайнӣ (калиди амният)

Тадқиқоти онлайн манъ аст/гарон § мо офлайн RL ва арзёбии зиддифактивиро истифода мебарем:

IPS/DR: Баҳодиҳии баръакс/боэътимод дар гузоришҳои тавсиядиҳӣ.
Такрори/Симуляторҳо: тренажерҳо бо моделҳои посухи фармоишӣ/провайдерҳо.
Танзими консервативӣ: Ҷазои баромадан барои дастгирии ин гузоришҳо (CQL/IQL).
Сиёсати сабти ном: сабти эҳтимолияти таассурот (майл) -ро сабт кунед, то сметаи дуруст мавҷуд бошад.

Арзёбии DR (схема):

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) Бандитҳои контекстӣ: Оғози зуд

Равиш барои омӯзиши онлайни "мулоим" вақте ки пайдарпаӣ кӯтоҳ аст:

Интихоби Томпсон (логит): пас аз коэффисиентҳо → интихоби амал.
UCB: барои буҷаҳои қатъӣ ва сарҳои қавӣ.
Адолати регуляризатсия/RG: амалҳои ғайри қобили қабул ниқоб, басомади таассуротро маҳдуд мекунад.

Рамзи псевдо TS:

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) Slate-RL (тавсияҳои маҷмӯа)

Ҳадаф: ба ҳадди аксар расонидани мукофоти тамоми маҷмӯа (бо назардошти вазифаҳо, рақобати кортӣ).
Усулҳо: Listwise-bandits, slate-Q, градиенти сиёсат бо омилизатсия (Плэкетт-Люс).
Ислоҳи вазифа: майл ба мавқеъ; тасодуфӣ дар ҳудуди қобили қабул.

8) Бехатарӣ, RG/AML ва мувофиқат

RL танҳо дар "ҳолати муҳофизатшаванда" кор мекунад:

Маҳдудиятҳои сахт: манъи пешниҳодҳои заҳролуд, маҳдудиятҳои басомад, "хунуккунӣ".
Shielding Policy: филтр кардани амал бо сиёсати RG/AML пеш аз ва баъд аз он.
Оптимизатсияи дугона: Мултипликатори Лагранж барои маҳдудиятҳо (масалан, ҳиссаи "хашмгин" пешниҳод мекунад ≤ θ).
Этика ва истифодаи одилона: истисно хусусиятҳои прокси, таъсир ба аудит.

Шиллинг (псевдокод):

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) Маълумот ва хидматрасонии меъморӣ

Ҳалқаи офлайн

Lakehouse: гузоришҳои таассурот/клик/табдили, майл, арзиш.
Дӯкони хусусият (офлайн): хусусиятҳои нуқтаи вақт, тамғакоғазҳои дуруст.

Омӯзиш: офлайн RL (CQL/IQL) + тренажерҳо; Тасдиқи IPS/DR

Онлайн/вақти воқеӣ

Feechee: Тирезаҳои зуд (1-60 дақиқа), аломатҳои плеер/сессия, маҳдудиятҳо ва ниқобҳои RG/AML.
Хизматрасонӣ: GRPC/REST, p95 50-150 мс (фардикунонӣ), масири канарӣ.
Сабтҳо: 'policy _ id', 'майл', 'шифер', 'Guard _ mask', натиҷаи воқеиро захира кунед.

10) Метрика ва таҷриба

Офлайн: арзиши арзёбии DR/IPS, дастгирии фарогирӣ, фарқият аз регистр.
Онлайн: афзоиш ба даромади холис/LTV, сигналҳои RG (вақт ба мудохила), сатҳи сӯиистифода, CTR/CVR/нигоҳдорӣ.
Андозагирии хатарҳо: CV 'a' R, таносуби вайронкунии посбонҳо, басомади мудохилаҳои RG.
Таҷрибаҳо: A/B/n бо пӯшидани трафик ва "куштан-гузариш", санҷиши пайдарпай.

11) Муҳандисии хароҷот ва нишондиҳандаҳо

Мураккабии амалҳо: мо андозаи шифер/фазои пешниҳодҳоро маҳдуд мекунем.
Кэши хусусиятҳо/қарорҳо: TTL-ҳои кӯтоҳ барои давлатҳои маъмул.
Декомпозитсия: думарҳилагӣ (насли номзадҳо → рутба).
Омӯзиши офлайнӣ аз рӯи ҷадвал: бозомӯзии ҳаррӯза/ҳафтаина; онлайн - танҳо мутобиқсозии осон (бандитҳо).

12) Намунаҳо (пораҳо)

PPO ҷазои бехатар (ангушти калон):

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

Омӯзиши консервативии Q (идея):

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

Бандити контекстӣ бо ниқобҳои RG:

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) Равандҳо, нақшҳо ва RACI

R (Масъул): Илмҳои маълумот (моделҳои RL/бандитҳо), MLOps (платформа/воридшавӣ/арзёбӣ), Data Eng (хусусиятҳо/тренажерҳо).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (RG/AML/PII), Ҳуқуқӣ (шартҳои пешниҳодҳо), Амният (асрори/KMS), SRE (SLO/value), Маҳсулот.
Ман (Маълумот): Маркетинг/CRM, Амалиёт, Дастгирӣ.

14) Харитаи роҳсозӣ

MVP (4-6 ҳафта):

1. Бандити контекстӣ барои интихоби 1 пешниҳод бо ниқобҳои RG/AML ва сабти майл.

2. Холҳои офлайнии IPS/DR, ки бо A/B маҳдуд аст (5-10% трафик), куштан-гузариш.

3. Панели панелҳо: арзиш (DR), CTR/CVR, ченакҳои RG, вайронкунии посбонҳо.

Марҳилаи 2 (6-12 ҳафта):

Бандити шифер (N = 3-5 корт), ислоҳи мавқеъ; номзади думарҳилавӣ → рутбаи такрорӣ.
Offline RL (IQL/CQL) бо симулятор; бозомӯзии мунтазам.
Маҳдудият-RL: маҳдудиятҳои хашмгинӣ/басомад, оптимизатсияи дугона.

Марҳилаи 3 (12-20 ҳафта):

Сиёсати дахолати RG (RL бехатар) бо ҳадди аққал ва аудити қатъӣ.
Пешпардохт ва тендер (музоядаҳо) бо маҳдудиятҳои CV brav.
Мутобиқсозии байниминтақавӣ, баргардонидан аз ҳисоби хароҷот ва пешниҳодҳо.

15) Рӯйхати санҷиши пеш аз фурӯш

Сабтҳо 'policy _ id', 'майл', ниқобҳо/маҳдудиятҳо, натиҷаҳоро дар бар мегиранд.
холҳои DR/IPS устувор; дастгирии кофии маълумот (такрори регистр).
Гвардияҳо: рӯйхати монеаҳо, маҳдудиятҳои басомад, cooldown, kill-switch.
RG/AML/Legal оид ба қоидаҳо мувофиқа карда шудааст; аудит фаъол аст (барои парвандаҳо WORM).
Озодкунии канарӣ ва маҳдудияти ҳаракат; арзиши мониторинг/RG/сӯиистифода.
Ҳуҷҷатҳои мукофотӣ ва хавфҳо; корти сиёсатгузорӣ (соҳиб, версия, SLA).
Арзиши таҳти назорат: таъхири p95, арзиш/дархост, андозаи слот, кэш.

16) Анти-намунаҳо

Таҳқиқи онлайн бидуни ҳифз ва арзёбии офлайнӣ.
Мукофоти клик/Бет, ба истиснои сӯиистифода ва сиёсати заҳролуд.
Набудани дурустӣ ва арзёбии дурусти сабабҳо аз рӯи гузоришҳо.
Фазои аз ҳад зиёди амал, ниқоб/пӯшиш нест.
Омезиши минтақаҳо/қаламравҳои бидуни истиқомат ва қоидаҳо.
Набудани гузариш ва канарейкаҳо.

17) Сатри поён

RL сиёсати мутобиқгардонии платформаи IGaming-ро медиҳад, ки арзиши дарозмуддатро ҳангоми риояи RG/AML/Legal ҳадди аксар мерасонанд. Калиди татбиқи бехатар усулҳои офлайнӣ/консервативӣ, арзёбии дурусти сабабҳо (IPS/DR), посбонҳои қатъӣ, мукофоти шаффоф, интизоми MLO ва тадриҷан иҷро кардани он мебошанд. Бо ин роҳ шумо афзоиши даромади холис/LTV-ро бидуни осеб ба масъулият ва риояи он ба даст меоред.

Омӯзиши тақвият

Онлайн/вақти воқеӣ

Тамос гиред

Алоқаи зуд

Видео ба зудӣ нав карда мешавад

Мо ҳоло хеле машғули лоиҳаҳо ҳастем