Омӯзиши тақвият
1) Мақсад ва ҷои RL дар i-Gaming
RL сиёсати амалро бо мурури замон барои номуайянӣ ва фикру мулоҳизаҳо оптимизатсия мекунад:- Фардикунонии каталоги бозӣ (Slate-RL): интихоби маҷмӯи пешниҳодҳо барои экран/тела.
- Оптимизатсияи бонус/промо: андоза/намуд/вақт бо назардошти хатари сӯиистифода.
- Реаксияҳо дар RG/Нигоҳдорӣ: кай ва чӣ гуна мудохила кардан (огоҳиҳои мулоим/таваққуф/шиддат).
- Амалиётҳо: идоракунии маҳдудияти динамикӣ, афзалияти навбати дастгирӣ.
- Ҳаракати нақлиёт ва харид: тендерҳо дар музоядаҳо, пешпардохти буҷа.
Чаро на танҳо назорат карда мешавад: тағирёбандаи ҳадаф мукофоти дарозмуддат (LTV, некӯаҳволӣ, коҳиши хатар) мебошад, ки бояд оптималӣ ҷамъ карда шавад ва на танҳо пешгӯӣ карда шавад.
2) Матни асосӣ
Статус (s_t): профили бозингар, контексти сессия, маҳдудиятҳои бозор.
Амал (a_t): пешниҳод, интихоби бозиҳо (шифер), триггери RG, гарави довталабон.
Подош (r_t): ченаки омехта (даромад - ҷаримаҳои RG/AML - арзиши).
3) Оилаҳои усул
3. 1 Бандитҳо (бешаҳрвандӣ)
Бандити бисёрсоҳавӣ: (\epsilon) -greedy, UCB, Томпсон Намуна.
Бандитҳои контекстӣ: Хусусиятҳои бозингар/сессияро баррасӣ кунед.
Бандитҳои шифер/гурӯҳбандӣ: Интихоби маҷмӯаро пешниҳод кунед; таъсири мавқеъро танзим кунед.
3. 2 RL пурра
Сиёсати градиент/актёр-танқид: INFORCE, A2C/A3C, PPO - ба ҷойҳои калон тобовар аст.
Шабакаҳои Q-Learning/Deep Q: Амалҳои дискретӣ, Омӯзиши офлайнӣ бо буфери таҷриба.
Консервативӣ/оффлайн RL: CQL, BCQ, IQL - бидуни истисмори онлайн аз гузоришҳо ёд гиред.
3. 3 RL бехатар/маҳдуд
RL маҳдуд (CMDP): оптимизатсия дар доираи маҳдудиятҳои RG/AML/буҷа.
Хавф-хассос: CV a-R-RL, ҷаримабандӣ, Лагрангян методы.
4) Тарҳи ҷоиза (ташаккули мукофот)
Мукофот бояд арзиш ва хатарҳои зеринро инъикос кунад:- Даромад: Саҳм ба афзоиши афзояндаи даромади холис/LTV (на "сатҳи хом").
- Бозии масъулиятнок: ҷаримаҳо барои шакли хатар, аз ҳад зиёд, ҳавасмандкуниҳои хаста.
- Мувофиқат/AML: ҷаримаҳо барои амалҳое, ки эҳтимолияти фаъолияти хатарнокро зиёд мекунанд.
- Сифати таҷриба: дарозии CTR/CVR/сессия, аммо бо ҳадди аққал/вазн барои пешгирӣ кардани "аз ҳад зиёд гарм шудан".
python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost
5) Омӯзиш ва арзёбии офлайнӣ (калиди амният)
Тадқиқоти онлайн манъ аст/гарон § мо офлайн RL ва арзёбии зиддифактивиро истифода мебарем:- IPS/DR: Баҳодиҳии баръакс/боэътимод дар гузоришҳои тавсиядиҳӣ.
- Такрори/Симуляторҳо: тренажерҳо бо моделҳои посухи фармоишӣ/провайдерҳо.
- Танзими консервативӣ: Ҷазои баромадан барои дастгирии ин гузоришҳо (CQL/IQL).
- Сиёсати сабти ном: сабти эҳтимолияти таассурот (майл) -ро сабт кунед, то сметаи дуруст мавҷуд бошад.
python value_dr = np.mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a s)/μ(a s)
6) Бандитҳои контекстӣ: Оғози зуд
Равиш барои омӯзиши онлайни "мулоим" вақте ки пайдарпаӣ кӯтоҳ аст:- Интихоби Томпсон (логит): пас аз коэффисиентҳо → интихоби амал.
- UCB: барои буҷаҳои қатъӣ ва сарҳои қавӣ.
- Адолати регуляризатсия/RG: амалҳои ғайри қобили қабул ниқоб, басомади таассуротро маҳдуд мекунад.
python β ~ Posterior() # выбор из апостериорного распределения scores = X @ β # контекстные оценки actions = top_k(scores, k=slate_size, mask=policy_mask)
7) Slate-RL (тавсияҳои маҷмӯа)
Ҳадаф: ба ҳадди аксар расонидани мукофоти тамоми маҷмӯа (бо назардошти вазифаҳо, рақобати кортӣ).
Усулҳо: Listwise-bandits, slate-Q, градиенти сиёсат бо омилизатсия (Плэкетт-Люс).
Ислоҳи вазифа: майл ба мавқеъ; тасодуфӣ дар ҳудуди қобили қабул.
8) Бехатарӣ, RG/AML ва мувофиқат
RL танҳо дар "ҳолати муҳофизатшаванда" кор мекунад:- Маҳдудиятҳои сахт: манъи пешниҳодҳои заҳролуд, маҳдудиятҳои басомад, "хунуккунӣ".
- Shielding Policy: филтр кардани амал бо сиёсати RG/AML пеш аз ва баъд аз он.
- Оптимизатсияи дугона: Мултипликатори Лагранж барои маҳдудиятҳо (масалан, ҳиссаи "хашмгин" пешниҳод мекунад ≤ θ).
- Этика ва истифодаи одилона: истисно хусусиятҳои прокси, таъсир ба аудит.
python a = policy.sample(s)
if not passes_guardrails(a, s):
a = safe_fallback(s) # правило/минимальный оффер
9) Маълумот ва хидматрасонии меъморӣ
Ҳалқаи офлайн
Lakehouse: гузоришҳои таассурот/клик/табдили, майл, арзиш.
Дӯкони хусусият (офлайн): хусусиятҳои нуқтаи вақт, тамғакоғазҳои дуруст.
Омӯзиш: офлайн RL (CQL/IQL) + тренажерҳо; Тасдиқи IPS/DR
Онлайн/вақти воқеӣ
Feechee: Тирезаҳои зуд (1-60 дақиқа), аломатҳои плеер/сессия, маҳдудиятҳо ва ниқобҳои RG/AML.
Хизматрасонӣ: GRPC/REST, p95 50-150 мс (фардикунонӣ), масири канарӣ.
Сабтҳо: 'policy _ id', 'майл', 'шифер', 'Guard _ mask', натиҷаи воқеиро захира кунед.
10) Метрика ва таҷриба
Офлайн: арзиши арзёбии DR/IPS, дастгирии фарогирӣ, фарқият аз регистр.
Онлайн: афзоиш ба даромади холис/LTV, сигналҳои RG (вақт ба мудохила), сатҳи сӯиистифода, CTR/CVR/нигоҳдорӣ.
Андозагирии хатарҳо: CV 'a' R, таносуби вайронкунии посбонҳо, басомади мудохилаҳои RG.
Таҷрибаҳо: A/B/n бо пӯшидани трафик ва "куштан-гузариш", санҷиши пайдарпай.
11) Муҳандисии хароҷот ва нишондиҳандаҳо
Мураккабии амалҳо: мо андозаи шифер/фазои пешниҳодҳоро маҳдуд мекунем.
Кэши хусусиятҳо/қарорҳо: TTL-ҳои кӯтоҳ барои давлатҳои маъмул.
Декомпозитсия: думарҳилагӣ (насли номзадҳо → рутба).
Омӯзиши офлайнӣ аз рӯи ҷадвал: бозомӯзии ҳаррӯза/ҳафтаина; онлайн - танҳо мутобиқсозии осон (бандитҳо).
12) Намунаҳо (пораҳо)
PPO ҷазои бехатар (ангушти калон):python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy = -E[ clip_ratio(pi, old_pi) A ]
loss_value = mse(V(s), R)
loss_safety = λ relu(safety_metric - safety_cap)
loss_total = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)
Омӯзиши консервативии Q (идея):
python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])
Бандити контекстӣ бо ниқобҳои RG:
python scores = model(x) # предсказанные полезности scores[~allowed_mask] = -inf # запретные действия a = argmax(scores) if rand()>eps else random_allowed()
13) Равандҳо, нақшҳо ва RACI
R (Масъул): Илмҳои маълумот (моделҳои RL/бандитҳо), MLOps (платформа/воридшавӣ/арзёбӣ), Data Eng (хусусиятҳо/тренажерҳо).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (RG/AML/PII), Ҳуқуқӣ (шартҳои пешниҳодҳо), Амният (асрори/KMS), SRE (SLO/value), Маҳсулот.
Ман (Маълумот): Маркетинг/CRM, Амалиёт, Дастгирӣ.
14) Харитаи роҳсозӣ
MVP (4-6 ҳафта):1. Бандити контекстӣ барои интихоби 1 пешниҳод бо ниқобҳои RG/AML ва сабти майл.
2. Холҳои офлайнии IPS/DR, ки бо A/B маҳдуд аст (5-10% трафик), куштан-гузариш.
3. Панели панелҳо: арзиш (DR), CTR/CVR, ченакҳои RG, вайронкунии посбонҳо.
Марҳилаи 2 (6-12 ҳафта):- Бандити шифер (N = 3-5 корт), ислоҳи мавқеъ; номзади думарҳилавӣ → рутбаи такрорӣ.
- Offline RL (IQL/CQL) бо симулятор; бозомӯзии мунтазам.
- Маҳдудият-RL: маҳдудиятҳои хашмгинӣ/басомад, оптимизатсияи дугона.
- Сиёсати дахолати RG (RL бехатар) бо ҳадди аққал ва аудити қатъӣ.
- Пешпардохт ва тендер (музоядаҳо) бо маҳдудиятҳои CV brav.
- Мутобиқсозии байниминтақавӣ, баргардонидан аз ҳисоби хароҷот ва пешниҳодҳо.
15) Рӯйхати санҷиши пеш аз фурӯш
- Сабтҳо 'policy _ id', 'майл', ниқобҳо/маҳдудиятҳо, натиҷаҳоро дар бар мегиранд.
- холҳои DR/IPS устувор; дастгирии кофии маълумот (такрори регистр).
- Гвардияҳо: рӯйхати монеаҳо, маҳдудиятҳои басомад, cooldown, kill-switch.
- RG/AML/Legal оид ба қоидаҳо мувофиқа карда шудааст; аудит фаъол аст (барои парвандаҳо WORM).
- Озодкунии канарӣ ва маҳдудияти ҳаракат; арзиши мониторинг/RG/сӯиистифода.
- Ҳуҷҷатҳои мукофотӣ ва хавфҳо; корти сиёсатгузорӣ (соҳиб, версия, SLA).
- Арзиши таҳти назорат: таъхири p95, арзиш/дархост, андозаи слот, кэш.
16) Анти-намунаҳо
Таҳқиқи онлайн бидуни ҳифз ва арзёбии офлайнӣ.
Мукофоти клик/Бет, ба истиснои сӯиистифода ва сиёсати заҳролуд.
Набудани дурустӣ ва арзёбии дурусти сабабҳо аз рӯи гузоришҳо.
Фазои аз ҳад зиёди амал, ниқоб/пӯшиш нест.
Омезиши минтақаҳо/қаламравҳои бидуни истиқомат ва қоидаҳо.
Набудани гузариш ва канарейкаҳо.
17) Сатри поён
RL сиёсати мутобиқгардонии платформаи IGaming-ро медиҳад, ки арзиши дарозмуддатро ҳангоми риояи RG/AML/Legal ҳадди аксар мерасонанд. Калиди татбиқи бехатар усулҳои офлайнӣ/консервативӣ, арзёбии дурусти сабабҳо (IPS/DR), посбонҳои қатъӣ, мукофоти шаффоф, интизоми MLO ва тадриҷан иҷро кардани он мебошанд. Бо ин роҳ шумо афзоиши даромади холис/LTV-ро бидуни осеб ба масъулият ва риояи он ба даст меоред.