Ամրացման ուսուցում
1) Նշանակումը և RL տեղը iGaming-ում
RL-ն օպտիմիզացնում է ժամանակի գործողությունների քաղաքականությունը անորոշության և հետադարձ կապի տակ
Ռուսական խաղերի կերպարը (Slate-RL) 'էկրանի/փուշի առաջարկների հավաքածուի ընտրություն։
Բոնուսների օպտիմիզացումը/պրոմո 'չափսը/տիպ/թայմինգը, հաշվի առնելով աբյուզի ռիսկը։
Արձագանքները RG/Retention: Երբ և ինչպես միջամտել (փափուկ նոտացիա/դադար/էսկալացիա)։
Վիրահատությունները 'լիմիտների դինամիկ կառավարումը, սապորտի հերթերի գերակայությունը։
Պիտերբուրգը և գնումը 'աճուրդներում բիդդինգը, պենսինգի բյուջեն։
Ինչու ոչ միայն supervised: Նպատակային փոփոխությունը երկարաժամկետ պարգև է (LTV, wellbeing, ռիսկի նվազեցում), որը պետք է օպտիմալ կուտակել, այլ ոչ միայն կանխատեսել։
2) Ռուսական ձևակերպումը
Վիճակը (s _ t) 'խաղացողի պրոֆիլը, նստաշրջանի ենթատեքստը, շուկայի սահմանափակումները։
Գործողությունը (a _ t) 'օֆֆեր, խաղերի ընտրություն (slate), RG-ի թրգեր, բիդերի տոկոսադրույքը։
Մրցանակը (r _ t) 'խառը մետրիկա (եկամուտը RG/AML տուգանքները)։
3) Մեթոդների ընտանիքներ
3. 1 Ավազակներ (առանց վիճակի)
Համատեքստային ավազակները 'հաշվի են առնում խաղացողի/նստաշրջանի նշանները։
Multi-Armed Bandit: (\epsilon)-greedy, UCB, Thompson Sampling.
Slate/Ranking Bandits 'առաջարկների հավաքածուի ընտրություն; ուղղում ենք դիրքային էֆեկտները։
3. 2 Լիարժեք RL
Policy Gradient/Actor-Critic: REINFORCE, A2C/A3C, MSO-ն դիմացկուն են մեծ տարածություններին։
Q-Learning/Deep Q-Networks-ը 'դիսկրետ գործողություններ, օֆլեյն ուսուցում փորձի բուֆերի հետ։
Conservative/Window.RL: CQL, BCQ, IQL-ը սովորում են առանց առցանց էքսպլորացիայի։
3. 3 Անվտանգ/սահմանափակ RL
Constrained RL (CMDP) 'օպտիմիզացում RG/AML/2019 սահմանափակումների ժամանակ։
Risk-Sensitive: CVaR-RL, penalty shaping, Lagrangian методы.
4) Մրցանակների դիզայնը (reward shaping)
Մրցանակը պետք է արտացոլի արժեքներն ու ռիսկերը
Եկամուտը 'ներդրումը իրական Net Revenue/LTV (ոչ թե «հում տոկոսադրույքներ»)։
Պատասխանատու խաղը 'ռիսկի-փամփուշտների տուգանքներ, սահմանաչափերի ավելցուկ, դրդապատճառներ։
Complaens/AML 'տուգանքներ գործողությունների համար, որոնք բարձրացնում են անվտանգ ակտիվության հավանականությունը։
Փորձի որակը 'CTR/CVR/նստաշրջանի երկարությունը, բայց cap/weight-ից խուսափելու համար։
Խառը մրցանակի (կեղծ) օրինակ
python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost
5) Օֆլինի ուսուցումը և գնահատումը (անվտանգության բանալին)
Առցանց էքսպլորը արգելված/ճանապարհներ է օգտագործում www.RL և counterfact.ru evaluation։
IPS/DR: Interse Propronity Scoring/Doubly Robust-ը առաջարկողի լոգքերում։
Replay/Simulators: սիմուլյատորներ օգտագործողի/պրովայդերի մոդելներով։
Conservative Regularization: Տուգանք տվյալների աջակցության համար (CQL/IQL)։
Քաղաքական-լոգգերը 'ցույց տալու հավանականության տրամաբանությունը (propensity), որպեսզի ճիշտ գնահատական լինի։
DR գնահատումը (սխեման)
python value_dr = np.mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a s)/μ(a s)
6) Համատեքստային ավազակները 'արագ մեկնարկը
«Խնայող» առցանց ուսուցման մոտեցումը, երբ հաջորդականությունը կարճ է
Thompson Sampling (logit): poterior-ը գործակիցներով բացատրում է գործողության ընտրությունը։
UCB 'սահմանափակ միգրանտների և ուժեղ սարի համար։
Fairness/RG-ի կարգավորումը 'մենք քողարկում ենք անընդունելի գործողություններ, սահմանափակում ենք ցուցադրությունների հաճախությունը։
Prindocod TS
python β ~ Posterior() # выбор из апостериорного распределения scores = X @ β # контекстные оценки actions = top_k(scores, k=slate_size, mask=policy_mask)
7) Slate-RL (հավաքածուի առաջարկություններ)
Նպատակը 'առավելագույնի հասցնել մրցանակը ամբողջ հավաքածուի համար (դիրքեր, քարտերի մրցակցություն)։
Մեթոդներ ՝ Listwise-ավազակներ, slate-Q, policy gradient ֆակտորիզացիայի հետ (Plackett-Luce)։
Դիրքերի ուղղումը 'propronitity դիրքերում; ռանդոմիզացիա թույլատրելի սահմանների ներսում։
8) Անվտանգություն, RG/AML և ընկերակցություն
RL-ն սկսվում է միայն «guarded mode» -ում
Կոշտ կանոնները (hard constrainment) 'թունավոր օֆերի արգելք, հաճախականության սահմանափակումներ, «հովացում»։
Policy Shielding: Մենք ֆիլտրում ենք RG/AML քաղաքականությունը ինֆեսից առաջ և հետո։
Հիմար օպտիմիզացիան 'Lagrange multiplier սահմանափակումների համար (օրինակ, «ագրեսիվ» օֆերի մասնաբաժինը)։
Էթիկան և fox-use: Մենք բացառում ենք ֆիչին, ազդեցության աուդիտը։
Շիլդինգը (կեղծ)
python a = policy.sample(s)
if not passes_guardrails(a, s):
a = safe_fallback(s) # правило/минимальный оффер
9) Տվյալների և սերվինգի ճարտարապետությունը
Offline 2019
Lakehouse: Ցուցադրությունների/տեսահոլովակների/փոխարկումների, propensity, cost։
Feature Store (www.ru) 'point-in-time fici, ճիշտ պիտակներ։
Դասընթացը '108 RL (CQL/IQL) + սիմուլյատորներ; IPS/DR։
Առցանց/near-real-time
Ֆիչին 'արագ պատուհաններ (1-60 րոպե), խաղացողի/նստաշրջանի նշաններ, սահմաններ և RG/AML դիմակներ։
Serving: gRPC/REST, p95 50-150 ms (կերպարացում), կանարական ռոտինգը։
Logs: Մենք պահպանում ենք «policy _ id», «propensity», «slate», «guard _ cork», իրական արդյունքը։
10) Metriki և փորձարկում
Օֆլինը ՝ DR/IPS գնահատում է value, coverage աջակցություն, divergence լոգարանից։
Առցանց 'Net Revenue/LTV, RG ազդանշաններ (Time-to-intervene), abuse-rate, CTR/CVR/retention։
Ռիսկի մետրիկները ՝ CVaR, guardrails խախտումների մասը, RG միջամտությունների հաճախականությունը։
Փորձարկումներ ՝ A/B/n 'շարժիչի և «kill-switch», sequential-testing։
11) Cost-inginering և արտադրողականությունը
Գործողության բարդությունը 'սահմանափակենք սլայթի չափսը/օֆֆերի տարածքը։
Kash fich/լուծումներ 'կարճ TTL-ը հայտնի պայմանների համար։
Դեկոմոզիա: Two-stage (candidate generation dementre-rank)։
Fofline-ուսուցումը գրաֆիկում 'ամենօրյա/շաբաթական retrain; Առցանց միայն հեշտ հարմարեցում է (bandits)։
12) Օրինակներ (բեկորներ)
MSO անվտանգ տուգանքով (ուրվագիծ)
python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy = -E[ clip_ratio(pi, old_pi) A ]
loss_value = mse(V(s), R)
loss_safety = λ relu(safety_metric - safety_cap)
loss_total = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)
Conservative Q-Learning (գաղափարը)
python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])
Համատեքստային ավազակ RG դիմակների հետ
python scores = model(x) # предсказанные полезности scores[~allowed_mask] = -inf # запретные действия a = argmax(scores) if rand()>eps else random_allowed()
13) Գործընթացները, դերերը և RACI-ը
R (Responsible): Windows Science (RL/Bangits մոդելներ), MLOps (պլատֆորմ/լոգիստիա/գնահատում), Direct Eng (fichi/սիմուլյատորներ)։
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (RG/AML/PII), Legal (օֆֆերի պայմանները), Իսպանիան (գաղտնիքները/KMS), SDE (SLO/արժեքը), Dit։
I (Informed) 'Մարքեթինգը/CRM, Վիրահատություն, աջակցություն։
14) Ճանապարհային քարտեզը
MVP (4-6 շաբաթ)
1. Համատեքստային ավազակ ընտրելու համար 1 օֆեր RG/AML դիմակներով և լոգիստիկ propensiti-ով։
2. Offline-գնահատական IPS/DR, սահմանափակ A/B (5-10 տոկոսը), kill-switch։
3. Dashbords: value (DR), CTR/CVR, RG-metrics, guardrails խախտումներ։
Aleksanda 2 (6-12 շաբաթ)
Slate-բանդիտը (N = 3-5 քարտ), դիրքային պարամետրերը։ two-stage candidate→re-rank.
SystementRL (IQL/CQL) սիմուլյատորի հետ։ հիբրիդային retrain.
Constrained-RL 'լիմիտներ ագրեսիվության/հաճախության, հիմար օպտիմիզացիայի վրա։
Բրազիլիա 3 (12-20 շաբաթ)
RG միջամտությունների (safe RL) քաղաքական գործիչները ստրոգիմների և աուդիտի հետ։
Պեյսինգի և բիդդինգի (աճուրդներ) CVaR սահմանափակումներով։
Միջտարածաշրջանային հարմարեցումը, chargeback-ը ինֆիսի և օֆերի արժեքով։
15) Չեկ թուղթ մինչև վաճառելը
- Լոգները պարունակում են «policy _ id», «propensity», դիմակներ/սահմանափակումներ, արդյունքներ։
- DR/IPS գնահատումը կայուն է; տվյալների աջակցությունը բավարար է (overlap հետ)։
- Guardrails: Արգելքների ցուցակներ, հաճախականության լիմիտներ, cooldown, kill-switch։
- RG/AML/Legal-ը համաձայնեցին կանոնները. աուդիտը ներառված է (WORM)։
- Կանարյան թողարկումը և լիմիտները. Walue/RG/abuse.
- Մրցանակներ և ռիսկեր. քաղաքականության քարտը (owner, տարբերակը, SLA)։
- Վերահսկման արժեքը ՝ latency p95, cost/request, չափսը, քեշը։
16) Anti-patterna
Առցանց էքսպլորը առանց պաշտպանության և օֆլինի գնահատականների։
«Տեսահոլովակներ/տոկոսադրույքներ» մրցանակը, բացառությամբ աբյուզից և RG-ից, բացատրում է թունավոր քաղաքականությունը։
Propensity-ի և ճիշտ causal-գնահատականների բացակայությունը։
Չափազանց մեծ տարածք, չկա դիմակ/գլխարկ։
Տարածաշրջանների/միգրացիաների խառնուրդը առանց բնակության և կանոնների։
Kill-switch-ի և Կանարեկների բացակայությունը։
17) Արդյունքը
RL-ն տալիս է iGaming պլատֆորմը հարմարվողական քաղաքականություններ, որոնք ավելացնում են երկարաժամկետ արժեքը RG/AML/Legal-ի պահպանման ժամանակ։ Անվտանգ ինտեգրման բանալին 105 մգ/պահպանողական մեթոդներ են, ճիշտ causal գնահատական (IPS/DR), խիստ guardrails, թափանցիկ պարգև, MLOps-ի կարգապահություն և աստիճանական rollout։ Այսպիսով, դուք կստանաք Net Revenue/LTV-ի աճը առանց պատասխանատվության փոխզիջումների և կոմպլենսների։