Ամրացման ուսուցում

1) Նշանակումը և RL տեղը iGaming-ում

RL-ն օպտիմիզացնում է ժամանակի գործողությունների քաղաքականությունը անորոշության և հետադարձ կապի տակ

Ռուսական խաղերի կերպարը (Slate-RL) 'էկրանի/փուշի առաջարկների հավաքածուի ընտրություն։

Բոնուսների օպտիմիզացումը/պրոմո 'չափսը/տիպ/թայմինգը, հաշվի առնելով աբյուզի ռիսկը։

Արձագանքները RG/Retention: Երբ և ինչպես միջամտել (փափուկ նոտացիա/դադար/էսկալացիա)։

Վիրահատությունները 'լիմիտների դինամիկ կառավարումը, սապորտի հերթերի գերակայությունը։

Պիտերբուրգը և գնումը 'աճուրդներում բիդդինգը, պենսինգի բյուջեն։

Ինչու ոչ միայն supervised: Նպատակային փոփոխությունը երկարաժամկետ պարգև է (LTV, wellbeing, ռիսկի նվազեցում), որը պետք է օպտիմալ կուտակել, այլ ոչ միայն կանխատեսել։

2) Ռուսական ձևակերպումը

Վիճակը (s _ t) 'խաղացողի պրոֆիլը, նստաշրջանի ենթատեքստը, շուկայի սահմանափակումները։

Գործողությունը (a _ t) 'օֆֆեր, խաղերի ընտրություն (slate), RG-ի թրգեր, բիդերի տոկոսադրույքը։

Մրցանակը (r _ t) 'խառը մետրիկա (եկամուտը RG/AML տուգանքները)։

Քաղաքականությունը (108 pi (a	s) գործողությունների բաշխումը։
Նպատակը 'առավելագույնի հասցնել ակնկալվող ընդհանուր պարգևը (safety/com _ pi (sum magamma ^ r _ t) կոշտ սահմանափակումներով (safety/complaens)։

3) Մեթոդների ընտանիքներ

3. 1 Ավազակներ (առանց վիճակի)

Multi-Armed Bandit: (\epsilon)-greedy, UCB, Thompson Sampling.

Համատեքստային ավազակները 'հաշվի են առնում խաղացողի/նստաշրջանի նշանները։

Slate/Ranking Bandits 'առաջարկների հավաքածուի ընտրություն; ուղղում ենք դիրքային էֆեկտները։

3. 2 Լիարժեք RL

Policy Gradient/Actor-Critic: REINFORCE, A2C/A3C, MSO-ն դիմացկուն են մեծ տարածություններին։

Q-Learning/Deep Q-Networks-ը 'դիսկրետ գործողություններ, օֆլեյն ուսուցում փորձի բուֆերի հետ։

Conservative/Window.RL: CQL, BCQ, IQL-ը սովորում են առանց առցանց էքսպլորացիայի։

3. 3 Անվտանգ/սահմանափակ RL

Constrained RL (CMDP) 'օպտիմիզացում RG/AML/2019 սահմանափակումների ժամանակ։

Risk-Sensitive: CVaR-RL, penalty shaping, Lagrangian методы.

4) Մրցանակների դիզայնը (reward shaping)

Մրցանակը պետք է արտացոլի արժեքներն ու ռիսկերը

Եկամուտը 'ներդրումը իրական Net Revenue/LTV (ոչ թե «հում տոկոսադրույքներ»)։

Պատասխանատու խաղը 'ռիսկի-փամփուշտների տուգանքներ, սահմանաչափերի ավելցուկ, դրդապատճառներ։

Complaens/AML 'տուգանքներ գործողությունների համար, որոնք բարձրացնում են անվտանգ ակտիվության հավանականությունը։

Փորձի որակը 'CTR/CVR/նստաշրջանի երկարությունը, բայց cap/weight-ից խուսափելու համար։

Խառը մրցանակի (կեղծ) օրինակ

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) Օֆլինի ուսուցումը և գնահատումը (անվտանգության բանալին)

Առցանց էքսպլորը արգելված/ճանապարհներ է օգտագործում www.RL և counterfact.ru evaluation։

IPS/DR: Interse Propronity Scoring/Doubly Robust-ը առաջարկողի լոգքերում։

Replay/Simulators: սիմուլյատորներ օգտագործողի/պրովայդերի մոդելներով։

Conservative Regularization: Տուգանք տվյալների աջակցության համար (CQL/IQL)։

Քաղաքական-լոգգերը 'ցույց տալու հավանականության տրամաբանությունը (propensity), որպեսզի ճիշտ գնահատական լինի։

DR գնահատումը (սխեման)

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) Համատեքստային ավազակները 'արագ մեկնարկը

«Խնայող» առցանց ուսուցման մոտեցումը, երբ հաջորդականությունը կարճ է

Thompson Sampling (logit): poterior-ը գործակիցներով բացատրում է գործողության ընտրությունը։

UCB 'սահմանափակ միգրանտների և ուժեղ սարի համար։

Fairness/RG-ի կարգավորումը 'մենք քողարկում ենք անընդունելի գործողություններ, սահմանափակում ենք ցուցադրությունների հաճախությունը։

Prindocod TS

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) Slate-RL (հավաքածուի առաջարկություններ)

Նպատակը 'առավելագույնի հասցնել մրցանակը ամբողջ հավաքածուի համար (դիրքեր, քարտերի մրցակցություն)։

Մեթոդներ ՝ Listwise-ավազակներ, slate-Q, policy gradient ֆակտորիզացիայի հետ (Plackett-Luce)։

Դիրքերի ուղղումը 'propronitity դիրքերում; ռանդոմիզացիա թույլատրելի սահմանների ներսում։

8) Անվտանգություն, RG/AML և ընկերակցություն

RL-ն սկսվում է միայն «guarded mode» -ում

Կոշտ կանոնները (hard constrainment) 'թունավոր օֆերի արգելք, հաճախականության սահմանափակումներ, «հովացում»։

Policy Shielding: Մենք ֆիլտրում ենք RG/AML քաղաքականությունը ինֆեսից առաջ և հետո։

Հիմար օպտիմիզացիան 'Lagrange multiplier սահմանափակումների համար (օրինակ, «ագրեսիվ» օֆերի մասնաբաժինը)։

Էթիկան և fox-use: Մենք բացառում ենք ֆիչին, ազդեցության աուդիտը։

Շիլդինգը (կեղծ)

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) Տվյալների և սերվինգի ճարտարապետությունը

Offline 2019

Lakehouse: Ցուցադրությունների/տեսահոլովակների/փոխարկումների, propensity, cost։

Feature Store (www.ru) 'point-in-time fici, ճիշտ պիտակներ։

Դասընթացը '108 RL (CQL/IQL) + սիմուլյատորներ; IPS/DR։

Առցանց/near-real Time

Ֆիչին 'արագ պատուհաններ (1-60 րոպե), խաղացողի/նստաշրջանի նշաններ, սահմաններ և RG/AML դիմակներ։

Serving: gRPC/REST, p95 50-150 ms (կերպարացում), կանարական ռոտինգը։

Logs: Մենք պահպանում ենք «policy _ id», «propensity», «slate», «guard _ cork», իրական արդյունքը։

10) Metriki և փորձարկում

Օֆլինը ՝ DR/IPS գնահատում է value, coverage աջակցություն, divergence լոգարանից։

Առցանց 'Net Revenue/LTV, RG ազդանշաններ (Time-to-intervene), abuse-rate, CTR/CVR/retention։

Ռիսկի մետրիկները ՝ CVaR, guardrails խախտումների մասը, RG միջամտությունների հաճախականությունը։

Փորձարկումներ ՝ A/B/n 'շարժիչի և «kill-switch», sequential-testing։

11) Cost-inginering և արտադրողականությունը

Գործողության բարդությունը 'սահմանափակենք սլայթի չափսը/օֆֆերի տարածքը։

Kash fich/լուծումներ 'կարճ TTL-ը հայտնի պայմանների համար։

Դեկոմոզիա: Two-stage (candidate generation dementre-rank)։

Fofline-ուսուցումը գրաֆիկում 'ամենօրյա/շաբաթական retrain; Առցանց միայն հեշտ հարմարեցում է (bandits)։

12) Օրինակներ (բեկորներ)

MSO անվտանգ տուգանքով (ուրվագիծ)

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

Conservative Q-Learning (գաղափարը)

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

Համատեքստային ավազակ RG դիմակների հետ

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) Գործընթացները, դերերը և RACI-ը

R (Responsible): Windows Science (RL/Bangits մոդելներ), MLOps (պլատֆորմ/լոգիստիա/գնահատում), Direct Eng (fichi/սիմուլյատորներ)։

A (Accountable): Head of Data / CDO.

C (Consulted): Compliance/DPO (RG/AML/PII), Legal (օֆֆերի պայմանները), Իսպանիան (գաղտնիքները/KMS), SDE (SLO/արժեքը), Dit։

I (Informed) 'Մարքեթինգը/CRM, Վիրահատություն, աջակցություն։

14) Ճանապարհային քարտեզը

MVP (4-6 շաբաթ)

1. Համատեքստային ավազակ ընտրելու համար 1 օֆեր RG/AML դիմակներով և լոգիստիկ propensiti-ով։

2. Offline-գնահատական IPS/DR, սահմանափակ A/B (5-10 տոկոսը), kill-switch։

3. Dashbords: value (DR), CTR/CVR, RG-metrics, guardrails խախտումներ։

Aleksanda 2 (6-12 շաբաթ)

Slate-բանդիտը (N = 3-5 քարտ), դիրքային պարամետրերը։ two-stage candidate→re-rank.
SystementRL (IQL/CQL) սիմուլյատորի հետ։ հիբրիդային retrain.

Constrained-RL 'լիմիտներ ագրեսիվության/հաճախության, հիմար օպտիմիզացիայի վրա։

Բրազիլիա 3 (12-20 շաբաթ)

RG միջամտությունների (safe RL) քաղաքական գործիչները ստրոգիմների և աուդիտի հետ։

Պեյսինգի և բիդդինգի (աճուրդներ) CVaR սահմանափակումներով։

Միջտարածաշրջանային հարմարեցումը, chargeback-ը ինֆիսի և օֆերի արժեքով։

15) Չեկ թուղթ մինչև վաճառելը

Լոգները պարունակում են «policy _ id», «propensity», դիմակներ/սահմանափակումներ, արդյունքներ։
DR/IPS գնահատումը կայուն է; տվյալների աջակցությունը բավարար է (overlap հետ)։
Guardrails: Արգելքների ցուցակներ, հաճախականության լիմիտներ, cooldown, kill-switch։
RG/AML/Legal-ը համաձայնեցին կանոնները. աուդիտը ներառված է (WORM)։
Կանարյան թողարկումը և լիմիտները. Walue/RG/abuse.
Մրցանակներ և ռիսկեր. քաղաքականության քարտը (owner, տարբերակը, SLA)։
Վերահսկման արժեքը ՝ latency p95, cost/request, չափսը, քեշը։

16) Anti-patterna

Առցանց էքսպլորը առանց պաշտպանության և օֆլինի գնահատականների։

«Տեսահոլովակներ/տոկոսադրույքներ» մրցանակը, բացառությամբ աբյուզից և RG-ից, բացատրում է թունավոր քաղաքականությունը։

Propensity-ի և ճիշտ causal-գնահատականների բացակայությունը։

Չափազանց մեծ տարածք, չկա դիմակ/գլխարկ։

Տարածաշրջանների/միգրացիաների խառնուրդը առանց բնակության և կանոնների։

Kill-switch-ի և Կանարեկների բացակայությունը։

17) Արդյունքը

RL-ն տալիս է iGaming պլատֆորմը հարմարվողական քաղաքականություններ, որոնք ավելացնում են երկարաժամկետ արժեքը RG/AML/Legal-ի պահպանման ժամանակ։ Անվտանգ ինտեգրման բանալին 105 մգ/պահպանողական մեթոդներ են, ճիշտ causal գնահատական (IPS/DR), խիստ guardrails, թափանցիկ պարգև, MLOps-ի կարգապահություն և աստիճանական rollout։ Այսպիսով, դուք կստանաք Net Revenue/LTV-ի աճը առանց պատասխանատվության փոխզիջումների և կոմպլենսների։

Ամրացման ուսուցում

Առցանց/near-real Time

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով