Մեքենայական ուսուցում iGaming
1) Բիզնես և արժեքներ
Ապրանքը/եկամուտը 'LTV կանխատեսումը, churn (արտահոսք), propensity ավանդի/գնման, դինամիկ առաքելությունների/որոնման, next-best-action/winder։
Մարքեթինգը/CRM: look-alike, սեգմենացիա, real-time stugers, բոնուսների օպտիմիզացում (ABO-Abuse-resistation Bonus Optimization)։
Ռիսկ/Complaens: հակաֆրոդ/AML (velocity, կառուցվածք, գրաֆիկական նշաններ), Responsible Gaming (RG) - ռիսկի սկոր, միջամտության հարվածներ։
Վիրահատություններ/MSE 'կանխատեսում, capacity/traffic forecasting, պրովայդերների անոմալիա։
Ֆինանսներ 'GGR/NGR կանխատեսումը, Fx-զգայունությունը, գործընկերների մանիպուլյացիաների դեգրադացիան։
Ազդեցության ուղեցույցները ՝ + 3-7 տոկոսը Net Revenue-ի հետ կերպարների շնորհիվ, 20-40 տոկոսը դեպի fraud-loss, 10-25 տոկոսը դեպի churn, SLA 35RG <5 առցանց։
2) Տվյալները և նշանները (Feature Engineering)
Աղբյուրները ՝ gameplay, վճարումներ/PTS, վավերացում, սարքեր/ASN/geo, RG/KYC/KYB, մարքեթինգային UTM, պրովայդերական լոգներ, sapport/տեքստեր։
Հիմնական ֆիչները
Վարքագծային պատուհանները ՝ N 210/դեպոզիտներ և 10 րոպե/ժամ/օր, recency/frequency/monetary։
Հաջորդականություններ ՝ խաղերի շղթաներ, վերջին ակտիվությամբ ժամանակ, նստաշրջանի նշաններ։
Գեո/սարք 'երկիր/շուկա, ASN, սարքի/զննարկչի տեսակ։
Գրաֆիկ 'կապեր խաղացող-սարքի-IP, բաղադրիչներ/կենտրոնություն (fraud rings)։
Համատեքստային 'օրվա/շաբաթվա/շուկայի արձակուրդների ժամանակը, պրովայդերը/ժանրը/խաղի անկայունությունը։
RG/AML ՝ սահմաններ, ինքնախաբեություններ, սկրինինգի դրոշներ, RER/սանկցիաներ (քաշ/ասինխրոնի միջոցով)։
Առաջարկություններ
Նորմալիզացրեք արժույթը և ժամանակը (UTC + շուկայի բարձրացում)։
Պատմեք չափումները (SCD II)։
Ներդնել առցանց/օֆլայնը փոխակերպման (մեկ կոդը Feature Store-ում)։
3) Ճարտարապետություն: Օֆլայնը առցանց է։
3. 1 Offline 2019
Lakehouse: Bultze no Silver (նորմալացում/հարստացում) www.Gold (ամսաթվեր)։
Feature Store-ը (No. 105) 'ֆիլ բանաձևը, point-in-time join-ը, ուսուցիչների նյութականացումը։
Դասընթացը 'ֆիքսված կախվածություններով բեռնարկղեր։ փորձերի թրքինգը (չափումներ/արտեֆակտներ/տվյալներ)։
Վալիդացիա ՝ k-fold/temental split, backtest, off-policy գնահատական։
3. 2 Առցանց ֆորումը
Ingest www.Stream Processing: Flink/Spark/Beam պատուհաններով/watermarks, գաղափարախոսություն։
Feature Store (on.ru) 'ցածր կոլեկտիվ քեշը (Redis/Scylla) + օֆլինի կույր։
Serving: REST/gRPC endpoints, սկորինգի գրաֆիկ, AB-routing, կանարեքային ալգորիթմներ։
Real-time վիտրինները ՝ ClickHouse/Pinot-ը ռուսական/կանոնների համար։
4) Տիպային մոդելներ և մոտեցումներ
Դասակարգումը/սկորինգը 'churn/դեպոզիտ/frod/RG (LogReg, XGBoost/Last GBM, TabNet, CatBoost)։
Ռանգինգ/առաջարկություններ ՝ ֆակտորիզացիա/թերթ-ռանգինգ (Lambox MART), seq2rec (RNN/Transformers), կոնտեքստային ավազակներ։
Անոմալիաներ ՝ Isolation Forest, One-Class SVM, Media Encoder, Prophet/TSfresh ռուսական շարքերի համար։
Գրաֆիկ ՝ Node2Vec/GraphSAGE/GNN խարդախության օղակների համար։
Պատճառաբանությունը (causal) 'uplift մոդելներ, T-learner/X-learner, DoWhy/CausalML։
NLP/ASR: ticets/chats, բողոքների դասակարգում, sentiment, թեմաներ։
5) Հատկության մետրերը
Դասակարգումը ՝ ROC-AUC/PR-AUC, F1 վիրահատական շեմերի վրա, expected cost (կշռված FP/FN), KS ռիսկի համար։
Առաջարկություններ ՝ NDCG @ K, MAP @ K, coverage/diversity, CTR/CVR առցանց։
TS/Forecom: MAPE/SMAPE, WAPE, P50/P90 սխալ, PI ծածկույթ։
RG/AML: precision/recall SLA-ում, միջին Time-to-intervene-ում։
Տնտեսությունը 'uplift Net Revenue, fraud saved, ROI քարոզարշավները, բոնուս աբուզայի տոկոսը։
6) Գնահատումներ և փորձեր
Offline: temental split, backtest շաբաթ/շուկա/tenants։
Առցանց 'A/B/n, CUPED/2019-2019, sequential tes.ru։
Off-policy: IPS/DR կերպարների քաղաքականության համար։
Մոսկվան։ ուժը 'նմուշների չափի հաշվարկը' հաշվի առնելով ցրումը և MDE-ն։
Արժեքի շեմի հաշվարկման օրինակ (կեղծ)
python cost_fp = 5. 0 # false alarm cost_fn = 50. 0 # missed fraud threshold = pick_by_expected_cost (scores, labels, cost_fp, cost_fn)
7) Գաղտնիությունը, էթիկան, կոմպլենսը
PII-նվազեցումը 'կեղծանուններ, մապինգների մեկուսացում, CLS/RTS։
Նստավայրը 'EFC/UK/IV առանձին ուրվագծեր; առանց հիմքի։
DSAR/RTBF 'հեռացում/խմբագրություն և լոգարաններ։ Legal Hold-ի համար։
Fairness/կողմնակալություն 'fich, www.parate impact, proxy փոփոխականների վերահսկողություն։
Internability: SHAP/feature imult.ru, մոդելների քարտեր (owner, ամսաթիվը, տվյալները, չափումները, ռիսկերը)։
Անվտանգությունը ՝ KFC/CMK, գաղտնիքները լոգարաններից դուրս, WORM արխիվները։
8) MLOps: Կյանքի ցիկլը
1. System & Features: սխեմաներ/պայմանագրեր, DQ կանոնները (completeness/uniqueness/range/temensal), lineage։
2. Դասընթացը 'բեռնարկղեր, ավտոտյունինգ, փորձարկումներ։
3. Վալիդացիան 'ֆայլային սխեմաների թեստեր, bias/fairness, performant թեստեր։
4. Ռելիզը (CI/CD/CT) 'կանարական/ստացիոնար, ֆիչի դրոշները, «մութ մեկնարկը»։
5. Սերվինգը 'ավտոկեյլինգը, քեշինգը, gRPC/REST, timeouts/retrai։
6. Տե՛ ս տվյալների/կանխատեսումների (PSI/KL), latency p95, error-rate, coverage, «silent metram»։
7. Re-train: www.ru/stgers dreaff/digrain metric։
8. Միջադեպերը ՝ runbook, մոդելի արձագանք, fallback (կանոն/պարզ մոդել)։
9) Feature Store (միջուկը)
Ofline: point-in-time հաշվարկման, anti-leakage, բանաձևի տարբերակը։
Առցանց 'ցածր լատենտ (No. 10-30 մզ), TTL, օֆլինի հետ համաձայնություն։
Պայմանագրերը ՝ անունը/նկարագրությունը, սեփականատերը, SLA, բանաձևը, թեստերը www.on.ru/wwww.ru։
Ֆիչիի բնութագրման օրինակ (YAML)
yaml name: deposits_sum_10m owner: ml-risk slo: {latency_ms_p95: 20, availability: 0. 999}
offline:
source: silver. payments transform: "SUM(amount_base) OVER 10m BY user_pseudo_id"
online:
compute: "streaming_window: 10m"
tests:
- compare_online_offline_max_abs_diff: 0. 5
10) Առցանց արագ և կանոններ
ML + Rules-ի հիբրիդ մոդելը։ կանոնները hard-guard/էթիկա/օրենք են։
Shivica: CEP-patterns (structuring/velocity/device switch) + ML-coring։
SLA: p95 and tu-to-150 ms կերպարների համար, No. 2-5 RG/AML ալերտների համար։
Միկրոավտոբուս
python features = feature_store. fetch(user_id)
score = model. predict(features)
if score > T_RG:
trigger_intervention(user_id, reason="RG_HIGH_RISK", score=score)
elif score > T_BONUS:
send_personal_offer(user_id, offer=choose_offer(score, seg))
11) Ուսուցման տվյալները 'նմուշներ և պիտակներ
Իրադարձական պատուհաններ ՝ t0-հանրաքվե, t0 + Lenta.ru - պիտակ (դեպոզիտ/սև/ֆրոդ)։
Leakage-վերահսկումը 'point-in-time join, ապագա իրադարձությունների բացառումը։
Հավասարակշռությունը 'դասարանների ստրատիֆիկացիան/քաշը, focal loss հազվագյուտ դասարանների համար։
Էթիկան 'բացառել զգայուն ատրիբուտները/լուծումները, վերահսկել ազդեցությունը։
12) Տնտեսագիտություն և արտադրողականություն
Ֆիչի արժեքը 'համարեք cost/feature և cost/request, խուսափեք ծանր onter-join-ից։
Քաշ 'տաք ֆիչեր RAM-ում, սառը' lazy-ում։
Նյութականացում 'օֆլայնային ագրեգացիայի; առցանց միայն կրիտիկական է։
Քվոտաներ ՝ լիմիտներ, ժամանակի պատուհաններ, chargeback թիմերում։
13) SQL/կեղծ կոդերի օրինակներ
Point-in-time նմուշը churn-ի համար (30 օր լռություն)
sql
WITH base AS (
SELECT user_pseudo_id, MIN(event_time) AS first_seen
FROM silver. fact_bets
GROUP BY user_pseudo_id
),
agg AS (
SELECT user_pseudo_id,
DATE(t. event_time) AS asof,
SUM(amount_base) FILTER (WHERE type='deposit' AND event_time >= t. event_time - INTERVAL '30' DAY AND event_time < t. event_time) AS dep_30d,
COUNT() FILTER (WHERE type='bet' AND event_time >= t. event_time - INTERVAL '7' DAY) AS bets_7d
FROM silver. fact_events t
GROUP BY user_pseudo_id, DATE(t. event_time)
)
SELECT a. user_pseudo_id, a. asof, a. dep_30d, a. bets_7d,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events e
WHERE e. user_pseudo_id=a. user_pseudo_id AND e. event_time > a. asof AND e. event_time <= a. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS label_churn_30d
FROM agg a;
Ավանդների առցանց պատուհանը (Flink SQL, 10 րոպե)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
14) Ճանապարհային քարտեզը
MVP (4-6 շաբաթ)
1. Ազդանշանների կատալոգը և Feature Store v1 (5-10 ֆիչ Payments/Gameplay)։
2. Ռուսական մոդել churn/դեպոզիտ (XGBoost) + A/B 10-20 տոկոսով։
3. Առցանց սերվինգը քեշի հետ (p95 <150 մզ) և կանարեքային հաղորդագրություններով։
4. Դելդրեյֆը/որակը, մոդելի քարտը, runbook արձագանքը։
Aleksanda 2 (6-12 շաբաթ)
RG/AML-սկորինգները, գրաֆիկական նշանները, real-time ձգիչները։
Uplift մոդելները բոնուսների, կոնտեքստային ավազակների, off-policy գնահատականի համար։
Auto-re-trein-ը dreeff/օրացույցով, փաստաթղթերի ավտոմատիզացիան։
Բրազիլիա 3 (12-20 շաբաթ)
Ռուսական խաղերի կերպարը (seq2rec), մուլտֆիլմի օբյեկտիվ օպտիմիզացիան (եկամուտ/պատասխանատվություն)։
Multi-interving, SLAS/քվոտաներ, chargeback/infess։
Fairness-աուդիտը և սթրեսային թեստերը, DR-ուսմունքները և WORM-ռեպոզորիաները։
15) RACI
R (Responsible): MLOps (պլատֆորմ/սերվինգ), Direct Science (մոդելներ/փորձարկումներ), Direct Eng (fici/wwww.pline)։
A (Accountable): Head of Data / CDO.
C (Consulted): Compli.ru/DPO (PII/RG/AML/DSAR), Legal։
I (Informed) 'ապրանք/Մարքեթինգ/Վիրահատություն/Աջակցություն։
16) Չեկ թուղթ մինչև վաճառելը
- Ֆիչին համաձայն է on.ru/www.ru, հոսանքի թեստերը անցել են։
- Մոդելի քարտը (owner, տվյալներ, չափումներ, ռիսկեր, fairness) լցված է։
- Կանարյան թողարկումը/ֆիչֆլագ; SLA-ն և latency/սխալները/dreefa-ը։
- PII/DSAR/RTBF/Legal Hold քաղաքականությունները պահպանված են; լույսերը անվանական են։
- Runbook 2019/պատասխան; fallback ռազմավարություն։
- Փորձարկումները կազմված են (հիպոթեզներ, չափումներ, տևողություն, MDE)։
- Ինֆիսի և ֆիչի արժեքը նշված է բյուջեում։ քվոտաները և լիմիտները ներառված են։
17) Anti-patterna
Համացանցային/օֆլայնային ֆիչի անհամապատասխանությունը անիրատեսական է։
Սինխրոն արտաքին API-ը «տաք ճանապարհին» առանց քեշի և թայմաուտների։
Անթույլատրելի բանաձևեր մետրիկ/մոդելների քարտերի բացակայություն։
Փոխակերպում/դրեյֆ առանց մոնիտորինգի և վերափոխման։
PII վերլուծության և ուսուցման մեջ առանց CLS/RSA/նվազագույնի։
«Մեկ մեծ մոդել ամեն ինչի համար» առանց էքսպոզիցիայի։
18) Արդյունքը
ML-ը iGaming-ում ոչ թե «կախարդական» մոդելների հավաքածու է, այլ կարգապահություն 'www.fici, վերարտադրված օֆլինի դասընթացը, հուսալի առցանց սերվինգը, խիստ MLOps-ը, թափանցիկ գծապատկերները և էթիկան/բաղադրիչը։ Հետևելով այս առաջնորդությանը ՝ դուք կկառուցեք մի համակարգ, որը կայուն մեծացնում է եկամուտը և պահպանում, նվազեցնում է ռիսկերը և պահպանում կարգավորող պահանջները 'մասշտաբով, արագ և կանխատեսելի։