Ուսուցչի և առանց
1) Ինչո՞ ւ և երբ
Ուսուցչի հետ (Supervised), կա պիտակ (պիտակ), որը կանխատեսում է հավանականությունը/դասը/արժեքը։ Մենք օգտագործում ենք, երբ հասկանալի է «ճիշտ պատասխանը» և կա պատմություն 'churn, դեպոզիտ 7 օրվա ընթացքում, RG/AML ռիսկը, offer արձագանքի հավանականությունը, LTV կանխատեսումը։
Առանց ուսուցչի (Unsupervised), պիտակ չկա, մենք գտնում ենք կառուցվածքներ/կլաստերներ/անոմալիաներ/լատինական գործոններ 'խաղացողների սեգմենտացիա, ֆրոդի օղակներ, խաղերի թեմատիկ պրոֆիլներ, պրովայդերական ձախողումների հայտնաբերում, նշանների սեղմում։
Ընտրության կանոնը 'եթե բիզնես լուծումը կախված է հատուկ հավանական կանխատեսումից, որը համապատասխանում է supervised-ին։ եթե նպատակն է բացել անհայտ փամփուշտներ/ազդանշաններ կամ նվազեցնել տվյալների չափը wwww.unsupervised։ Գործնականում խուսափում են։
2) iGaming-ի տիպիկ քեյսերը
Supervised
Churn/ռեակտիվացիա 'երկուական դասակարգում (դուրս կգա/չի հեռանա), uplift մոդելներ ազդեցության համար։
Propensity դեպոզիտին/գնմանը 'T. հորիզոնում տեղի ունեցածի հավանականությունը։
RG/AML 'ռիսկի սկոր, կառուցվածքի հավանականությունը, կասկածելի նստաշրջանը։
Հակաբյուզը բոնուսների հավանականությունն է։
Առաջարկություններ (ռենջացիա) 'խաղի վրա կլիկի/տոկոսադրույքի հավանականությունը (listwise/pointwise)։
Unsupervised
Խաղացողների հատվածները ՝ k-means, GMM, HDBSCAN RFM/վարքը/ժանրերը։
Անոմալիաներ ՝ Isolation Forest, LOF, SystemEncoder մրցույթներում/խաղային արտոնագրերում։
Գրաֆիկական վերլուծություն 'կլաստերիզացիա գրաֆիկայում «dewis-card-IP»։
Չափման նվազումը 'PCA/UMAP-ը' տեսողական և ֆիչ-ինժեներինգի համար։
Թեմատիկ մոդելներ ՝ NMF/LDL խաղերի/աջակցության չատի նկարագրելու համար։
3) Տվյալները և ֆիչին
Point-in-time միացություններ, որպեսզի բացառեն ռուսական leakage-ը։
Նշանների պատուհանները ՝ 10 րոպե/1 ժամ/1 օր/7 օր/30 օր (recency, frequency, monetary)։
Համատեքստը 'շուկա/միգրացիա/DST/արձակուրդներ, պրովայդեր/ժանր, սարք/ASN։
Գրաֆիկական նշաններ 'յուրահատուկ քարտեզների/IP/dewiss, կենտրոնական քանակը։
Արժույթների/ժամացույցի գոտիների նորմալացումը, SCD II-ը users/games/providers-ի համար։
4) Ալգորիթմներ և չափումներ
Ուսուցչի հետ
Ալգորիթմներ ՝ LogReg, XGBoost/Last GBM/CatBoost, TabNet; վիրավորելու համար - Lambox MART/GBDT; ժամանակավոր շարքերը 'Prophet/EFC/Gradient Boosted TS։
Metriks: ROC-AUC/PR-AUC, F1 @ վիրահատական շեմն է, KS (ռիսկի), NDCG/MAP @ K (առաջարկություններ), MAPE/WAPE (կանխատեսումներ), expected cost cost հետ/FN.
Առանց ուսուցչի
Կլաստերիզացիա ՝ k-means/GMM (կլաստերների թիվը elbow/silhouette), HDBSCAN (ամբարտավան)։
Անոմալիաներ ՝ Isolation Forest/LOF/Windows Encoder; metriks - precision @ k-ը, AUCPR-ը սինթետիկ անոմալիաների վրա։
Չափումը 'PCA/UMAP ֆիգուրային կառուցվածքի և տեսողությունների համար։
5) Համակցված մոտեցումներ
Semi-Supervised: Կեղծ դոլլարներ չներկայացված տվյալների մի մասի համար (www.f-training), consistency regularization։
Winf-Supervised: հակադիր/դիմակավորված առաջադրանքները (նստաշրջանների/խաղերի սաղմեդդինգներ) օգտագործում են downstream գերծանրքաշային։
Active Learning-ը 'համակարգը առաջարկում է թեկնածուներ նշելու (առավելագույն անորոշություն/բազմազանություն) ռուսական խնայում է AML/RG մասնագետների աշխատանքը։
Weak Supervision: evristies/կանոններ/դիստրիբյուտորային գծանշումներ ձևավորում են «թույլ» պիտակներ, ապա տրամաչափը։
6) Գործընթացը 'օֆլայնից մինչև առցանց սերվինգ
1. Օֆլինը 'հավաքումը/պատրաստումը ժամանակի/շուկաների համար կատարվում է ուսուցման/validation wwww.backtest։
2. Մետաքսի սեմանտիկան 'միասնական բանաձևեր (օրինակ, churn _ 30d) և ֆիքսված ժամանակավոր պատուհաններ։
3. Feature Store: մեկ բանաձևեր on.ru/24.ru; թեստերը։
4. Առցանց սերվինգը 'endpoints gRPC/REST, SLA լատենտով, AB-routing/kanareched ալգորիթմներ։
5. Տե՛ ս ՝ տվյալների/կանխատեսումների (PSI/KL), latency p95, բիզնես մետրի սխալը, ալտերտերը։
7) Գաղտնիությունը և կոմպլենսը
PII-նվազեցումը 'կեղծանունացում, մապինգների մեկուսացում, CLS/RTS։
Residency: առանձին փոխակրիչներ/բանալիներ կատարվում են տարածաշրջաններում (EFC/UK/RF)։
DSAR/RTBF 'հեռացրեք/խմբագրեք ֆիչին և լոգին։ մենք ենք բացառությունների իրավական հիմքերը։
Legal Hold: Հետազոտությունների/հաշվետվությունների արտեֆակտների սառեցում։
Fairness: Adit-fich, ազդեցության հաշվետվությունները (SHAP), RG միջամտությունների քաղաքականությունը։
8) Տնտեսագիտություն և արտադրողականություն
Ֆիչի հաշվարկման արժեքը (cost/feature) և infess (cost/request)։
Օֆլինի ագրեգատների նյութականացումը։ առցանց, միայն կրիտիկական պատուհաններ։
Քեշը/սկորինգի արդյունքները կարճ TTL-ի վրա, ասինխրոն lookups թայմաուտներով։
Քվոտաներ և բյուջեներ վերամշակման/բակտերիաների վրա։ chargeback թիմերում/մոդելներում։
9) Օրինակներ (բեկորներ)
9. 1 Point-in-time նմուշը churn _ 30d
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Վճարումների անոմալիա (կեղծ, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 K-means (RFM + ժանրեր)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Հարյուր շեմն է երկուական մոդելի համար
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Գնահատումը, վալիդացիան և փորձարկումները
Օֆլինը 'temensal split (train/val/test ժամանակի/շուկաների), backtesting, bootstrap վստահություն։
Առցանց 'A/B/n, sequential tes.ru, CUPED/2019-2019։
Off-policy: IPS/DR կերպարների քաղաքականության համար։
Տրամաբանությունը 'Platt/Isotonic ճիշտ հավանականության համար։
Դեգրադացիայի վերահսկումը 'alerts բիզնես-մետրիկների և PR-AUC/KS-ի վրա։
11) RACI
R (Responsible): Windows Science (մոդելներ/փորձարկումներ), MLOps (պլատֆորմ/սերվինգ), Direct Eng (fici/wwww.pline)։
A (Accountable): Head of Data/CDO.
C (Consulted): Compli.ru/DPO (PII/RG/AML), Lenta.ru (KMS/գաղտնիքները), SNE (SLO/արժեքը), Finance (ROI)։
I (Informed) 'ապրանք/Մարքեթինգ/Վիրահատություն/Աջակցություն։
12) Իրականացման ճանապարհային քարտեզը
MVP (4-6 շաբաթ)
1. Նպատակների/պիտակների և ազդանշանների կատալոգը (churn _ 30d, propensity _ 7d, risk _ rg)։
2. Feature Store v1 (5-10 ֆիչ), XGBoost-ի հիմնական մոդելները, dashbords ofline-մետրիկը։
3. K-means (8 կլաստեր) + հատվածների նկարագրությունը։ Isolation Forest-ը վճարելու համար։
4. Առցանց սերվինգը քեշով, p95 <150 ms; A/B 10-20 տոկոսով։
Aleksanda 2 (6-12 շաբաթ)
Action/Semi-Supervised-ը պիտակների դեֆիցիտի համար (AML/RG), խաղերի/նստաշրջանների supervised։
Կանարեկային պոլիգներ, դրեյֆ-2019, ավտոպերտրենիրովկան։
Մեկ սեմանտիկ շերտ մետրիկ և www.on.ru/wwww.fich։
Բրազիլիա 3 (12-20 շաբաթ)
Գրաֆիկական նշանները և ֆրուդի օղակները։ բոնուսների uplift մոդելները։
Multi-interving, քվոտաներ/chargeback; WORM-արխիվը։
Fairness-աուդիտը, սթրեսային թեստերը, runbooks-ը։
13) Չեկ թուղթ մինչև վաճառելը
- Point-in-time նմուշներ և թեստեր leakage-ի դեմ։
- Հավանականության տրամաբանությունը. շեմի ընտրություն ըստ expected cost.
- Մոդելների քարտեր (owner, տվյալներ, չափումներ, ռիսկեր, fairness)։
- Feature Store: contonment/wwww.ru թեստը։
- Direfa/լատենտ/սխալներ, alerts և Auto-rollbek։
- PII/DSAR/RTBF/Legal Hold; տրամաբանությունը վնասված է։
- A/B պլանը և վիճակագրական ուժը հաշվարկվել են. runbook արձագանքը պատրաստ է։
14) Anti-patterna
Նոր իրադարձությունների խառնումը պիտակներում (leakage) և point-in-time բացակայությունը։
«Մեկ մոդել ամեն ինչի համար» 'ստացիոնար դեկոմոզիայի փոխարեն։
Որոշ լիբրացված հավանականություն է տալիս սխալ բիզնեսի շեմերը։
Թռիչքը «արցունքաբեր» է, ոչ մի մոնիտորինգ/որակի առցանց։
Փոխակերպումը առցանց (ծանր external-join 'a առանց քեշի և թայմաուտների)։
Հատվածներ առանց բիզնեսի մեկնաբանության և սեփականատիրոջ։
15) Արդյունքը
Ուսուցչի հետ ուսուցումը տալիս է չափված կանխատեսում և կառավարումը/եկամուտը։ առանց ուսուցչի 'կառուցվածք և ազդանշաններ այնտեղ, որտեղ նշանը չկա։ Նրանց համադրությունը (semi/wwww.f-supervised, active learning) տվյալների կարգապահության մեջ (point-in-time, Feature Store), կոմպլասենսը և MLOps-ը տալիս են iGaming պլատֆորմի կայուն աճ Net Revenue, նվազում, ֆրոդի նվազում և ժամանակին RG միջամտություն արժեքի և պատրաստակամության համար։