Ուսուցչի և առանց

1) Ինչո՞ ւ և երբ

Ուսուցչի հետ (Supervised), կա պիտակ (պիտակ), որը կանխատեսում է հավանականությունը/դասը/արժեքը։ Մենք օգտագործում ենք, երբ հասկանալի է «ճիշտ պատասխանը» և կա պատմություն 'churn, դեպոզիտ 7 օրվա ընթացքում, RG/AML ռիսկը, offer արձագանքի հավանականությունը, LTV կանխատեսումը։

Առանց ուսուցչի (Unsupervised), պիտակ չկա, մենք գտնում ենք կառուցվածքներ/կլաստերներ/անոմալիաներ/լատինական գործոններ 'խաղացողների սեգմենտացիա, ֆրոդի օղակներ, խաղերի թեմատիկ պրոֆիլներ, պրովայդերական ձախողումների հայտնաբերում, նշանների սեղմում։

Ընտրության կանոնը 'եթե բիզնես լուծումը կախված է հատուկ հավանական կանխատեսումից, որը համապատասխանում է supervised-ին։ եթե նպատակն է բացել անհայտ փամփուշտներ/ազդանշաններ կամ նվազեցնել տվյալների չափը wwww.unsupervised։ Գործնականում խուսափում են։

2) iGaming-ի տիպիկ քեյսերը

Supervised

Churn/ռեակտիվացիա 'երկուական դասակարգում (դուրս կգա/չի հեռանա), uplift մոդելներ ազդեցության համար։

Propensity դեպոզիտին/գնմանը 'T. հորիզոնում տեղի ունեցածի հավանականությունը։

RG/AML 'ռիսկի սկոր, կառուցվածքի հավանականությունը, կասկածելի նստաշրջանը։

Հակաբյուզը բոնուսների հավանականությունն է։

Առաջարկություններ (ռենջացիա) 'խաղի վրա կլիկի/տոկոսադրույքի հավանականությունը (listwise/pointwise)։

Unsupervised

Խաղացողների հատվածները ՝ k-means, GMM, HDBSCAN RFM/վարքը/ժանրերը։

Անոմալիաներ ՝ Isolation Forest, LOF, SystemEncoder մրցույթներում/խաղային արտոնագրերում։

Գրաֆիկական վերլուծություն 'կլաստերիզացիա գրաֆիկայում «dewis-card-IP»։

Չափման նվազումը 'PCA/UMAP-ը' տեսողական և ֆիչ-ինժեներինգի համար։

Թեմատիկ մոդելներ ՝ NMF/LDL խաղերի/աջակցության չատի նկարագրելու համար։

3) Տվյալները և ֆիչին

Point-in-time միացություններ, որպեսզի բացառեն ռուսական leakage-ը։

Նշանների պատուհանները ՝ 10 րոպե/1 ժամ/1 օր/7 օր/30 օր (recency, frequency, monetary)։

Համատեքստը 'շուկա/միգրացիա/DST/արձակուրդներ, պրովայդեր/ժանր, սարք/ASN։

Գրաֆիկական նշաններ 'յուրահատուկ քարտեզների/IP/dewiss, կենտրոնական քանակը։

Արժույթների/ժամացույցի գոտիների նորմալացումը, SCD II-ը users/games/providers-ի համար։

4) Ալգորիթմներ և չափումներ

Ուսուցչի հետ

Ալգորիթմներ ՝ LogReg, XGBoost/Last GBM/CatBoost, TabNet; վիրավորելու համար - Lambox MART/GBDT; ժամանակավոր շարքերը 'Prophet/EFC/Gradient Boosted TS։

Metriks: ROC-AUC/PR-AUC, F1 @ վիրահատական շեմն է, KS (ռիսկի), NDCG/MAP @ K (առաջարկություններ), MAPE/WAPE (կանխատեսումներ), expected cost cost հետ/FN.

Առանց ուսուցչի

Կլաստերիզացիա ՝ k-means/GMM (կլաստերների թիվը elbow/silhouette), HDBSCAN (ամբարտավան)։

Անոմալիաներ ՝ Isolation Forest/LOF/Windows Encoder; metriks - precision @ k-ը, AUCPR-ը սինթետիկ անոմալիաների վրա։

Չափումը 'PCA/UMAP ֆիգուրային կառուցվածքի և տեսողությունների համար։

5) Համակցված մոտեցումներ

Semi-Supervised: Կեղծ դոլլարներ չներկայացված տվյալների մի մասի համար (www.f-training), consistency regularization։

Winf-Supervised: հակադիր/դիմակավորված առաջադրանքները (նստաշրջանների/խաղերի սաղմեդդինգներ) օգտագործում են downstream գերծանրքաշային։

Active Learning-ը 'համակարգը առաջարկում է թեկնածուներ նշելու (առավելագույն անորոշություն/բազմազանություն) ռուսական խնայում է AML/RG մասնագետների աշխատանքը։

Weak Supervision: evristies/կանոններ/դիստրիբյուտորային գծանշումներ ձևավորում են «թույլ» պիտակներ, ապա տրամաչափը։

6) Գործընթացը 'օֆլայնից մինչև առցանց սերվինգ

1. Օֆլինը 'հավաքումը/պատրաստումը ժամանակի/շուկաների համար կատարվում է ուսուցման/validation wwww.backtest։

2. Մետաքսի սեմանտիկան 'միասնական բանաձևեր (օրինակ, churn _ 30d) և ֆիքսված ժամանակավոր պատուհաններ։

3. Feature Store: մեկ բանաձևեր on.ru/24.ru; թեստերը։

4. Առցանց սերվինգը 'endpoints gRPC/REST, SLA լատենտով, AB-routing/kanareched ալգորիթմներ։

5. Տե՛ ս ՝ տվյալների/կանխատեսումների (PSI/KL), latency p95, բիզնես մետրի սխալը, ալտերտերը։

7) Գաղտնիությունը և կոմպլենսը

PII-նվազեցումը 'կեղծանունացում, մապինգների մեկուսացում, CLS/RTS։

Residency: առանձին փոխակրիչներ/բանալիներ կատարվում են տարածաշրջաններում (EFC/UK/RF)։

DSAR/RTBF 'հեռացրեք/խմբագրեք ֆիչին և լոգին։ մենք ենք բացառությունների իրավական հիմքերը։

Legal Hold: Հետազոտությունների/հաշվետվությունների արտեֆակտների սառեցում։

Fairness: Adit-fich, ազդեցության հաշվետվությունները (SHAP), RG միջամտությունների քաղաքականությունը։

8) Տնտեսագիտություն և արտադրողականություն

Ֆիչի հաշվարկման արժեքը (cost/feature) և infess (cost/request)։

Օֆլինի ագրեգատների նյութականացումը։ առցանց, միայն կրիտիկական պատուհաններ։

Քեշը/սկորինգի արդյունքները կարճ TTL-ի վրա, ասինխրոն lookups թայմաուտներով։

Քվոտաներ և բյուջեներ վերամշակման/բակտերիաների վրա։ chargeback թիմերում/մոդելներում։

9) Օրինակներ (բեկորներ)

9. 1 Point-in-time նմուշը churn _ 30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Վճարումների անոմալիա (կեղծ, Isolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 K-means (RFM + ժանրեր)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Հարյուր շեմն է երկուական մոդելի համար

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Գնահատումը, վալիդացիան և փորձարկումները

Օֆլինը 'temensal split (train/val/test ժամանակի/շուկաների), backtesting, bootstrap վստահություն։

Առցանց 'A/B/n, sequential tes.ru, CUPED/2019-2019։

Off-policy: IPS/DR կերպարների քաղաքականության համար։

Տրամաբանությունը 'Platt/Isotonic ճիշտ հավանականության համար։

Դեգրադացիայի վերահսկումը 'alerts բիզնես-մետրիկների և PR-AUC/KS-ի վրա։

11) RACI

R (Responsible): Windows Science (մոդելներ/փորձարկումներ), MLOps (պլատֆորմ/սերվինգ), Direct Eng (fici/wwww.pline)։

A (Accountable): Head of Data/CDO.

C (Consulted): Compli.ru/DPO (PII/RG/AML), Lenta.ru (KMS/գաղտնիքները), SNE (SLO/արժեքը), Finance (ROI)։

I (Informed) 'ապրանք/Մարքեթինգ/Վիրահատություն/Աջակցություն։

12) Իրականացման ճանապարհային քարտեզը

MVP (4-6 շաբաթ)

1. Նպատակների/պիտակների և ազդանշանների կատալոգը (churn _ 30d, propensity _ 7d, risk _ rg)։

2. Feature Store v1 (5-10 ֆիչ), XGBoost-ի հիմնական մոդելները, dashbords ofline-մետրիկը։

3. K-means (8 կլաստեր) + հատվածների նկարագրությունը։ Isolation Forest-ը վճարելու համար։

4. Առցանց սերվինգը քեշով, p95 <150 ms; A/B 10-20 տոկոսով։

Aleksanda 2 (6-12 շաբաթ)

Action/Semi-Supervised-ը պիտակների դեֆիցիտի համար (AML/RG), խաղերի/նստաշրջանների supervised։

Կանարեկային պոլիգներ, դրեյֆ-2019, ավտոպերտրենիրովկան։

Մեկ սեմանտիկ շերտ մետրիկ և www.on.ru/wwww.fich։

Բրազիլիա 3 (12-20 շաբաթ)

Գրաֆիկական նշանները և ֆրուդի օղակները։ բոնուսների uplift մոդելները։

Multi-interving, քվոտաներ/chargeback; WORM-արխիվը։

Fairness-աուդիտը, սթրեսային թեստերը, runbooks-ը։

13) Չեկ թուղթ մինչև վաճառելը

Point-in-time նմուշներ և թեստեր leakage-ի դեմ։
Հավանականության տրամաբանությունը. շեմի ընտրություն ըստ expected cost.
Մոդելների քարտեր (owner, տվյալներ, չափումներ, ռիսկեր, fairness)։
Feature Store: contonment/wwww.ru թեստը։
Direfa/լատենտ/սխալներ, alerts և Auto-rollbek։
PII/DSAR/RTBF/Legal Hold; տրամաբանությունը վնասված է։
A/B պլանը և վիճակագրական ուժը հաշվարկվել են. runbook արձագանքը պատրաստ է։

14) Anti-patterna

Նոր իրադարձությունների խառնումը պիտակներում (leakage) և point-in-time բացակայությունը։

«Մեկ մոդել ամեն ինչի համար» 'ստացիոնար դեկոմոզիայի փոխարեն։

Որոշ լիբրացված հավանականություն է տալիս սխալ բիզնեսի շեմերը։

Թռիչքը «արցունքաբեր» է, ոչ մի մոնիտորինգ/որակի առցանց։

Փոխակերպումը առցանց (ծանր external-join 'a առանց քեշի և թայմաուտների)։

Հատվածներ առանց բիզնեսի մեկնաբանության և սեփականատիրոջ։

15) Արդյունքը

Ուսուցչի հետ ուսուցումը տալիս է չափված կանխատեսում և կառավարումը/եկամուտը։ առանց ուսուցչի 'կառուցվածք և ազդանշաններ այնտեղ, որտեղ նշանը չկա։ Նրանց համադրությունը (semi/wwww.f-supervised, active learning) տվյալների կարգապահության մեջ (point-in-time, Feature Store), կոմպլասենսը և MLOps-ը տալիս են iGaming պլատֆորմի կայուն աճ Net Revenue, նվազում, ֆրոդի նվազում և ժամանակին RG միջամտություն արժեքի և պատրաստակամության համար։

Ուսուցչի և առանց

Unsupervised

Առանց ուսուցչի

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով