Mugallym bilen we mugallymsyz okamak
1) Näme üçin we haçan
Mugallym bilen (Supervised): bellik bar → ähtimallygy/synpy/bahasyny çaklaýarys. "Dogry jogap" düşnükli bolanda ulanýarys we taryh bar: churn, 7 günlük goýum, RG/AML töwekgelçiligi, offere jogap bermek ähtimallygy, LTV çaklamasy.
Mugallymsyz (Unsupervised): bellikler ýok → gurluşlary/klasterleri/anomaliýalary/gizlin faktorlary tapýarys: oýunçylaryň segmentasiýasy, frod halkalary, oýunlaryň tematiki profilleri, üpjün edijiniň şowsuzlyklaryny ýüze çykarmak, alamatlaryň gysylmagy.
Saýlamak düzgüni: eger işewürlik çözgüdi belli bir ähtimallyk çaklamasyna bagly bolsa → supervised; eger maksat näbelli patternleri/signallary açmak ýa-da maglumatlaryň ululygyny azaltmak bolsa → unsupervised. Iş ýüzünde birleşdirilýär.
2) iGaming-iň adaty halatlary
Supervised
Çurn/gaýtadan işjeňleşdirmek: ikili klassifikasiýa (gidýär/gitmeýär), täsir etmek üçin uplift modelleri.
Depozit/satyn almak üçin propensiti: gorizontda bolup geçen wakalaryň ähtimallygy T.
RG/AML: töwekgelçilik-skor, gurluş ähtimallygy, şübheli sessiýa.
Bonuslaryň antiabýuzy: mahabaty galp ulanmak ähtimallygy.
Teklipler (reýting): oýna basmak/jedel etmek ähtimallygy (listwise/pointwise).
Unsupervised
Oýunçylaryň segmentasiýasy: k-means, GMM, HDBSCAN RFM/özüni alyp baryş/reanrlar boýunça.
Anomaliýalar: Isolation Forest, LOF, AutoEncoder töleglerde/oýun nusgalarynda.
Grafiki derňew: "oýunçy-enjam-kart-IP" sütünindäki klaster.
Göwrüminiň peselmegi: wizualizasiýa we surat injiniringi üçin PCA/UMAP.
Tema modelleri: Oýunlaryň/goldaw söhbetdeşlikleriniň beýany üçin NMF/LDL.
3) Maglumatlar we çyzgylar
Data leakage-i aýyrmak üçin point-in-time baglanyşyk.
Alamatlaryň penjireleri: 10 min/1 sagat/1 gün/7 gün/30 gün (recency, frequency, monetary).
Kontekst: bazar/ýurisdiksiýa/DST/baýramçylyklar, üpjün ediji/reanr, enjam/ASN.
Grafiki alamatlar: täsin kartlaryň/IP/enjamlaryň sany, merkezliligi.
Walýuta/wagt zolaklarynyň kadalaşmagy, users/games/providers üçin SCD II.
4) Algoritmler we metrikler
Mugallym bilen
Algoritmler: LogReg, XGBoost/LightGBM/CatBoost, TabNet; reýting üçin - LambdaMART/GBDT; wagtlaýyn hatarlar - Prophet/ETS/Gradient Boosted TS.
Metrikler: ROC-AUC/PR-AUC, F1 @операционный bosagasy, KS (töwekgelçilik), NDCG/MAP @K (teklipler), MAPE/WAPE (çaklamalar), FP/FP agramly ekspected cost N.
Mugallym ýok
Klaster: k-means/GMM (klaster sany - elbow/silhouette), HDBSCAN (dykyzlyk).
Anomaliýalar: Isolation Forest/LOF/AutoEncoder; metrikler - hünärmenleriň belliklerinde takyk @k, sintetiki anomaliýalarda AUCPR.
Ölçegi: Surat dizaýny we wizualizasiýa üçin PCA/UMAP.
5) Birleşdirilen çemeleşmeler
Semi-Supervised: bölünmedik maglumatlaryň bir bölegi üçin pseudoleýbller (self-training), consistency regularization.
Öz-Supervised: kontrastiw/gizlenen meseleler (sessiýalaryň/oýunlaryň embeddingleri) → supervised downstream ulanýarlar.
Active Learning: ulgam bellik üçin dalaşgärleri hödürleýär (iň ýokary näbellilik/dürlülik) → AML/RG hünärmenleriniň işini tygşytlaýar.
Weak Supervision: ewristikler/düzgünler/uzak bellikler "gowşak" bellikleri emele getirýär, soňra kalibrleýäris.
6) Amal: oflayn hyzmatdan onlaýn hyzmata
1. Awtonom: ýygnamak/taýýarlamak → wagt/bazarlar boýunça split → okuw/tassyklama → backtest.
2. Metrikleriň semantikasy: ýeke formulalar (mysal üçin churn_30d) we kesgitlenen wagtlaýyn penjireler.
3. Feature Store: bitewi formulalar online/offline; laýyklyk synaglary.
4. Onlaýn hyzmat: gRPC/REST endpointleri, gizlinlik boýunça SLA, AB-marşrut/kanareýa goýberişleri.
5. Gözegçilik: Maglumatlaryň/çaklamalaryň süýşmegi (PSI/KL), latency p95, iş metrikleriniň ýalňyşlygy, töwekgelçilikler.
7) Gizlinlik we gabat gelmek
PII-minimalizasiýa: lakamlaşdyrmak, mappingleri izolirlemek, CLS/RLS.
Residency: sebitler boýunça aýratyn konweýerler/şifrlemek açarlary (EEA/UK/BR).
DSAR/RTBF: şekilleri we ýazgylary aýyrýarys/redaktirleýäris; kadadan çykmalaryň hukuk esaslaryny saklaýarys.
Legal Hold: derňew/hasabat artefaktlaryny doňdurmak.
Fairness: proxy-fich barlagy, täsir hasabatlary (SHAP), RG gatyşma syýasaty.
8) Ykdysadyýet we öndürijilik
Fiç (cost/feature) we inferens (cost/request) hasaplamagyň bahasy.
Oflayn agregatlaryň materializasiýasy; onlaýn - diňe möhüm penjireler.
Gysga TTL, wagt aralyklary bilen asinxron lookups üçin skoring rugsady/netijesi kesesi.
Repleýalar/bektestler üçin kwotalar we býudjetler; buýruklar/modeller boýunça chargeback.
9) Mysallar (bölekler)
9. 1 Point-in-time churn_30d
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Töleg anomaliýalary (psevdokod, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 k-means segmentasiýasy (RFM + resanrlar)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Binar model üçin gymmatlyk çägi
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Baha bermek, tassyklamak we synaglar
Oflayn: temporal split (wagt/bazarlar boýunça train/val/test), backtesting, bootstrap ynam.
Onlaýn: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-policy: Şahsylaşdyrma syýasaty üçin IPS/DR.
Kalibrlemek: Dogry ähtimallyklar üçin Platt/Isotonic.
Pese gaçmaga gözegçilik etmek: iş metrleri we PR-AUC/KS boýunça alertler.
11) RACI
R (Responsible): Data Science (modeller/synaglar), MLOps (platforma/serwing), Data Eng (fich/payplayns).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/syrlar), SRE (SLO/bahasy), Finance (ROI).
I (Informed): Önüm/Marketing/Amallar/Goldaw.
12) Durmuşa geçirmegiň ýol kartasy
MVP (4-6 hepde):1. Maksatlaryň/bellikleriň we signallaryň katalogy (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 surat), XGBoost esasy modelleri, oflayn metrik daşbordlar.
3. k-means segmentasiýasy (8 klaster) + segmentleriň beýany; Tölegler üçin Isolation Forest.
4. Keş bilen onlaýn hyzmat, p95 <150 ms; A/B traffigiň 10-20% -ine.
2-nji faza (6-12 hepde):- Nyşanlaryň ýetmezçiligi üçin Active/Semi-Supervised (AML/RG), oýunlaryň/sessiýalaryň öz-özünden supervised embeddingleri.
- Kanar relizleri, dreýf-gözegçilik, awto-tälim.
- Metrikleriň ýeke-täk semantik gatlagy we ylalaşygy online/offline fich.
- Grafiki alamatlar we frod halkalary; bonuslaryň uplift modelleri.
- Köp sebit hyzmaty, kwotalar/chargeback; WORM çykaryş arhiwi.
- Fairness-audit, stres-synaglar, runbooks hadysalar.
13) Azyk önüminden öň çek-sanawy
- Nokat-in-time nusgalary we leakage garşy synaglar.
- Ähtimallyklary kalibrlemek; expected cost boýunça bosagany saýlamak.
- Model kartoçkalary (owner, maglumatlar, metrikler, töwekgelçilikler, fairness).
- Feature Store: online/offline laýyklyk synagy.
- Süýşmegiň/gizlinligiň/ýalňyşlyklaryň, aladalaryň we awto-rollbekiň monitoringi.
- PII/DSAR/RTBF/Legal Hold syýasaty; logistika şahsylaşdyrylmady.
- A/B meýilnamasy we statistik kuwwaty hasaplandy; runbook gaýdyp geldi.
14) Anti-patternler
Täze wakalary belliklere (leakage) garyşdyrmak we nokat wagty ýok.
Domen dekompozisiýasynyň ýerine "Hemme zat üçin bir model".
Nädogry iş çäkleri.
"Kör uçuş": internetde dreýf/hil gözegçiligi ýok.
Onlaýn çylşyrymlylyk (keshsiz we wagtsyz agyr external-join's).
Işewür düşündirişsiz we eýesiz segmentler.
15) Jemleýji
Mugallym bilen okamak töwekgelçiligi/girdejini ölçäp boljak çaklamany we dolandyryşy berýär; mugallym bolmasa - bellik ýok ýerlerde gurluş we signallar. Olaryň birleşmesi (semi/self-supervised, active learning) maglumat düzgün-nyzamynda (point-in-time, Feature Store), laýyklyk we MLOps iGaming platformasyna Net Revenue-iň durnukly ösüşini, önümçiligiň azalmagyny we öz wagtynda RG gatyşmalaryny berýär köpeltmek, bahany barlamak we audite taýynlyk.