O’qituvchi bilan va o’qitmasdan o’qitish
1) Nima uchun va qachon
O’qituvchi bilan (Supervised): yorliq mavjud → ehtimollik/sinf/ma’noni bashorat qiling. «To’g’ri javob» tushunarli bo’lganda qo’llaymiz: churn, 7 kunlik depozit, RG/AML xavfi, offerga javob berish ehtimoli, LTV prognozi.
O’qituvchisiz (Unsupervised): hech qanday belgi yo’q → tuzilmalar/klasterlar/anomaliyalar/yashirin omillar: o’yinchilar segmentatsiyasi, frod halqalari, mavzuli o’yin profillari, provayder nosozliklarini aniqlash, belgilarni siqish.
Tanlash qoidasi: agar biznes yechimi aniq ehtimollik prognoziga bog’liq bo’lsa → supervised; agar maqsad nomaʼlum pattern/signallarni ochish yoki maʼlumotlar oʻlchamini kamaytirish boʻlsa → unsupervised. Amalda ular birlashtiriladi.
2) iGaming namunaviy keyslari
Supervised
Churn/reaktivatsiya: binar tasnif (ketadi/ketmaydi), ta’sir qilish uchun uplift modellari.
Depozit/sotib olish uchun propensiti: T. gorizontida sodir bo’lish ehtimoli.
RG/AML: tavakkalchilik, tuzilish ehtimoli, shubhali sessiya.
Bonuslarning antiabyuzi: promodan firibgarlik yo’li bilan foydalanish ehtimoli.
Tavsiyalar (reyting): o’yinga bosish/qo’yish ehtimoli (listwise/pointwise).
Unsupervised
RFM/xulq-atvor/janrlar bo’yicha k-means, GMM, HDBSCAN o’yinchilari segmentatsiyasi.
Anomaliyalar: Isolation Forest, LOF, AutoEncoder to’lov/o’yin patternlarida.
Grafik tahlil: «o’yinchi-devays-karta-IP» ustunida klasterlash.
O’lchamni pasaytirish: vizualizatsiya va fich-injiniring uchun PCA/UMAP.
Mavzu modellari: NMF/LDL qo’llab-quvvatlash o’yinlari/chatlarining tavsiflari uchun.
3) Ma’lumotlar va chichlar
Data leakage’ni istisno qilish uchun point-in-time ulanishlar.
Belgilar oynasi: 10 min/1 soat/1 kun/7 kun/30 kun (recency, frequency, monetary).
Kontekst: bozor/yurisdiksiya/DST/bayramlar, provayder/janr, qurilma/ASN.
Grafik belgilar: noyob xaritalar/IP/qurilmalar soni, markazliligi.
Valyuta/soat zonalarini normallashtirish, users/games/providers uchun SCD II.
4) Algoritmlar va metriklar
Oʻqituvchi bilan
Algoritmlar: LogReg, XGBoost/LightGBM/CatBoost, TabNet; reyting uchun - LambdaMART/GBDT; vaqtinchalik qatorlar - Prophet/ETS/Gradient Boosted TS.
Metriklar: ROC-AUC/PR-AUC, F1 @операционный chegara, KS (xavf), NDCG/MAP @K (tavsiyalar), MAPE/WAPE (prognozlar), FP/FP tarozilari bilan expected cost N.
O’qituvchisiz
Klaster: k-means/GMM (klaster soni - elbow/silhouette), HDBSCAN (zichlik).
Anomaliyalar: Isolation Forest/LOF/AutoEncoder; metriklar - precision @k ekspertlar belgilanishida, AUCPR sintetik anomaliyalarda.
O’lchamliligi: PCA/UMAP fich-konstruksiya va vizualizatsiya uchun.
5) Kombinatsiyalangan yondashuvlar
Semi-Supervised: aniqlanmagan maʼlumotlar uchun psevdoleybllar (self-training), consistency regularization.
Self-Supervised: kontrastiv/niqoblangan vazifalar (embeddingi sessiyalar/o’yinlar) → supervised’da downstreamdan foydalaniladi.
Active Learning: tizim AML/RG ekspertlarining ishini tejaydi.
Weak Supervision: evristiklar/qoidalar/distant belgilar «zaif» yorliqlarni shakllantiradi, so’ngra kalibrlanadi.
6) Jarayon: oflayn xizmatdan onlayn servingga
1. Oflayn: yig’ish/tayyorlash → vaqt/bozorlar bo’yicha split → o’qitish/validatsiya → backtest.
2. Metriklarning semantikasi: yagona formulalar (masalan, churn_30d) va qat’iy belgilangan vaqtinchalik derazalar.
3. Feature Store: yagona formulalar fich online/offline; muvofiqlik testlari.
4. Onlayn-serving: gRPC/REST endpointlari, yashirin SLA, AB-routing/kanar relizlari.
5. Monitoring: maʼlumotlar/prognozlar dreyfi (PSI/KL), latency p95, biznes-metriklar xatosi, alertalar.
7) Maxfiylik va komplayens
PII-minimallashtirish: taxalluslashtirish, mappinglarni izolyatsiya qilish, CLS/RLS.
Residency: mintaqalar bo’yicha alohida konveyerlar/shifrlash kalitlari (EEA/UK/BR).
DSAR/RTBF: fich va loglarni oʻchirish/tahrir qilish; istisnolarning huquqiy asoslarini saqlaymiz.
Legal Hold: tekshiruv/hisobot artefaktlarini muzlatish.
Fairness: proksi-fich auditi, ta’sir hisobotlari (SHAP), RG intervensiyalar siyosati.
8) Iqtisodiyot va unumdorlik
Fich (cost/feature) va inferens (cost/request) ni hisoblash qiymati.
Oflayn agregatlarni materiallashtirish; onlayn - faqat muhim oynalar.
Qisqa TTL, taymautli asinxron lookups uchun ruxsatnomalar/skoring natijalari keshi.
Repleylar/bektestlar uchun kvotalar va budjetlar; buyruqlar/modellar bo’yicha chargeback.
9) Misollar (parchalar)
9. 1 Point-in-time uchun churn_30d
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 To’lov anomaliyalari (psevdokod, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 K-means segmentatsiyasi (RFM + janrlar)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Binar model uchun qiymat chegarasi
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Baholash, validatsiya va eksperimentlar
Oflayn: temporal split (vaqt/bozor boʻyicha train/val/test), backtesting, bootstrap ishonch.
Onlayn: A/B/n, sequential tests, CUPED/diff-v-diff.
Off-policy: Personalizatsiya siyosati uchun IPS/DR.
Kalibrlash: To’g’ri ehtimollar uchun Platt/Isotonic.
Degradatsiyani nazorat qilish: biznes-metrlar va PR-AUC/KS bo’yicha alertlar.
11) RACI
R (Responsible): Data Science (modellar/eksperimentlar), MLOps (platforma/serving), Data Eng (fichlar/payplaynlar).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/sirlar), SRE (SLO/qiymat), Finance (ROI).
I (Informed): Mahsulot/Marketing/Operatsiyalar/Qo’llab-quvvatlash.
12) Joriy etish yo’l xaritasi
MVP (4-6 hafta):1. Maqsadlar/yorliqlar va signallar katalogi (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 fich), XGBoost bazaviy modellari, oflayn metrik dashbordlar.
3. k-means segmentatsiyasi (8 klaster) + segmentlar tavsifi; To’lovlar uchun Isolation Forest.
4. Keshli onlayn serving, p95 <150 ms; A/B 10-20% trafikka.
2-faza (6-12 hafta):- leybllar taqchilligi uchun Active/Semi-Supervised (AML/RG), o’yinlar/sessiyalar embeddingining self-supervised.
- Kanareya relizlari, dreyf-monitoring, avto-trenirovka.
- Metriklarning yagona semantik qatlami va kelishuv online/offline fich.
- Grafik belgilar va frod halqalari; bonuslarning uplift-modellari.
- Ko’p mintaqaviy serving, kvotalar/chargeback; WORM relizlar arxivi.
- Fairness-audit, stress-testlar, runbooks hodisalar.
13) Sotishdan oldingi chek-varaq
- Point-in-time tanlov va testlar qarshi leakage.
- Ehtimollarni kalibrlash; expected cost bo’yicha chegarani tanlash.
- Model kartochkalari (owner, ma’lumotlar, metrika, xatarlar, fairness).
- Feature Store: muvofiqlik testi online/offline.
- Dreyf/yashirin/xato monitoringi, alerta va avto-rollbek.
- PII/DSAR/RTBF/Legal Hold siyosati; Manba belgilanmagan.
- A/B rejasi va statistik quvvati hisoblab chiqilgan; qaytish runbook tayyor.
14) Anti-patternlar
Yangi voqealarni yorliqlarga aralashtirish va point-in-time yo’qligi.
Domen dekompozitsiyasi o’rniga «Hamma uchun bitta model».
Noto’g’ri biznes chegaralari.
Ko’r-ko’rona parvoz: onlayn dreyf/sifat monitoringi yo’q.
Onlayn murakkablashuv (kesh va taymautsiz og’ir external-join’lar).
Biznes talqini va egasi bo’lmagan segmentlar.
15) Jami
O’qituvchi bilan o’qitish o’lchanadigan prognoz va tavakkalchilik/daromadni boshqarish imkonini beradi; o’qituvchisiz - belgilar bo’lmagan joyda tuzilma va signallar. Ma’lumotlar intizomi (point-in-time, Feature Store), komplayens va MLOps-da ularning kombinatsiyasi (semi/self-supervised, active learning) iGaming platformasiga Net Revenue-ning barqaror o’sishini, frodning kamayishini va o’z vaqtida RG intervensiyalarini beradi takror ko’paytirish, qiymatni nazorat qilish va auditga tayyorlik.