O’qituvchi bilan va o’qitmasdan o’qitish

1) Nima uchun va qachon

O’qituvchi bilan (Supervised): yorliq mavjud → ehtimollik/sinf/ma’noni bashorat qiling. «To’g’ri javob» tushunarli bo’lganda qo’llaymiz: churn, 7 kunlik depozit, RG/AML xavfi, offerga javob berish ehtimoli, LTV prognozi.
O’qituvchisiz (Unsupervised): hech qanday belgi yo’q → tuzilmalar/klasterlar/anomaliyalar/yashirin omillar: o’yinchilar segmentatsiyasi, frod halqalari, mavzuli o’yin profillari, provayder nosozliklarini aniqlash, belgilarni siqish.

Tanlash qoidasi: agar biznes yechimi aniq ehtimollik prognoziga bog’liq bo’lsa → supervised; agar maqsad nomaʼlum pattern/signallarni ochish yoki maʼlumotlar oʻlchamini kamaytirish boʻlsa → unsupervised. Amalda ular birlashtiriladi.

2) iGaming namunaviy keyslari

Supervised

Churn/reaktivatsiya: binar tasnif (ketadi/ketmaydi), ta’sir qilish uchun uplift modellari.
Depozit/sotib olish uchun propensiti: T. gorizontida sodir bo’lish ehtimoli.
RG/AML: tavakkalchilik, tuzilish ehtimoli, shubhali sessiya.
Bonuslarning antiabyuzi: promodan firibgarlik yo’li bilan foydalanish ehtimoli.
Tavsiyalar (reyting): o’yinga bosish/qo’yish ehtimoli (listwise/pointwise).

Unsupervised

RFM/xulq-atvor/janrlar bo’yicha k-means, GMM, HDBSCAN o’yinchilari segmentatsiyasi.
Anomaliyalar: Isolation Forest, LOF, AutoEncoder to’lov/o’yin patternlarida.
Grafik tahlil: «o’yinchi-devays-karta-IP» ustunida klasterlash.
O’lchamni pasaytirish: vizualizatsiya va fich-injiniring uchun PCA/UMAP.
Mavzu modellari: NMF/LDL qo’llab-quvvatlash o’yinlari/chatlarining tavsiflari uchun.

3) Ma’lumotlar va chichlar

Data leakage’ni istisno qilish uchun point-in-time ulanishlar.
Belgilar oynasi: 10 min/1 soat/1 kun/7 kun/30 kun (recency, frequency, monetary).
Kontekst: bozor/yurisdiksiya/DST/bayramlar, provayder/janr, qurilma/ASN.
Grafik belgilar: noyob xaritalar/IP/qurilmalar soni, markazliligi.
Valyuta/soat zonalarini normallashtirish, users/games/providers uchun SCD II.

4) Algoritmlar va metriklar

Oʻqituvchi bilan

Algoritmlar: LogReg, XGBoost/LightGBM/CatBoost, TabNet; reyting uchun - LambdaMART/GBDT; vaqtinchalik qatorlar - Prophet/ETS/Gradient Boosted TS.
Metriklar: ROC-AUC/PR-AUC, F1 @операционный chegara, KS (xavf), NDCG/MAP @K (tavsiyalar), MAPE/WAPE (prognozlar), FP/FP tarozilari bilan expected cost N.

O’qituvchisiz

Klaster: k-means/GMM (klaster soni - elbow/silhouette), HDBSCAN (zichlik).
Anomaliyalar: Isolation Forest/LOF/AutoEncoder; metriklar - precision @k ekspertlar belgilanishida, AUCPR sintetik anomaliyalarda.
O’lchamliligi: PCA/UMAP fich-konstruksiya va vizualizatsiya uchun.

5) Kombinatsiyalangan yondashuvlar

Semi-Supervised: aniqlanmagan maʼlumotlar uchun psevdoleybllar (self-training), consistency regularization.
Self-Supervised: kontrastiv/niqoblangan vazifalar (embeddingi sessiyalar/o’yinlar) → supervised’da downstreamdan foydalaniladi.
Active Learning: tizim AML/RG ekspertlarining ishini tejaydi.
Weak Supervision: evristiklar/qoidalar/distant belgilar «zaif» yorliqlarni shakllantiradi, so’ngra kalibrlanadi.

6) Jarayon: oflayn xizmatdan onlayn servingga

1. Oflayn: yig’ish/tayyorlash → vaqt/bozorlar bo’yicha split → o’qitish/validatsiya → backtest.
2. Metriklarning semantikasi: yagona formulalar (masalan, churn_30d) va qat’iy belgilangan vaqtinchalik derazalar.
3. Feature Store: yagona formulalar fich online/offline; muvofiqlik testlari.
4. Onlayn-serving: gRPC/REST endpointlari, yashirin SLA, AB-routing/kanar relizlari.
5. Monitoring: maʼlumotlar/prognozlar dreyfi (PSI/KL), latency p95, biznes-metriklar xatosi, alertalar.

7) Maxfiylik va komplayens

PII-minimallashtirish: taxalluslashtirish, mappinglarni izolyatsiya qilish, CLS/RLS.
Residency: mintaqalar bo’yicha alohida konveyerlar/shifrlash kalitlari (EEA/UK/BR).
DSAR/RTBF: fich va loglarni oʻchirish/tahrir qilish; istisnolarning huquqiy asoslarini saqlaymiz.
Legal Hold: tekshiruv/hisobot artefaktlarini muzlatish.
Fairness: proksi-fich auditi, ta’sir hisobotlari (SHAP), RG intervensiyalar siyosati.

8) Iqtisodiyot va unumdorlik

Fich (cost/feature) va inferens (cost/request) ni hisoblash qiymati.
Oflayn agregatlarni materiallashtirish; onlayn - faqat muhim oynalar.
Qisqa TTL, taymautli asinxron lookups uchun ruxsatnomalar/skoring natijalari keshi.
Repleylar/bektestlar uchun kvotalar va budjetlar; buyruqlar/modellar bo’yicha chargeback.

9) Misollar (parchalar)

9. 1 Point-in-time uchun churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 To’lov anomaliyalari (psevdokod, Isolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 K-means segmentatsiyasi (RFM + janrlar)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Binar model uchun qiymat chegarasi

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Baholash, validatsiya va eksperimentlar

Oflayn: temporal split (vaqt/bozor boʻyicha train/val/test), backtesting, bootstrap ishonch.
Onlayn: A/B/n, sequential tests, CUPED/diff-v-diff.
Off-policy: Personalizatsiya siyosati uchun IPS/DR.
Kalibrlash: To’g’ri ehtimollar uchun Platt/Isotonic.
Degradatsiyani nazorat qilish: biznes-metrlar va PR-AUC/KS bo’yicha alertlar.

11) RACI

R (Responsible): Data Science (modellar/eksperimentlar), MLOps (platforma/serving), Data Eng (fichlar/payplaynlar).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/sirlar), SRE (SLO/qiymat), Finance (ROI).
I (Informed): Mahsulot/Marketing/Operatsiyalar/Qo’llab-quvvatlash.

12) Joriy etish yo’l xaritasi

MVP (4-6 hafta):

1. Maqsadlar/yorliqlar va signallar katalogi (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (5-10 fich), XGBoost bazaviy modellari, oflayn metrik dashbordlar.

3. k-means segmentatsiyasi (8 klaster) + segmentlar tavsifi; To’lovlar uchun Isolation Forest.

4. Keshli onlayn serving, p95 <150 ms; A/B 10-20% trafikka.

2-faza (6-12 hafta):

leybllar taqchilligi uchun Active/Semi-Supervised (AML/RG), o’yinlar/sessiyalar embeddingining self-supervised.
Kanareya relizlari, dreyf-monitoring, avto-trenirovka.
Metriklarning yagona semantik qatlami va kelishuv online/offline fich.

3-faza (12-20 hafta):

Grafik belgilar va frod halqalari; bonuslarning uplift-modellari.
Ko’p mintaqaviy serving, kvotalar/chargeback; WORM relizlar arxivi.
Fairness-audit, stress-testlar, runbooks hodisalar.

13) Sotishdan oldingi chek-varaq

Point-in-time tanlov va testlar qarshi leakage.
Ehtimollarni kalibrlash; expected cost bo’yicha chegarani tanlash.
Model kartochkalari (owner, ma’lumotlar, metrika, xatarlar, fairness).
Feature Store: muvofiqlik testi online/offline.
Dreyf/yashirin/xato monitoringi, alerta va avto-rollbek.
PII/DSAR/RTBF/Legal Hold siyosati; Manba belgilanmagan.
A/B rejasi va statistik quvvati hisoblab chiqilgan; qaytish runbook tayyor.

14) Anti-patternlar

Yangi voqealarni yorliqlarga aralashtirish va point-in-time yo’qligi.
Domen dekompozitsiyasi o’rniga «Hamma uchun bitta model».
Noto’g’ri biznes chegaralari.
Ko’r-ko’rona parvoz: onlayn dreyf/sifat monitoringi yo’q.
Onlayn murakkablashuv (kesh va taymautsiz og’ir external-join’lar).
Biznes talqini va egasi bo’lmagan segmentlar.

15) Jami

O’qituvchi bilan o’qitish o’lchanadigan prognoz va tavakkalchilik/daromadni boshqarish imkonini beradi; o’qituvchisiz - belgilar bo’lmagan joyda tuzilma va signallar. Ma’lumotlar intizomi (point-in-time, Feature Store), komplayens va MLOps-da ularning kombinatsiyasi (semi/self-supervised, active learning) iGaming platformasiga Net Revenue-ning barqaror o’sishini, frodning kamayishini va o’z vaqtida RG intervensiyalarini beradi takror ko’paytirish, qiymatni nazorat qilish va auditga tayyorlik.

O’qituvchi bilan va o’qitmasdan o’qitish

Unsupervised

O’qituvchisiz

Biz bilan bog‘laning

Tez aloqa

Video tez orada yangilanadi

Hozir loyihalar bilan juda bandmiz