Müəllimlə və müəllimsiz təhsil
1) Nə üçün və nə zaman
Müəllim ilə (Supervised): bir etiket var → ehtimal/sinif/qiymət proqnozlaşdırırıq. «Doğru cavab» başa düşüldükdə və bir hekayə olduqda istifadə edirik: churn, 7 günlük depozit, RG/AML riski, offer cavab ehtimalı, LTV proqnozu.
No müəllim (Unsupervised): heç bir etiket → tapmaq strukturları/klasterlər/anomaliyalar/gizli amillər: oyunçuların seqmentasiyası, frod ring, oyun mövzu profilləri, müəyyən provayder uğursuzluqları, sıxılma əlamətləri.
Seçim qaydası: əgər biznes həlli konkret ehtimal proqnozundan asılıdırsa → supervised; əgər məqsəd naməlum nümunələri/siqnalları açmaq və ya məlumatların ölçüsünü azaltmaqdırsa → unsupervised. Praktikada birləşir.
2) Tipik iGaming halları
Supervised
Churn/Reactivation: ikili təsnifat (get/get), təsir üçün uplift modelləri.
Depozit/alış propensiti: üfüqdə hadisə ehtimalı T.
RG/AML: risk-skor, struktur ehtimalı, şübhəli sessiya.
Anti-sui-istifadə bonusları: promo saxta istifadə ehtimalı.
Tövsiyələr (sıralama): oyun üçün klik/bahis ehtimalı (listwise/pointwise).
Unsupervised
Oyunçuların seqmentasiyası: RFM/davranış/janrlarda k-means, GMM, HDBSCAN.
Anomaliyalar: Isolation Forest, LOF, AutoEncoder ödənişlər/oyun nümunələrində.
Qrafik analiz: «oyunçu-cihaz-kart-IP» sütununda klasterləşdirmə.
Ölçünün azaldılması: Vizualizasiya və fich mühəndisliyi üçün PCA/UMAP.
Mövzu modelləri: NMF/LDL oyun təsviri/dəstək söhbətləri üçün.
3) Verilənlər və fiqurlar
data leakage istisna etmək üçün point-in-time bağlantıları.
Pəncərə işarələri: 10 dəq/1 saat/1 gün/7 gün/30 gün (recency, frequency, monetary).
Kontekst: bazar/yurisdiksiya/DST/bayramlar, provayder/janr, cihaz/ASN.
Qrafik əlamətlər: unikal kartların/IP/cihazların sayı, mərkəzləşmə.
Valyuta/saat kəmərlərinin normallaşdırılması, users/games/providers üçün SCD II.
4) Alqoritmlər və metriklər
Müəllim ilə
Alqoritmlər: LogReg, XGBoost/LightGBM/CatBoost, TabNet; sıralama üçün - LambdaMART/GBDT; müvəqqəti sıralar - Prophet/ETS/Gradient Boosted TS.
Metriklər: ROC-AUC/PR-AUC, F1 @операционный eşik, KS (risk), NDCG/MAP @K (tövsiyələr), MAPE/WAPE (proqnozlar), FP/FP tərəzi ilə genişlənmiş cost N.
Müəllimsiz
Clusterization: k-means/GMM (clusters sayı - elbow/silhouette), HDBSCAN (sıxlıq).
Anomaliyalar: Isolation Forest/LOF/AutoEncoder; metriklər - precision @k mütəxəssislərin işarələməsində, AUCPR sintetik anomaliyalarda.
Ölçüsü: PCA/UMAP fich dizayn və vizualizasiya üçün.
5) Kombinə yanaşmalar
Yarı-Supervised: müəyyən edilməmiş məlumatların bir hissəsi üçün psevdoleybllar (self-training), consistency regularization.
Self-Supervised: kontrastlı/maskalı tapşırıqlar (sessiya/oyun embeddingi) → supervised downstream istifadə.
Active Learning: Sistem nişan üçün namizədlər təklif edir (maksimum qeyri-müəyyənlik/müxtəliflik) → AML/RG mütəxəssislərinin əməyinə qənaət edir.
Weak Supervision: evristiklər/qaydalar/distant işarələr «zəif» etiketləri formalaşdırır, sonra kalibrləyirik.
6) Proses: oflayn xidmətdən onlayn xidmətə
1. Offline: toplama/hazırlıq → vaxt/bazarlar üzrə split → təlim/validasiya → backtest.
2. Metrik semantika: vahid düsturlar (məsələn, churn_30d) və sabit vaxt pəncərələri.
3. Feature Store: onlayn/offline vahid formulları; uyğunluq testləri.
4. Onlayn xidmət: gRPC/REST end-pointləri, gizli SLA, AB-routing/kanarya buraxılışları.
5. Monitorinq: data drift/proqnozlar (PSI/KL), latency p95, biznes metrik səhv, alertlər.
7) Gizlilik və uyğunluq
PII-minimallaşdırma: təxəllüs, mappinq izolyasiyası, CLS/RLS.
Residency: bölgələr üzrə ayrı-ayrı konveyerlər/şifrələmə açarları (EEA/UK/BR).
DSAR/RTBF: Fiçlər və qeydləri silmək/redaktə etmək; istisnaların hüquqi əsaslarını saxlayırıq.
Legal Hold: təhqiqat/hesabat artefaktlarının dondurulması.
Fairness: proxy-fich audit, təsir hesabatları (SHAP), RG müdaxilə siyasəti.
8) İqtisadiyyat və performans
Hesablama dəyəri fich (cost/feature) və inferens (cost/request).
Oflayn aqreqatların materiallaşdırılması; online - yalnız kritik pəncərələr.
Qısa TTL üçün icazə/skorinq nəticələrini cache, asenxron lookups ilə vaxt.
Replay/backtest üçün kvotalar və büdcələr; chargeback komandalar/modellər.
9) Nümunələr (fraqmentlər)
9. 1 Point-in-time churn_30d üçün nümunə
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Ödəniş anomaliyaları (psevdokod, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 k-means seqmentasiyası (RFM + janrları)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Binar model üçün dəyər həddi
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Qiymətləndirmə, validasiya və təcrübələr
Oflayn: temporal split (train/val/test time/market), backtesting, bootstrap inam.
Online: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-policy: fərdi siyasətlər üçün IPS/DR.
Kalibrləmə: Düzgün ehtimallar üçün Platt/Isotonic.
Deqradasiyaya nəzarət: biznes metrik və PR-AUC/KS alerti.
11) RACI
R (Responsible): Data Science (modellər/eksperimentlər), MLOps (platforma/servinq), Data Eng (fiçlər/payplaynlar).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/Secrets), SRE (SLO/dəyəri), Finance (ROI).
I (Informed): Məhsul/Marketinq/Əməliyyatlar/Dəstək.
12) Tətbiqi yol xəritəsi
MVP (4-6 həftə):1. Məqsədlər/etiketlər və siqnallar kataloqu (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 fit), XGBoost əsas modelləri, oflayn metrik dashboard.
3. k-means seqmentasiyası (8 klasterlər) + seqmentlərin təsviri; Ödənişlər üçün Isolation Forest.
4. Cache ilə onlayn xidmət, p95 <150 ms; A/B 10-20% trafik.
Faza 2 (6-12 həftə):- Active/Semi-Supervised üçün etiket çatışmazlığı (AML/RG), self-supervised oyun/seans embeddingi.
- Kanarya relizləri, sürüklənmə monitorinqi, avtomatik məşq.
- Metriklərin vahid semantik təbəqəsi və online/offline fich koordinasiyası.
- Qrafik əlamətlər və frod halqaları; uplift bonus modelləri.
- Multi-regional xidmət, kvotalar/chargeback; WORM-relizlər arxivi.
- Fairness audit, stress testləri, runbooks hadisələr.
13) Satış öncəsi yoxlama siyahısı
- Point-in-time nümunələri və testlər vs leakage.
- Ehtimal kalibrlənməsi; expected cost ilə eşik seçimi.
- Model kartları (owner, məlumatlar, metriklər, risklər, fairness).
- Feature Store: online/offline uyğunluq testi.
- Drift/gizli/səhvlərin monitorinqi, alertlər və avtomatik rollback.
- PII/DSAR/RTBF/Legal Hold siyasəti; loging anonim.
- A/B planı və statistik gücü hesablanır; runbook geri dönüş hazırdır.
14) Anti-nümunələr
Yeni hadisələrin etiketlərdə qarışdırılması (leakage) və heç bir nöqtə vaxtı.
Domen dekompozisiyası əvəzinə «hamısı üçün bir model».
Qeyri-libr ehtimalları → yanlış iş həddi.
«Kor-koranə» uçuş: online drift/keyfiyyət monitorinqi yoxdur.
Online komplikasiya (ağır external-join's cache və time olmadan).
İş şərhi və sahibi olmadan seqmentlər.
15) Yekun
Müəllim ilə təhsil ölçülebilir proqnoz və risk/gəlir idarəetmə verir; müəllimsiz - etiketlərin olmadığı yerlərdə quruluş və siqnallar. Məlumat intizamı (point-in-time, Feature Store), uyğunluq və MLOps ilə onların birləşməsi (yarı/öz-supervised, active learning) iGaming platformasına Net Revenue-də davamlı artım, azalma və vaxtında RG müdaxilələri verir təkrarlanabilirlik, dəyər nəzarəti və auditə hazırlıq.