Ölçünün azaldılması
1) Niyə iGaming platforması ölçüsünü azaltır
ML sürəti və davamlılığı: daha az əlamətlər → daha sürətli fit/serve, aşağı yenidən təlim riski.
Vizualizasiya: seqmentlərin, sürüklənmə və anomaliyaların aşkarlanması üçün 2D/3D proyeksiyalar.
Səs → siqnal: ümumiləşdirilmiş amillər (davranış/ödəniş) emissiyalara daha davamlıdır.
Qiymət: online → daha ucuz saxlamaq/daşımaq/sürət.
Privacy: ilkin həssas əlamətləri yığılmış amillərlə əvəz etmək.
2) «Seçim» vs «Quruluş» əlamətləri
Seçmə (feature selection): filtrələr/sarğılar/modelin çəkisi - orijinal fiqurların alt çoxluğunu saxlayın.
Quruluş (feature extraction): yeni amilləri hesablayın (proyeksiyalar/embeddingi).
Birləşdiririk: əvvəlcə əsas seçim (leakage, sabitlər, qarşılıqlı məlumat), sonra - amillərin qurulması.
3) Metodlar: qısa xəritə
3. 1 Xətti
PCA/SVD: ortoqonal komponentlər, izah edilmiş dispersiyanı maksimuma çatdırır. Tez, şərh (loadings).
Factor Analysis (FA): gizli amillər + spesifik səhvlər; davranış «şkalaları» üçün yaxşıdır.
NMF: mənfi olmayan əlavə hissələr («mövzular «/« motivlər »ödənişlər/oyunlar); 0 ≥ ilə şərh olunur.
3. 2 Qeyri-xətti
t-SNE: 2D/3D lokal strukturu və klasteri; yalnız vizualizasiya üçün (serving üçün deyil).
UMAP: qlobal strukturun yerli + hissəsini saxlayır, t-SNE-dən daha sürətli; processing klasterization üçün uygundur.
Autoencoders (AE/VAE): kodlayıcı → gizli vektoru öyrətmək; online/daxil ola bilər.
Isomap/LE: nadir hallarda (yollar və şıltaqlıqlar).
3. 3 Kateqoriya/qarışıq
Kateqoriya embeddingi (oyun/provayder/kanal/cihaz) + PCA/UMAP embeddinq matrisi üzərində.
Gauer → MDS/UMAP qarışıq növləri üçün məsafə.
4) Pipline (etalon)
1. Data hygiene: maskalar PII, tokenization, boşluqları doldurma, quyruqları winsorizing.
2. Skeylinq: Standard/Robust scaler; sayğaclar üçün - log-transform.
3. Seçimi: remove near-zero variance, corr> 0. 95 (leave-one), mutual info.
4. Azaltma metodu: PCA/UMAP/AE; random seed və qeyd.
5. Qiymətləndirmə: metriklər (aşağıda), sabitlik, vizuallaşdırma.
6. Serve: transformatları seriallaşdırmaq (ONNX/PMML/depo registry), təkrar layihələr üçün time-travel.
7. Monitorinq: gizli faktorların sürüklənməsi, PSI, kNN-topologiya təhlükəsizliyi.
5) Keyfiyyət metrikası
Explained Variance (PCA): eşik ilə k seçin (məsələn, 90-95%).
Reconstruction error (AE/NMF): MSE/Poisson, şəkillər üçün SSIM (əgər CV).
Trustworthiness/Continuity (UMAP/t-SNE): 0-dan 1-ə qədər - yerli qonşular nə qədər qorunur.
kNN-preservation: proyeksiyadan əvvəl/sonra ümumi qonşuların payı.
Downstream-impact: transform (F1/AUC, silhouette) sonra classification/klassifikasiya keyfiyyəti.
Sabitlik: Yenidən başlamalar arasında Rand/NMI, seed/hyperparams həssaslığı.
6) Tapşırıqlar üzrə praktiki reseptlər
6. 1 Oyunçuların klasterləşdirilməsi
UMAP → HDBSCAN: «canlı/sosial», «bonus-hunters», «crash-risk» seqmentlərini yaxşı açır.
Sürətli şərh üçün PCA-baseline (yükləmə «dərəcələri/dəq», «dəyişkənlik», «axşam nümunəsi»).
6. 2 Antifrod və ödənişlər
Matrisdəki NMF (oyunçu × ödəniş metodu) marşrutların «motivlərini» aşkar edir; sonra k-means/GMM.
Depozitlərin davranışında AE - anomaliyalar modelinə gizli vektor (IForest/OC-SVM).
6. 3 Tövsiyə sistemləri
SVD/ALS embeddingi (oyunçu oyun/provayder) + PCA/UMAP səs-küy filtrasiya və oxşar skoring üçün.
6. 4 Mətnlər/rəylər
Sentence-embeddingi → UMAP: mövzuların və mənfi sıçrayışların vizuallaşdırılması (bax: «Sentiment-analiz»).
TF-IDF NMF: şərh «mövzular» şikayətlər (nəticələr, KYC, lag).
7) Online, incrementality və drift
IncrementalPCA/Streaming AE: Tam təlim olmadan komponentləri yeniləyirik.
Warm-start UMAP: yeni batches yeniləmə (qlobik təhrif diqqətlə).
Drift: faktorlara görə PSI/KC monitorinq, kNN topologiyası drift; → canary/rollback eşik.
Versiyası: 'projection @MAJOR. MINOR. PATCH`; MAJOR - müqayisə olunmaz, dual-serve saxlamaq.
8) Gizlilik və uyğunluq
giriş Zero-PII; azaldılmış amillər mənbələrdən ayrı saxlanılır.
vitrinlərin k-anonimliyi (kəsik başına minimum N obyekt).
Differens. PCA/AE-də gizlilik (isteğe bağlı): qradiyentlərdə/koordinatlarda səs-küy.
DSAR: subyektin töhfəsini təmizləmək imkanı (sətirləri silmək, növbəti batçedə faktorları saymaq).
9) Faktorların şərhi
Loadings (PCA/FA): top-fici komponentləri → insan-oxunaqlı adlar («bahis intensivliyi», «gecə fəaliyyəti», «bonuslara həssaslıq»).
NMF-hissələri: müsbət çəki ilə fich dəsti → «ödəniş/oyun motivi».
AE: nöqtə ətrafında xətti yaxınlaşma (Jacobian) + yerli izahlılıq üçün surrogate model.
10) İnteqrasiya
Clusterization: UMAP/PCA-space → HDBSCAN/k-means.
Anomaliyalar: AE-yenidənqurma/Latent distance → alertlər.
Tövsiyələr: oxşarlıq və ANN axtarışı üçün kompakt embeddinq.
API analitikləri: «xam» həssas xüsusiyyətlər əvəzinə aqreqatlar və amillər veririk.
11) Şablonlar (istifadəyə hazır)
11. 1 PCA
yaml projection:
method: "pca"
n_components: "auto_0. 95" # cumulative variance ≥95%
scaler: "robust"
random_state: 42 serve:
format: "onnx"
p95_latency_ms: 5 monitoring:
drift_psi_max: 0. 2 privacy:
pii_in: false
11. 2 UMAP → HDBSCAN
yaml umap:
n_neighbors: 30 min_dist: 0. 05 metric: "cosine"
random_state: 42 cluster:
method: "hdbscan"
min_cluster_size: 120 min_samples: 15 evaluate:
metrics: ["silhouette","trustworthiness","knn_preservation"]
11. 3 AE (server)
yaml autoencoder:
encoder: [256,128,64]
latent_dim: 16 activation: "gelu"
dropout: 0. 1 optimizer: "adamw"
loss: "mse"
early_stop_patience: 10 serve:
route: "light heavy" # router by latent complexity cache_embeddings: true
11. 4 Proyeksiya pasportu (BI)
yaml version: "proj_pca_1. 3. 0"
explained_variance_cum: 0. 932 top_components:
- id: pc1, name: "rate intensity," top_features: ["bets _ per _ min, ""volatility,"" session _ len"]
- id: pc2, name: "night activity," top_features: ["evening _ share, ""dow _ weekend,"" live _ share"]
usage:
downstream: ["clusters_v4","fraud_iforest_v2","reco_ann_v3"]
12) Tətbiqi yol xəritəsi
0-30 gün (MVP)
1. Gigiyena fich (skeylinq, qaçırma, korrelyasiya), Zero-PII.
2. 95% dispersiya həddi ilə PCA; seqmentlərin təhlili üçün 2D UMAP vizualizasiyası.
3. Метрики: explained variance, trustworthiness, downstream uplift.
4. registry transformasının qeydiyyatı; dashboard drift amillər.
30-90 gün
1. AE ödənişlər/davranış üçün; Mövzu rəyləri üçün NMF.
2. İnkremental yeniləmələr (IncrementalPCA/AE); canary versiyasını dəyişdirərkən.
3. Klaster/antifrod/tövsiyəçi ilə inteqrasiya; kNN-topologiya drift alertləri.
3-6 ay
1. Geo-/tenant spesifik proyeksiyalar; budget-aware serving (INT8/FP16).
2. Qida komandaları üçün faktorların şərh hesabatları.
3. tənzimləyici həssas bazarlar üçün DP variantları.
13) Anti-nümunələr
Proto-servinq üçün t-SNE istifadə edin (stabil və başlanğıc arasında müqayisə edilə bilməz).
PII amillərlə qarışdırın; maskasız orijinal fiçləri loqo.
Skeylinqə məhəl qoymayın → «saxta» komponentlər.
dispersiya/metrik əyrisi və downstream-validasiya olmadan k «göz» seçin.
Versiyalaşdırma və dual-serve → «sınıq» modelləri olmadan proyeksiyanı yenidən yığın.
UMAP şəklini sabitliyi yoxlamadan «ground truth» kimi şərh edin.
14) RACI
Data Platform (R): paylaynlar, registry, drift monitorinqi.
Data Science (R): metodların seçilməsi/konfiqurasiyası, faktorların şərhi.
Product/CRM (A): seqmentasiya/offerlərdə amillərin istifadəsi.
Risk/RG (C): faktorlardan istifadə qaydaları, «aqressiv» hədəfləmədən qorunma.
Security/DPO (A/R): gizlilik, k-anonimlik, DSAR.
15) Əlaqəli bölmələr
Məlumatların klasterləşdirilməsi, Tövsiyə sistemləri, Anomaliyalar və korrelyasiyaların təhlili, Sentiment analizi, NLP və mətn emalı, DataOps təcrübələri, MLOps: modellərin istismarı, Məlumatların etikası və şəffaflığı.
Yekun
Ölçünün azaldılması yalnız «gözəl bulud nöqtələri» deyil, istehsal ML alətidir: ciddi gigiyena fich, strukturun saxlanması metrikləri, sabit və versiyalaşdırıla bilən transformasiyalar. iGaming-də bu cür proyeksiyalar təlim və servinqi sürətləndirir, seqmentləşdirmə və anomaliyaların aşkarlanmasını yaxşılaşdırır, büdcəyə qənaət edir və məxfiliyə riayət etməyə kömək edir.