Boyutsallık azaltma
1) Neden iGaming platformu boyutu azaltmalı?
ML hızı ve stabilitesi: daha az işaret - daha hızlı uyum/servis, daha düşük yeniden eğitim riski.
Görselleştirme: Segmentleri, sürüklenmeleri ve anomalileri tespit etmek için 2D/3D projeksiyonlar.
Gürültü sinyali: Genelleştirilmiş faktörler (davranışsal/ödeme) emisyonlara karşı daha dirençlidir.
Maliyet: Daha az çevrimiçi özellik - saklamak/taşımak/hızlandırmak için daha ucuz.
Gizlilik: Orijinal hassas özelliklerin toplu faktörlerle değiştirilmesi.
2) "Seçim" vs işaretlerin "İnşaat"
Özellik seçimi: filtreler/sarmalayıcılar/model ağırlıkları - orijinal özelliklerin bir alt kümesini kaydedin.
Özellik çıkarma-Yeni faktörleri (projeksiyonlar/gömmeler) hesaplayın.
Birleştirmek: ilk, temel seçim (sızıntı, sabitler, karşılıklı bilgi), sonra - faktörlerin yapımı.
3) Yöntemler: kısa harita
3. 1 Doğrusal
PCA/SVD: ortogonal bileşenler, açıklanan varyansı en üst düzeye çıkarın. Hızlı, yorumlanabilir (yükleme).
Faktör Analizi (FA): gizli faktörler + spesifik hatalar; Davranışsal "ölçekler" için iyidir.
NMF: negatif olmayan ek parçalar (ödemelerin/oyunların "temaları "/" motifleri "); ≥0 zaman yorumlanır.
3. 2 Doğrusal olmayan
T-SNE: 2D/3D olarak yerel yapı ve kümeler; Yalnızca render (hizmet değil).
UMAP: küresel yapının yerel + kısmını t-SNE'den daha hızlı korur; Küme ön işlemesi için uygundur.
Otomatik kodlayıcılar (AE/VAE): Kodlayıcıyı eğitiyoruz - gizli bir vektör; Online/artımlı olabilir.
İzomap/LE: proda'da daha az yaygındır (pahalı ve kaprisli).
3. 3 Kategorik/karışık
Kategori gömme (oyun/sağlayıcı/kanal/cihaz) + gömme matrisi üzerinden PCA/UMAP.
Gower mesafesi - Karışık tipler için MDS/UMAP.
4) Boru hattı (referans)
1. Veri hijyeni: PII maskeleri, tokenizasyon, boşlukları doldurma, kuyrukları winsorizing.
2. Ölçekleme: Standart/Sağlam ölçekleyici; Sayaçlar için - günlük dönüşümleri.
3. Sıfıra yakın varyansı kaldır, corr> 0. 95 (leave-one), karşılıklı bilgi.
4. Azaltma yöntemi: PCA/UMAP/AE; rastgele tohum ve yapılandırma düzeltmek.
5. Derecelendirme: metrikler (aşağıda), kararlılık, görselleştirmeler.
6. Serileştirme dönüşümleri (ONNX/PMML/registry warehouse), yeniden projeksiyonlar için zaman yolculuğu.
7. İzleme: gizli faktör sürüklenmesi, PSI, kNN-topoloji koruması.
5) Kalite metrikleri
Açıklanmış Varyans (PCA): Eşik değeri olan k değerini seçin (örneğin, %90-95).
Rekonstrüksiyon hatası (AE/NMF): MSE/Poisson, görüntüler için SSIM (CV ise).
Güvenilirlik/Süreklilik (UMAP/t-SNE): 0'dan 1'e - yerel komşuların nasıl korunduğu.
kNN-koruma: ortak projeksiyon öncesi/sonrası komşuların oranı.
Aşağı akış etkisi: dönüşüm sonrası kümeleme/sınıflandırma kalitesi (F1/AUC, siluet).
Kararlılık: Yeniden başlatmalar arasında Rand/NMI, tohum/hiperparam duyarlılığı.
6) Görevler için pratik tarifler
6. 1 Oyuncu kümeleme
UMAP - HDBSCAN: "canlı/sosyal", "bonus avcıları", "çarpışma riski" segmentlerini ortaya koyuyor.
Hızlı yorumlama için PCA-baseline (yüklemeler "oranlar/dak", "volatilite", "akşam modeli" gösterir).
6. 2 Antifraud ve ödemeler
Matris üzerindeki NMF (oyuncu × ödeme yöntemi), rotaların "motiflerini" ortaya çıkarır; Sonra k-means/GMM.
Para yatırma/çekme davranışında AE - anomali modeline gizli vektör (IForest/OC-SVM).
6. 3 Öneri sistemleri
Gürültü filtreleme ve benzerlik puanlaması için SVD/ALS gömmeleri (igrok↔igra/provayder) + PCA/UMAP.
6. 4 Metinler/yorumlar
Cümle gömme - UMAP: temaların görselleştirilmesi ve olumsuzluk patlamaları (bakınız Duygu analizi).
TF-IDF'de NMF: yorumlanabilir şikayet "temaları" (sonuçlar, KYC, gecikmeler).
7) Çevrimiçi, artıcılık ve sürüklenme
Artımlı PCA/Akış AE: Bileşenleri tamamen yeniden eğitmeden güncelleyin.
Sıcak başlangıç UMAP: yeni partiler üzerinde güncelleme (globics bozulma ile dikkatli).
Sürüklenme: PSI/KC'yi faktörlere göre izleme, sürüklenme topolojisi kNN; eşikler - kanarya/geri alma.
Sürüm oluşturma: 'projection @ MAJOR. MINÖR. YAMA '; MAJOR - eşsiz, çift servisli tutun.
8) Gizlilik ve uyumluluk
Sıfır PII girişi; Azaltılmış faktörler kaynaktan ayrı olarak depolanır.
Mağaza pencerelerinin k-anonimliği (dilim başına en az N nesne).
Farklı. Gizlilik (isteğe bağlı) PCA/AE'de: degradelerde/koordinatlarda gürültü.
DSAR: Konunun katkısını temizleme yeteneği (satırları silmek, bir sonraki partideki faktörleri yeniden hesaplamak).
9) Faktörlerin yorumlanması
Yükleme (PCA/FA): En iyi özellikler - insan tarafından okunabilir isimler ("bahis yoğunluğu", "gece aktivitesi", "bonus hassasiyeti").
NMF parçaları: pozitif ağırlıklara sahip özellik setleri - "ödemelerin/oyunların nedeni".
AE: Yerel açıklanabilirlik için bir nokta (Jacobian) + vekil model etrafında doğrusal yaklaşım.
10) Entegrasyonlar
Kümeleme: UMAP/PCA alanı - HDBSCAN/k-means.
Anomaliler: AE-rekonstrüksiyon/Gizli mesafe - uyarılar.
Öneriler: Benzerlik ve ANN araması için kompakt gömmeler.
API analitiği: "ham" hassas özellikler yerine toplamlar ve faktörler veriyoruz.
11) Şablonlar (kullanıma hazır)
11. 1 Yapılandırma PCA
yaml projection:
method: "pca"
n_components: "auto_0. 95" # cumulative variance ≥95%
scaler: "robust"
random_state: 42 serve:
format: "onnx"
p95_latency_ms: 5 monitoring:
drift_psi_max: 0. 2 privacy:
pii_in: false
11. 2 Yapılandırma UMAP - HDBSCAN
yaml umap:
n_neighbors: 30 min_dist: 0. 05 metric: "cosine"
random_state: 42 cluster:
method: "hdbscan"
min_cluster_size: 120 min_samples: 15 evaluate:
metrics: ["silhouette","trustworthiness","knn_preservation"]
11. 3 AE (sunucu)
yaml autoencoder:
encoder: [256,128,64]
latent_dim: 16 activation: "gelu"
dropout: 0. 1 optimizer: "adamw"
loss: "mse"
early_stop_patience: 10 serve:
route: "light heavy" # router by latent complexity cache_embeddings: true
11. 4 Projeksiyon veri sayfası (BI)
yaml version: "proj_pca_1. 3. 0"
explained_variance_cum: 0. 932 top_components:
- id: pc1, name: "rate intensity," top_features: ["bets _ per _ min, ""volatility,"" session _ len"]
- id: pc2, name: "night activity," top_features: ["evening _ share, ""dow _ weekend,"" live _ share"]
usage:
downstream: ["clusters_v4","fraud_iforest_v2","reco_ann_v3"]
12) Uygulama Yol Haritası
0-30 gün (MVP)
1. Hijyen özelliği (ölçeklendirme, atlama, korelasyonlar), Sıfır PII.
2. %95 varyans eşiğine sahip PCA; Segment analizi için 2D UMAP görselleştirme.
3. Метрики: açıklanmış varyans, güvenilirlik, aşağı yönde yükselme.
4. Dönüşümün kayıt defterine kaydedilmesi; Pano sürüklenme faktörleri.
30-90 gün
1. Ödemeler/davranış için AE; Gözden geçirme konuları için NMF.
2. Artımlı güncellemeler (Artımlı PCA/AE); Versiyon değişikliğinde kanarya.
3. Kümeleme/dolandırıcılıkla mücadele/öneri ile entegrasyon; kNN-topoloji sürüklenmesini uyarır.
3-6 ay
1. Geo-/kiracıya özgü projeksiyonlar; Bütçeye uygun servis (INT8/FP16).
2. Ürün ekipleri için faktör yorumlama raporları.
3. Düzenleyici hassas piyasalar için DP çeşitleri.
13) Anti-desenler
Prod-porsiyon için t-SNE kullanın (koşular arasında dengesiz ve kıyaslanamaz).
PII'yi faktörlerle karıştırın; Maskesiz kayıt kaynağı özellikleri.
Ölçekleme/atlamayı yoksayma - "sahte" bileşenler.
Dağılım/metrik eğri ve aşağı yönlü doğrulama olmadan göze göre k'yi seçin.
Projeksiyonu sürüm oluşturma ve çift hizmet olmadan yeniden oluşturun - zincirde "kırık" modeller.
Kararlılık testi olmadan UMAP resmini "zemin gerçeği'olarak yorumlayın.
14) RACI
Veri Platformu (R): boru hatları, kayıt defteri, sürüklenme izleme.
Veri Bilimi (R): Yöntemlerin seçimi/ayarlanması, faktörlerin yorumlanması.
Ürün/CRM (A): Segmentasyon/tekliflerde faktörlerin kullanımı.
Risk/RG (C): Faktörleri kullanma kuralları, "agresif" hedeflemeye karşı koruma.
Güvenlik/DPO (A/R): gizlilik, k-anonimlik, DSAR.
15) İlgili bölümler
Veri Kümeleme, Önerici Sistemler, Anomali ve Korelasyon Analizi, Geribildirim Duyarlı Analiz, NLP ve Kelime İşleme, DataOps Uygulamaları, MLOps: Model Kullanımı, Veri Etiği ve Şeffaflık.
Toplam
Boyut azaltma, sadece "güzel nokta bulutları'değil, bir üretim ML aracıdır: sıkı özellik hijyeni, yapı koruma metrikleri, kararlı ve sürüm dönüşümleri. IGaming'de bu tür projeksiyonlar öğrenmeyi ve sörf yapmayı hızlandırır, segmentasyon ve anomali tespitini iyileştirir, bütçeden tasarruf sağlar ve gizliliğin korunmasına yardımcı olur.