Зниження розмірності

1) Навіщо iGaming-платформі зменшувати розмірність

Швидкість і стійкість ML: менше ознак → швидше fit/serve, нижче ризик перенавчання.
Візуалізація: 2D/3D-проекції для виявлення сегментів, дрейфу і аномалій.
Шум → сигнал: узагальнені фактори (поведінкові/платіжні) стійкіші до викидів.
Вартість: менше фіч в онлайні → дешевше зберігати/транспортувати/скорити.
Приватність: заміна вихідних чутливих ознак агрегованими факторами.

2) «Відбір» vs «Побудова» ознак

Відбір (feature selection): фільтри/обгортки/ваги моделі - зберігаємо підмножину вихідних фіч.
Побудова (feature extraction): обчислюємо нові фактори (проекції/ембеддинги).
Комбінуємо: спочатку базовий відбір (leakage, константи, взаємна інформація), потім - побудова факторів.

3) Методи: коротка карта

3. 1 Лінійні

PCA / SVD: ортогональні компоненти, максимізують пояснену дисперсію. Швидко, інтерпретовано (loadings).
Factor Analysis (FA): латентні фактори + специфічні помилки; хороша для поведінкових «шкал».
NMF: невід'ємні адитивні частини («теми «/« мотиви »платежів/ігор); інтерпретовано при ≥0.

3. 2 Нелінійні

t-SNE: локальна структура і кластера на 2D/3D; тільки для візуалізації (не для сервінгу).
UMAP: зберігає локальну + частину глобальної структури, швидше t-SNE; підходить для препроцесингу кластеризації.
Autoencoders (AE/VAE): навчаємо кодувальник → латентний вектор; можна онлайн/інкрементально.
Isomap/LE: рідше в проді (дороги і примхливі).

3. 3 Категоріальні/змішані

Ембеддинги категорій (гра/провайдер/канал/пристрій) + PCA/UMAP над ембеддинг-матрицею.
Відстань Гауера → MDS/UMAP для змішаних типів.

4) Пайплайн (еталон)

1. Data hygiene: маски PII, токенізація, заповнення пропусків, winsorizing хвостів.
2. Скейлінг: Standard/Robust scaler; для лічильників - лог-трансформ.
3. Відбір: remove near-zero variance, corr>0. 95 (leave-one), mutual info.
4. Метод зниження: PCA/UMAP/AE; фіксуємо random seed і конфіг.
5. Оцінка: метрики (нижче), стабільність, візуалізації.
6. Serve: серіалізуємо трансформ (ONNX/PMML/склад registry), time-travel для перепроекцій.
7. Моніторинг: дрейф латентних факторів, PSI, kNN-topology збереження.

5) Метрики якості

Explained Variance (PCA): вибираємо k з порогом (наприклад, 90-95%).
Reconstruction error (AE/NMF): MSE/Poisson, SSIM для зображень (якщо CV).
Trustworthiness / Continuity (UMAP/t-SNE): від 0 до 1 - наскільки зберігаються локальні сусіди.
kNN-preservation: частка спільних сусідів до/після проекції.
Downstream-impact: якість кластеризації/класифікації після трансформу (F1/AUC, silhouette).
Стабільність: Rand/NMI між перезапусками, чутливість до seed/hyperparams.

6) Практичні рецепти за завданнями

6. 1 Кластеризація гравців

UMAP → HDBSCAN: добре розкриває сегменти «live/social», «bonus-hunters», «crash-risk».
PCA-baseline для швидкої інтерпретації (loadings показують «ставки/хв», «волатильність», «вечірній патерн»).

6. 2 Антифрод і платежі

NMF на матриці (гравець × метод оплати) виявляє «мотиви» маршрутів; потім k-means/GMM.
AE на поведінці депозитів/висновків - латентний вектор в модель аномалій (IForest/OC-SVM).

6. 3 Рекомендаційні системи

SVD/ALS-ембеддинги (igrok↔igra/provayder) + PCA/UMAP для фільтрації шуму і скорингу схожості.

6. 4 Тексти/відгуки

Sentence-ембеддинги → UMAP: візуалізація тем і сплесків негативу (див. «Сентимент-аналіз»).
NMF на TF-IDF: інтерпретовані «теми» скарг (висновки, KYC, лаги).

7) Онлайн, інкрементальність і дрейф

IncrementalPCA / Streaming AE: оновлюємо компоненти без повного перенавчання.
Warm-start UMAP: оновлення на нових батчах (обережно зі спотворенням глобіки).
Дрейф: моніторимо PSI/KC за факторами, drift топології kNN; пороги → canary/rollback.
Версіонування: `projection@MAJOR. MINOR. PATCH`; MAJOR - непорівнянно, тримати dual-serve.

8) Приватність і комплаєнс

Zero-PII на вході; знижені фактори зберігаються окремо від вихідних.
k-анонімність вітрин (мінімум N об'єктів на зріз).
Диференц. приватність (опціонально) в PCA/AE: шум у градієнтах/координатах.
DSAR: можливість вичистити внесок суб'єкта (видалити рядки, перерахувати фактори при наступному батчі).

9) Інтерпретація факторів

Loadings (PCA/FA): топ-фічі компоненти → людино-читабельні назви («інтенсивність ставок», «нічна активність», «чутливість до бонусів»).
NMF-частини: набори фіч з позитивними вагами → «мотив платежів/ігор».
AE: лінійна апроксимація навколо точки (Jacobian) + surrogate-модель для локальної пояснюваності.

10) Інтеграції

Кластеризація: UMAP/PCA-простір → HDBSCAN/k-means.
Аномалії: AE-реконструкція/Latent distance → алерти.
Рекомендації: компактні ембеддинги для схожості і ANN-пошуку.
API аналітики: віддаємо агрегати і фактори замість «сирих» чутливих фіч.

11) Шаблони (готово до використання)

11. 1 Конфіг PCA

yaml projection:
method: "pca"
n_components: "auto_0. 95" # cumulative variance ≥95%
scaler: "robust"
random_state: 42 serve:
format: "onnx"
p95_latency_ms: 5 monitoring:
drift_psi_max: 0. 2 privacy:
pii_in: false

11. 2 Конфіг UMAP→HDBSCAN

yaml umap:
n_neighbors: 30 min_dist: 0. 05 metric: "cosine"
random_state: 42 cluster:
method: "hdbscan"
min_cluster_size: 120 min_samples: 15 evaluate:
metrics: ["silhouette","trustworthiness","knn_preservation"]

11. 3 AE (серверинг)

yaml autoencoder:
encoder: [256,128,64]
latent_dim: 16 activation: "gelu"
dropout: 0. 1 optimizer: "adamw"
loss: "mse"
early_stop_patience: 10 serve:
route: "light    heavy" # router by latent complexity cache_embeddings: true

11. 4 Паспорт проекції (BI)

yaml version: "proj_pca_1. 3. 0"
explained_variance_cum: 0. 932 top_components:
- id: pc1, name: "rate intensity," top_features: ["bets _ per _ min, ""volatility,"" session _ len"]
- id: pc2, name: "night activity," top_features: ["evening _ share, ""dow _ weekend,"" live _ share"]
usage:
downstream: ["clusters_v4","fraud_iforest_v2","reco_ann_v3"]

12) Дорожня карта впровадження

0-30 днів (MVP)

1. Гігієна фіч (скейлінг, пропуски, кореляції), Zero-PII.
2. PCA з порогом 95% дисперсії; візуалізація 2D UMAP для аналізу сегментів.
3. Метрики: explained variance, trustworthiness, downstream uplift.
4. Реєстрація трансформу в registry; дашборд дрейфу факторів.

30-90 днів

1. AE для платежів/поведінки; NMF для тем відгуків.
2. Інкрементальні апдейти (IncrementalPCA/AE); canary при зміні версії.
3. Інтеграція з кластеризацією/антифродом/рекомендувачем; алерти kNN-topology drift.

3-6 місяців

1. Гео-/тенант-специфічні проекції; budget-aware сервінг (INT8/FP16).
2. Звіти інтерпретації факторів для продуктових команд.
3. DP-варіанти для регуляторно чутливих ринків.

13) Анти-патерни

Використовувати t-SNE для прод-сервінгу (нестабільний і непорівнянний між запусками).
Змішувати PII з факторами; логувати вихідні фічі без масок.
Ігнорувати скейлінг/пропуски → «фальшиві» компоненти.
Вибирати k «на око» без кривої дисперсії/метрик і downstream-валідації.
Пересобирати проекцію без версіонування і dual-serve → «зламані» моделі вгору по ланцюжку.
Трактувати UMAP-картинку як «ground truth» без перевірки стабільності.

14) RACI

Data Platform (R): пайплайни, registry, моніторинг дрейфу.
Data Science (R): вибір/налаштування методів, інтерпретація факторів.
Product/CRM (A): використання факторів в сегментації/оферах.
Risk/RG (C): правила використання факторів, захист від «агресивного» таргетингу.
Security/DPO (A/R): приватність, k-анонімність, DSAR.

15) Пов'язані розділи

Кластеризація даних, Рекомендаційні системи, Аналіз аномалій і кореляцій, Сентимент-аналіз відгуків, NLP і обробка текстів, DataOps-практики, MLOps: експлуатація моделей, Етика даних і прозорість.

Підсумок

Зниження розмірності - це інструмент виробничого ML, а не тільки «красиві хмари точок»: сувора гігієна фіч, метрики збереження структури, стабільні і версіоновані трансформації. У iGaming такі проекції прискорюють навчання і сервінг, покращують сегментацію і виявлення аномалій, економлять бюджет і допомагають дотримуватися приватності.

Зниження розмірності

Підсумок

Зв’яжіться з нами

Швидкий зв’язок

Відео скоро буде оновлено

Зараз ми дуже завантажені проєктами