Кластеризація даних
1) Навіщо кластеризація iGaming-платформі
Персоналізація без міток: групуємо гравців по поведінці, щоб таргетувати оффери, ліміти, UX.
Операції та ризик: виявляємо «тонкі файли», нетипові платіжні патерни, кластери фроду.
Продукт і контент: сегменти за улюбленими провайдерами/механіками (crash/slots/live), життєвими циклами.
Аналітика та стратегічні інсайти: як змінюється мікс сегментів по ринках/кампаніях/сезонах.
2) Дані та ознаковий простір
2. 1 Джерела
Ігрова поведінка: частота/довжина сесій, ставки/хв, волатильність, улюблені жанри/провайдери.
Платежі: частота/суми депозитів/висновків, методи (Papara/PIX/карта), chargeback/відхилення.
Маркетинг/CRM: канали залучення, реакція на бонуси/квести, пуш-відгуки.
Пристрої/платформи: OS, версія, стабільність клієнта, тип мережі.
RG/комплаєнс: прапори самовиключення, ліміти, звернення в саппорт (без PII).
2. 2 Інжиніринг фіч
Агрегати по вікнах: 7/28/90 днів; нормуємо «на активний день».
Стандартизація/робаст-скейлінг: z-score/robust-scaler (IQR), лог-скейл для «довгих хвостів».
Категорії → ембеддинги/one-hot: провайдери/канали/країни.
Редукція розмірності: PCA/UMAP для шуму і візуалізації, але зберігати «сирий» вектор для інтерпретації.
Zero-PII: токени замість ідентифікаторів, забороняємо особисті поля.
3) Алгоритми і коли їх брати
k-means/Mini-Batch k-means - швидкий baseline для великих даних; припущення сферичності.
GMM - м'яка приналежність (probabilities), корисно для «прикордонних» гравців.
DBSCAN/HDBSCAN - знаходить кластери довільної форми і «шум» (аномалії); чутливий до'eps'.
Ієрархічна (Ward/average) - дендрограми для «дерева» сегментів, добре при середньому N.
Спектральна - для несферичних кластерів; дорога на великих N.
SOM (карти Кохонена) - інтерпретовані 2D-карти поведінкових патернів.
Змішані типи (mixed data): k-prototypes, k-modes, відстань Гауера.
Підказка: почніть з Mini-Batch k-means (швидкість) + HDBSCAN (шум/аномалії) і порівняйте стабільність.
4) Як вибрати k і оцінити якість
Внутрішні метрики: Silhouette (чим вище, тим краще), Davies-Bouldin (нижче - краще), Calinski-Harabasz.
Стабільність: повторна кластеризація на бутстреп-семплах, Rand Index/NMI між розбиттями.
Зовнішня валідність: відмінність KPI (GGR/NET, утримання, конверсія офферів, FPR) між кластерами.
Бізнес-інтерпретація: у кластерів повинні бути зрозумілі профілі і дії. Якщо ні - перевизначити фічі/масштаб/алгоритм.
5) Профілі та пояснюваність
Профіль кластера: медіани/квантилі фіч, топ-ігри/провайдери, пристрої, платіжні методи, канали.
Різниця з популяцією: Δ в p-пунктах/ σ, візуалізація «радаром».
Local explainers: SHAP/Permutation importance для кордонів між кластерами (через навчений класифікатор "cluster_id").
Називаємо кластери: «High-rollers crash», «Bonus-hunters slots», «Casual weekend live».
6) Експлуатація (online/offline)
Offline-кластеризація раз на день/тиждень → видання «паспортів» сегментів.
Online-присвоєння: найближчий центр (k-means), ймовірності (GMM), «шум» (HDBSCAN) → fallback правила.
Дрейф: моніторимо PSI/KC за ключовими фічами, міграції між кластерами, частоти «шуму».
Життєвий цикл: ревізія кожні 1-3 місяці; MAJOR при зміні фіч/нормувань.
7) Інтеграції та дії
Персоналізація: оффери/ліміти частоти, підбір провайдерів і турнірних механік.
CRM/канали: частоти гармат/емейлів, вікна часу, мова/тональність.
Маркетинг: бюджет за сегментами, креативи, LTV-прогноз; «nudge» vs «value» стратегії.
RG/ризик: м'які інтервенції для ризик-кластера, «ручний» огляд для аномалій.
Антифрод: кластери нетипових платіжних шляхів/девайсів → підвищений скоринг.
8) Приватність і комплаєнс
k-анонімність звітів (мінімум N об'єктів на зріз).
Zero-PII у фічах/логах/дашбордах, токенізація; DSAR-видалення по токену.
Geo/tenant-ізоляція: навчати/зберігати сегменти в регіоні ліцензії.
Fairness-чек: перевіряємо відмінності за чутливими вимірами (країна/метод оплати/пристрій).
Використання: заборонені «агресивні» оффери для RG-кластера (політики).
9) Метрики успіху
Операційні: частка онлайн-атрибуцій <X мс, стабільність центрів, міграції/недоатрибуції.
Бізнес: uplift конверсії оферів, ARPPU/LTV за сегментами, зниження FPR антифроду, швидкість реакції RG.
Якість моделі: silhouette ↑, DB ↓, stability ↑, відмінність KPI між кластерами.
10) Пайплайн (еталон)
Bronze → Silver → Gold → Serve
1. Ingest подій/платежів/пристроїв → чистка/джойни.
2. Feature Store: розрахунок вітрин (7/28/90d), стандартизація, маски/токени.
3. Dim-reduction (PCA/UMAP) для візуалізацій (не для сервінгу).
4. Clustering (offline), оцінка метрик, генерація «паспортів».
5. Online assignment API: найближчий центр/ймовірності/» шум».
6. Monitoring: дрейф, міграції, частота «шумів», KPI за сегментами.
7. Release: semver, shadow/canary, rollback; каталог сегментів в BI.
11) Приклади сегментів (iGaming)
Bonus-hunters slots: висока частка фріспінів/кешбек, короткі сесії, багато відмов виведення - м'які ліміти промо, прозорі умови.
Crash-risk takers: короткі інтенсивні сесії, швидке нарощування ставок - ліміти частоти/охолодження.
Live-social: довгі вечірні сесії на live, високий CTR на social-кампанії - курація стрімів і лайв-івентів.
Thin-file newcomers: 1-2 депозити, мало раундів - вітальні туріали, підтримка KYC.
Anomaly-payments: часта зміна гаманців/методів, гео-стрибки - посилений антифрод.
12) Шаблони артефактів
12. 1 Каталог сегментів (фрагмент)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 Політика сервінгу
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 Паспорт кластера (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Дорожня карта впровадження
0-30 днів (MVP)
1. Зберіть вітрини (7/28/90d), стандартизуйте, виріжте PII.
2. Mini-Batch k-means на 5-9 кластерів + базова HDBSCAN для «шуму».
3. Паспорт кластерів, онлайн-assigner, дашборд міграцій/дрейфу.
4. Два product-експерименти: оффери по сегменту і частота пушей.
30-90 днів
1. GMM для soft-приладдя; змішані типи (k-prototypes).
2. Авто-перезбірка раз на N днів, shadow → canary; alert на PSI/міграції.
3. Інтерпретованість (SHAP-карти), BI-каталог сегментів і API для CRM/рекомендувача.
3-6 місяців
1. Гео/тенант-специфічні сегменти; об'єднання з графом пристроїв/платежів.
2. Довгострокові когорти + перехідні матриці (Markov) для LTV-планування.
3. Політики RG/AML на рівні сегментів; зовнішній аудит приватності/етики.
14) Анти-патерни
Вибір k «на око» і оцінка тільки silhouette без бізнес-перевірок.
Змішування PII і поведінкових фіч; відсутність k-анонімності у звітах.
Немає онлайн-assigner'a → сегменти «висять» в BI без дії.
Перенавчання під сезон/акцію; відсутність моніторингу міграцій.
Використання кластерів для «агресивного» маркетингу без RG-гард-правил.
Один набір сегментів для всіх країн/брендів без локальних особливостей.
15) RACI
Data Platform (R): вітрини фіч, пайплайн, моніторинг, реєстр версій.
Data Science (R): вибір алгоритму, k/метрики, інтерпретація.
Product/CRM (A): дії за сегментами, експерименти.
Risk/RG (C): політики обмежень і HITL для «важких» сегментів.
Security/DPO (A/R): приватність, токенізація, k-анонімність.
BI (C): дашборди, каталоги, документація.
16) Пов'язані розділи
Сегментований таргетинг, Рекомендаційні системи, Профілювання гравців, Зниження упередженості, Бенчмаркінг продуктивності, API аналітики і метрик, MLOps: експлуатація моделей, Етика даних і прозорість.
Підсумок
Кластеризація - це не просто графік UMAP, а виробничий інструмент: чисті фічі без PII, стійкі метрики і зрозумілі «паспорти» сегментів, online-assigner і дії в CRM/продукті/RG. При регулярній ревізії і моніторингу дрейфу вона перетворює «хаос поведінки» в керовані стратегії зростання, безпеки і відповідальності.