Klastrowanie danych
1) Dlaczego klastrować platformę iGaming
Personalizacja bez tagów: grupujemy graczy według zachowania w celu ukierunkowania ofert, limitów, UX.
Operacje i ryzyko: identyfikujemy „cienkie pliki”, nietypowe schematy płatności, klastry oszustw.
Produkt i treść: segmenty na ulubionych dostawców/mechaniki (crash/slots/live), cykle życia.
Analityka i strategiczne spostrzeżenia: jak mieszanka segmentów zmienia się w zależności od rynku/kampanii/sezonu.
2) Przestrzeń danych i znaczników
2. 1 Źródła
Zachowanie gier: częstotliwość/długość sesji, zakłady/min, zmienność, ulubione gatunki/dostawcy.
Płatności: częstotliwość/kwoty wpłat/wypłat, metody (Papara/PIX/card), obciążenie zwrotne/odchylenia.
Marketing/CRM: kanały przyciągania, reakcja na bonusy/zadania, odpowiedzi push.
Urządzenia/platformy: system operacyjny, wersja, stabilność klienta, typ sieci.
RG/zgodność: flagi samodzielnego wykluczenia, limity, połączenia wsparcia (bez PII).
2. 2 Funkcja inżynierska
Kruszywa według okien: 7/28/90 dni; racjonowanie „na aktywny dzień”.
Standaryzacja/skalowanie robastów: z-score/solidne-scaler (IQR), skala dziennika dla „długich ogonów”.
Kategorie → osadzanie/one-hot: dostawcy/kanały/kraje.
Redukcja wymiaru: PCA/UMAP dla hałasu i wizualizacji, ale przechowywać „surowy” wektor do interpretacji.
Zero-PII: żetony zamiast identyfikatorów, zabraniamy osobistych pól.
3) Algorytmy i kiedy je przyjmować
k-means/Mini-Batch k-means - szybki punkt odniesienia dla dużych danych; założenie kulistości.
GMM - miękkie powiązanie (prawdopodobieństwo), przydatne dla graczy „granicznych”.
DBSCAN/HDBSCAN - znajduje klastry wolnej formy i „hałas” (anomalie); jest wrażliwy na "eps'.
Hierarchiczne (Ward/średnia) - dendrogramy dla „drzewa” segmentów, dobre średnio N.
Spectral - dla klastrów niebędących kulistymi; droga na dużym N.
SOM (mapy Kohonena) - interpretowalne mapy 2D wzorców behawioralnych.
Dane mieszane: k-prototypy, k-tryby, dystans siłownika.
Wskazówka: Zacznij od Mini-Batch k-means (prędkość) + HDBSCAN (hałas/anomalie) i porównaj stabilność.
4) Jak wybrać k i ocenić jakość
Wewnętrzne wskaźniki: Sylwetka (wyższa jest lepsza), Davies-Bouldin (niższa jest lepsza), Calinski-Harabasz.
Stabilność: ponowne zgrupowanie na próbkach bootstrap, Rand Index/NMI pomiędzy przegrodami.
Ważność zewnętrzna: rozróżnienie KPI (GGR/NET, retencja, konwersja ofert, FPR) na klastry.
Interpretacja biznesowa: klastry powinny posiadać jasne profile i działania. Jeśli nie, należy zastąpić funkcje/skala/algorytm.
5) Profile i wyjaśnienie
Profil klastra: funkcja median/quantiles, najlepsze gry/dostawcy, urządzenia, metody płatności, kanały.
Różnica w stosunku do populacji: W punktach p/wg, wizualizacja przez radar.
Lokalni tłumacze: SHAP/Znaczenie permutacji dla granic między klastrami (za pośrednictwem wyszkolonego klasyfikatora "cluster_id").
Nazywamy zgrupowania: „Katastrofa High-Rollers”, „Bonus-Hunter Slots”, „Casual Weekend Live”.
6) Obsługa (online/offline)
Klastrowanie offline raz dziennie/tydzień → publikacja „paszportów” segmentów.
Przydział online: najbliższe centrum (k-means), prawdopodobieństwo (GMM), „hałas” (HDBSCAN) → zasady awaryjne.
Drift: monitoruj PSI/KC za pomocą kluczowych funkcji, migracji między klastrami, częstotliwości „hałasu”.
Cykl życia: przegląd co 1-3 miesiące; MAJOR podczas zmiany funkcji/standardów.
7) Integracja i działania
Personalizacja: oferty/ograniczenia częstotliwości, wybór dostawców i mechanika turniejowa.
CRM/channels: fluff/email frequencies, time windows, language/tonality.
Marketing: budżet według segmentu, kreatywności, prognoza LTV; „nudge” vs „wartość” strategii.
RG/ryzyko: łagodne interwencje dla klastra ryzyka, „ręczny” przegląd anomalii.
Antyfraud: klastry nietypowych ścieżek płatności/urządzeń → zwiększone punktowanie.
8) Prywatność i zgodność
k-anonimowość raportów (minimalne obiekty N na kawałek).
Zero-PII w kartach/dziennikach/deskach rozdzielczych, tokenizacja; Usunięcie DSAR za pomocą tokenu.
Geo/lokator-izolacja: segmenty pociągów/sklepów w regionie licencji.
Kontrola uczciwości: sprawdzamy różnice za pomocą pomiarów wrażliwych (kraj/metoda płatności/urządzenie).
Użycie: „agresywne” oferty dla klastra RG (polityki) są zabronione.
9) Wskaźniki sukcesu
Działanie: udział atrybutów online <X ms, stabilność ośrodków, migracja/niedopatrzenie.
Biznes: uplift konwersji ofert, ARPPU/LTV według segmentu, spadek antykonkurencyjnego FPR, szybkość reakcji RG.
Jakość modelu: sylwetka, DB, stabilność, KPI odróżniające klastry.
10) Rurociąg (odniesienie)
Brąz → Srebro → Złoto → Służyć
1. Zdarzenia/płatności/urządzenia → czyszczenie/joyns.
2. Sklep funkcyjny: obliczanie okien (7/28/90d), standaryzacja, maski/żetony.
3. Dim-reduction (PCA/UMAP) do wizualizacji (nie do surfingu).
4. Klastrowanie (offline), ocena mierników, generowanie „paszportów”.
5. Przydział online API: najbliższe centrum/prawdopodobieństwo/” hałas”
6. Monitorowanie: dryf, migracja, częstotliwość „hałasu”, KPI według segmentu.
7. Zwolnienie: semver, shadow/canary, rollback; Katalog segmentów w BI
11) Przykłady segmentów (iGaming)
Automaty bonusowe: duży udział freespins/cashback, krótkie sesje, wiele awarii wyjściowych - miękkie limity promocyjne, przejrzyste warunki.
Crash-risk takers: Krótkie intensywne sesje, szybkie nagromadzenie - ograniczenia częstotliwości/chłodzenie.
Live-social: długie sesje wieczorne na żywo, wysokie CTR na kampaniach społecznych - kuratorium strumieni i wydarzeń na żywo.
Nowicjusze cienkiego pliku: 1-2 depozyty, kilka rund - poradniki powitalne, wsparcie KYC.
Anomalia-płatności: częste zmiany portfeli/metod, wyścigów geograficznych - wzmocnione zwalczanie oszustw.
12) Wzory artefaktów
12. 1 Katalog segmentu (fragment)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 Polityka surfingu
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 paszport klastra (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Plan działania w zakresie wdrażania
0-30 dni (MVP)
1. Montaż wyświetlaczy (7/28/90d), standaryzacja, wycięcie PII.
2. Mini-Batch k-means dla 5-9 klastrów + podstawowy HDBSCAN dla „hałasu”.
3. Paszport klastrów, asystent online, deska rozdzielcza migracyjna/dryfująca.
4. Dwa eksperymenty produktowe: oferta segmentu i częstotliwość puszysta.
30-90 dni
1. GMM dla akcesoriów miękkich; typy mieszane (k-prototypy).
2. Automatyczne reasekuracja co N dni, cień → kanarka; ostrzeżenie dotyczące PSI/migracji.
3. Interpretacja (karty SHAP), segment BI katalog i CRM/rekomendacja API.
3-6 miesięcy
1. segmenty specyficzne dla geo/najemcy; łączenie z wykresem urządzenia/płatności.
2. Długoterminowe kohorty + matryce przejściowe (Markov) do planowania LTV.
3. Polityki w zakresie segmentu RG/AML; zewnętrzny audyt prywatności/etyki.
14) Anty-wzory
Wybór k „po oku” i ocena tylko sylwetki bez kontroli biznesowych.
Mieszanie PII i funkcji behawioralnych; brak k-anonimowości w raportach.
Nie ma asystenta online → segmenty „powiesić” w BI bez działania.
Przekwalifikowanie na sezon/udział; brak monitorowania migracji.
Używanie klastrów do „agresywnego” marketingu bez zasad ochrony RG.
Jeden zestaw segmentów dla wszystkich krajów/marek bez lokalnych funkcji.
15) RACI
Platforma danych (R): funkcja prezentacji, rurociąg, monitoring, rejestr wersji.
Data Science (R): wybór algorytmu, k/metryki, interpretacja.
Produkt/CRM (A): działalność segmentu, eksperymenty.
Ryzyko/RG (C): ograniczenia i polityka HITL dla segmentów „ciężkich”.
Bezpieczeństwo/DPO (A/R): prywatność, tokenizacja, k-anonimowość.
BI (C): deski rozdzielcze, katalogi, dokumentacja.
16) Sekcje powiązane
Segmentowane systemy ukierunkowania, rekomendacje, profilowanie graczy, zmniejszanie stronniczości, benchmarking wydajności, analityka i metryka API, MLOp: wykorzystywanie modeli, etyka danych i przejrzystość.
Razem
Klastrowanie to nie tylko wykres UMAP, ale narzędzie produkcyjne: czyste funkcje bez PII, stabilne mierniki i zrozumiałe paszporty segmentów, przydział online i działania w CRM/product/RG. Regularnie kontrolowany i monitorowany pod kątem dryfowania, przekształca „chaos zachowania” w zarządzalne strategie wzrostu, bezpieczeństwa i odpowiedzialności.