Veri kümeleme
1) Neden bir iGaming platformu kümelenir
Etiketsiz kişiselleştirme: Teklifleri, sınırları, UX'i hedeflemek için oyuncuları davranışlarına göre gruplandırıyoruz.
İşlemler ve risk:'ince dosyaları ", atipik ödeme modellerini, dolandırıcılık kümelerini belirliyoruz.
Ürün ve içerik: favori sağlayıcılar/mekanikler (çökme/yuvalar/canlı) segmentleri, yaşam döngüleri.
Analitik ve stratejik bilgiler: Segmentlerin karışımının pazar/kampanya/sezona göre nasıl değiştiği.
2) Veri ve etiket alanı
2. 1 Kaynaklar
Oyun davranışı: oturumların sıklığı/uzunluğu, bahisler/dakika, oynaklık, favori türler/sağlayıcılar.
Ödemeler: yatırma/çekme sıklığı/miktarları, yöntemler (Papara/PIX/kart), ters ibraz/sapmalar.
Pazarlama/CRM: cazibe kanalları, bonuslara/görevlere tepki, push yanıtları.
Cihazlar/platformlar: OS, sürüm, istemci kararlılığı, ağ tipi.
RG/uyumluluk: kendini dışlama bayrakları, limitler, destek çağrıları (PII olmadan).
2. 2 Mühendislik özelliği
Pencerelere göre agregalar: 7/28/90 gün; "Aktif bir gün için" tayınlama.
Standardizasyon/robast ölçekleme: z-skoru/sağlam ölçekleyici (IQR), "uzun kuyruklar" için log ölçeği.
Kategoriler - gömmeler/one-hot: sağlayıcılar/kanallar/ülkeler.
Boyut azaltma: Gürültü ve görselleştirme için PCA/UMAP, ancak yorumlama için "ham'bir vektör saklayın.
Sıfır PII: Tanımlayıcılar yerine belirteçler, kişisel alanları yasaklıyoruz.
3) Algoritmalar ve ne zaman alınacağı
k-means/Mini-Batch k-means - büyük veri için hızlı taban çizgisi; Küresel varsayım.
GMM - yumuşak bağlantı (olasılıklar), "sınır" oyuncuları için yararlıdır.
DBSCAN/HDBSCAN - serbest biçimli kümeler ve "gürültü" (anomaliler) bulur; 'eps'e duyarlıdır.
Hiyerarşik (Ward/ortalama) - segmentlerin "ağacı" için dendrogramlar, ortalama N'de iyi.
Spektral - küresel olmayan kümeler için; Büyük N'deki yol.
SOM (Kohonen haritaları) - davranış kalıplarının yorumlanabilir 2D haritaları.
Karışık veriler: k-prototipler, k-modları, Gower mesafesi.
İpucu: Mini-Batch k-means (hız) + HDBSCAN (gürültü/anomaliler) ile başlayın ve kararlılığı karşılaştırın.
4) K nasıl seçilir ve kalite değerlendirilir
Dahili metrikler: Siluet (daha yüksek daha iyidir), Davies-Bouldin (daha düşük daha iyidir), Calinski-Harabasz.
Kararlılık: Önyükleme örnekleri üzerinde yeniden kümeleme, bölümler arasında Rand Index/NMI.
Dış geçerlilik: KPI'ların (GGR/NET, tutma, tekliflerin dönüştürülmesi, FPR) kümeler arasında ayırt edilebilirliği.
İş yorumlama: Kümelerin net profilleri ve eylemleri olmalıdır. Değilse, özellikleri/ölçeği/algoritmayı geçersiz kılın.
5) Profiller ve açıklanabilirlik
Küme profili: medyanlar/nicelikler özelliği, en iyi oyunlar/sağlayıcılar, cihazlar, ödeme yöntemleri, kanallar.
Popülasyon ile fark: P-noktaları/ Δ σ, radar ile görselleştirme.
Yerel açıklayıcılar: Kümeler arasındaki sınırlar için SHAP/Permütasyon önemi (eğitimli sınıflandırıcı aracılığıyla cluster_id").
Kümeler diyoruz: "Yüksek silindirler çöküyor", "Bonus avcıları yuvaları", "Sıradan hafta sonu yaşıyor".
6) İşlem (çevrimiçi/çevrimdışı)
Günde/haftada bir kez çevrimdışı kümeleme - segmentlerin "pasaportlarının" yayınlanması.
Çevrimiçi atama: en yakın merkez (k-means), olasılık (GMM), "gürültü" (HDBSCAN) - geri dönüş kuralları.
Sürüklenme: PSI/KC'yi temel özelliklere göre izleme, kümeler arasında geçiş, "gürültü" frekansları.
Yaşam döngüsü: 1-3 ayda bir revizyon; Özellikleri/standartları değiştirirken MAJOR.
7) Entegrasyonlar ve eylemler
Kişiselleştirme: teklifler/frekans limitleri, sağlayıcıların seçimi ve turnuva mekaniği.
CRM/kanallar: kabartmak/e-posta frekansları, zaman pencereleri, dil/tonalite.
Pazarlama: segmente göre bütçe, kreatifler, LTV tahmini; Stratejinin "nudge" vs "value".
RG/risk: Risk kümesi için hafif müdahaleler, anomaliler için "manuel" inceleme.
Antifraud: atipik ödeme yolları/cihazları kümeleri - artan puanlama.
8) Gizlilik ve uyumluluk
Raporların k-anonimliği (dilim başına en az N nesne).
Fiches/logs/dashboard'larda sıfır PII, tokenization; Belirteç ile DSAR silme.
Coğrafi/kiracı izolasyonu: lisans bölgesindeki tren/mağaza segmentleri.
Adalet kontrolü: Farklılıkları hassas ölçümlerle kontrol ediyoruz (ülke/ödeme yöntemi/cihaz).
Kullanım: RG kümesi (politikalar) için "agresif" teklifler yasaktır.
9) Başarı metrikleri
Çalışma: çevrimiçi atıfların paylaşımı <X ms, merkezlerin istikrarı, göç/yetersiz onay.
İş: Tekliflerin yükseltilmesi, segmentlere göre ARPPU/LTV, dolandırıcılık karşıtı FPR, RG reaksiyon hızında azalma.
Model kalitesi: siluet ↑, DB ↓, kararlılık ↑, kümeler arasında ayırt edilebilir KPI.
10) Boru hattı (referans)
Bronz - Gümüş - Altın - Servis
1. Ingest olaylar/ödemeler/cihazlar - temizlik/sevinçler.
2. Özellik Mağazası: pencere hesaplama (7/28/90d), standardizasyon, maskeler/belirteçler.
3. Görselleştirmeler için Dim-reduction (PCA/UMAP) (sörf için değil).
4. Kümeleme (çevrimdışı), metriklerin değerlendirilmesi, "pasaportların" oluşturulması.
5. Çevrimiçi atama API: en yakın merkez/olasılıklar/" gürültü"
6. İzleme: sürüklenme, geçişler, "gürültü" sıklığı, segmente göre KPI.
7. Serbest bırakma: semver, gölge/kanarya, geri alma; BI'da segment dizini
11) Segment örnekleri (iGaming)
Bonus avcıları yuvaları: yüksek freespins/cashback payı, kısa oturumlar, birçok çıkış hatası - yumuşak promosyon limitleri, şeffaf koşullar.
Çarpışma riski alanlar: Kısa yoğun oturumlar, hızlı hız artışı - frekans limitleri/soğutma.
Canlı sosyal: canlı uzun akşam oturumları, sosyal kampanyalarda yüksek TO - akışların ve canlı etkinliklerin küratörlüğü.
İnce dosya yeni gelenler: 1-2 depozito, birkaç tur - hoş geldiniz öğreticileri, KYC desteği.
Anomali ödemeleri: Cüzdanların/yöntemlerin sık sık değiştirilmesi, coğrafi yarışlar - gelişmiş anti-dolandırıcılık.
12) Eser desenleri
12. 1 Segment kataloğu (parça)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 Sörf Politikası
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 3 Küme pasaport (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) Uygulama Yol Haritası
0-30 gün (MVP)
1. Vitrinleri birleştirin (7/28/90d), standartlaştırın, PII'yi kesin.
2. Mini-Batch k-5-9 kümeleri için anlamına gelir + "gürültü" için temel HDBSCAN.
3. Kümelerin pasaportu, çevrimiçi atayan, göç/sürüklenme panosu.
4. İki ürün deneyi: segment teklifleri ve kabarma frekansı.
30-90 gün
1. Yumuşak aksesuar için GMM; Karışık tipler (k-prototipler).
2. Her N günde bir otomatik olarak yeniden birleştirme, gölge - kanarya; PSI/migrasyonlar konusunda uyarı.
3. Yorumlanabilirlik (SHAP kartları), segment BI kataloğu ve CRM/öneri API'si.
3-6 ay
1. Jeo/kiracıya özel segmentler; cihaz/ödeme grafiği ile birleştirmek.
2. LTV planlaması için uzun vadeli kohortlar + geçiş matrisleri (Markov).
3. Segment düzeyinde RG/AML politikaları; Dış gizlilik/etik denetimi.
14) Anti-desenler
K'yi "gözle" seçmek ve iş kontrolleri olmadan sadece silueti değerlendirmek.
PII ve davranışsal özelliklerin karıştırılması; Raporlarda k-anonimlik eksikliği.
Çevrimiçi atayan yok - BI'da eylem olmadan "asılı" segmentler.
Sezon/paylaşım için yeniden eğitim; göçlerin izlenmesi eksikliği.
RG koruma kuralları olmadan "agresif" pazarlama için kümeleri kullanma.
Yerel özellikleri olmayan tüm ülkeler/markalar için bir dizi segment.
15) RACI
Veri Platformu (R): vitrin özelliği, boru hattı, izleme, sürüm kaydı.
Veri Bilimi (R): Algoritma seçimi, k/metrikler, yorumlama.
Ürün/CRM (A): segment aktiviteleri, deneyler.
Risk/RG (C):'ağır "segmentler için kısıtlama ve HITL politikaları.
Güvenlik/DPO (A/R): gizlilik, tokenizasyon, k-anonimlik.
BI (C): panolar, kataloglar, dokümantasyon.
16) İlgili bölümler
Segmentli Hedefleme, Öneri Sistemleri, Oyuncu Profili Oluşturma, Önyargıyı Azaltma, Performans Kıyaslama, Analitik ve Metrikler API'si, MLOps: Model Kullanımı, Veri Etiği ve Şeffaflık.
Toplam
Kümeleme sadece bir UMAP grafiği değil, bir üretim aracıdır: PII içermeyen saf özellikler, istikrarlı metrikler ve anlaşılabilir segment pasaportları, çevrimiçi atayan ve CRM/ürün/RG'deki eylemler. Sürüklenme için düzenli olarak denetlendiğinde ve izlendiğinde, "davranış kaosunu" büyüme, güvenlik ve sorumluluk için yönetilebilir stratejilere dönüştürür.