GH GambleHub

数据聚类

1)为什么聚类iGaming平台

无标签个性化:按行为对玩家进行分组,以定位offers, limits, UX。
操作和风险:我们识别出"精细文件"、非典型支付模式、欺诈集群。
产品和内容:按最喜欢的提供商/机械师(crash/slots/live),生命周期划分的细分市场。
分析和战略洞察力:按市场/活动/季节划分的细分市场如何变化。

2)数据和特征空间

2.1个来源

游戏行为:会话频率/长度,投注/分钟,波动,最喜欢的类型/提供商。
付款:存款/收款频率/金额、方法(Papara/PIX/carta)、存款/差额。
营销/CRM:吸引渠道,对奖金/任务的反应,推杆反应。
设备/平台:OS、版本、客户端稳定性、网络类型。
RG/合规性:自我排斥标志,限制,转向sapport(无PII)。

2.2 Engineering Fich

按窗户分列:7/28/90天;我们按活动日进行配给。
标准化/robast滑板:z-score/robust-scaler(IQR),"长尾巴"的日志滑板。
类别→ embedding/one-hot:提供商/频道/国家/地区。
维度还原:用于噪声和可视化的PCA/UMAP,但要存储"原始"向量以进行解释。
Zero-PII:代币而不是标识符,禁止个人字段。

3)算法以及何时使用

k-means/Mini-Batch k-means是用于大数据的快速基础;球形假设。
GMM是软隶属关系(probilities),对"边缘"玩家有用。
DBSCAN/HDBSCAN-找到任意形状的群集和"噪声"(异常);对"eps"敏感。
分层(Ward/average)是段的"树"的树状程序,平均值为N。
光谱-用于非球形簇。通往大N的道路。
SOM(Kohonen卡)是行为模式的可解释的2D卡。
混合类型(混合数据):k-prototypes,k-modes,Gower距离。

提示:从Mini-Batch k-means(速度)+HDBSCAN(噪音/异常)开始,比较稳定性。

4)如何选择k和质量评估

内部度量标准是:Silhouette(越高,越好),Davies-Bouldin(更低-更好),Calinski-Harabasz。
稳定性:重新聚类在开销样本,兰德索引/NMI分区之间。
外部有效性:集群之间的KPI(GGR/NET,保留,offer转换,FPR)可辨别性。
业务解释:群集必须具有清晰的配置文件和操作。如果没有-重新定义字节/比率/算法。

5)概况和可解释

群集配置文件:中位数/分位数,顶级游戏/提供商,设备,支付方法,渠道。
人口差异:在p点/Δ中σ,"雷达"成像。
本地解释器:SHAP/Permutation importance用于集群之间的边界(通过训练有素的分类器"cluster_id")。
称集群:"High-rollers crash","Bonus-hunters slots","Casual weekend live"。

6)运营(在线/离线)

每天/每周一次离线聚类→发布"护照"片段。
在线分配:最近的中心(k-means),概率(GMM),"噪声"(HDBSCAN)→后退规则。
漂移:监视PSI/KC的关键故障、群集之间的迁移、"噪声"频率。
生命周期:每1-3个月审计;MAJOR在改变饮食/配给时。

7)集成和行动

个性化:offers/频率限制,供应商选择和锦标赛机械师。
CRM/通道:枪声/回声频率,时间窗口,语言/音调。
市场营销:按部门分列的预算,创意,LTV预测;"nudge" vs "value"策略。
RG/风险:风险集群的软干预,异常的"手动"审查。
Antifrod:非典型支付途径/配额集群→得分增加。

8)隐私和合规性

报告的k匿名(每个切片至少N对象)。
Fichy/Logs/dashbords中的Zero-PII,令牌化;代币上的DSAR删除。
Geo/tenant隔离:在许可证区域中培训/存储数据段。
公平支票:检查敏感度量的差异(国家/支付方法/设备)。
使用:禁止RG集群(政策)的"侵略性"离岸外包。

9)成功指标

运营:在线归因比例<X毫秒,中心稳定性,迁移/归属不足。
业务:uplift offers转化,ARPPU/LTV按细分市场,FPR反氟化物降低,RG反应速率。
模型质量:silhouette ↑,DB ↓,稳定性↑,群集之间的KPI可辨别性。

10)管道(基准)

Bronze → Silver → Gold → Serve

1.Ingest事件/付款/设备→清洁/乔伊纳。
2.功能商店:店面计算(7/28/90d),标准化,口罩/令牌。
3.用于可视化(不用于伺服器)的Dim-reduction(PCA/UMAP)。
4.聚类(离线),度量得分,"护照"的生成。
5.Online Assignment API:最近的中心/概率/"噪音"。
6.监视:漂移,迁移,"噪音"频率,KPI跨段。
7.Release: semver, shadow/canary, rollback;BI中的段目录。

11)细分市场示例(iGaming)

Bonus-hunters slots:高比率frispin/Cash Back,短会话,很多输出故障-软促销限制,透明条件。
Crash-risk takers:短暂的密集会话,快速加息-频率限制/冷却。
实时社交:长时间的夜间直播会议,高的CTR社交活动-策划流和喜欢的活动。
Thin-file newcomers:1-2存款,很少回合-欢迎图托里亚尔,支持KYC。
Anomaly-payments:经常更换钱包/方法,地质赛马是一种增强的防冻剂。

12)工件模板

12.1片段目录(片段)

yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]

12.2浏览政策

yaml serving:
assigner: "nearest_centroid"  # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25

12.3集群护照(BI)

yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]

13)实施路线图

0-30天(MVP)

1.收集店面(7/28/90d),标准化,切断PII。
2.5-9群集上的Mini-Batch k-means+用于"噪音"的基本HDBSCAN。
3.集群护照,在线助手,dashboard迁移/漂移。
4.两个产品实验是:分段离频器和枪支频率。

30-90天

1.GMM用于软附件;溷合类型(k-prototypes)。
2.在N日,影子→金丝雀中重新装配一次;PSI/迁移警报。
3.可解释性(SHAP卡),段的BI目录和CRM/推荐者的 API。

3-6个月

1.Geo/Tenant特定片段;与设备/付款图合并。
2.LTV规划的长期队列+过渡矩阵(Markov)。
3.段级别的RG/AML策略;对隐私/道德的外部审计。

14)反模式

选择k"眼睛"和仅评分silhouette而无需业务检查。
PII和行为幻想的混合;报告中缺少k匿名性。
没有在线助手→ BI中的"挂起"片段没有动作。
季节/促销活动的再培训;缺乏对迁移的监测。
使用集群进行没有RG加尔达规则的"激进"营销。
一组针对所有国家/品牌的细分市场,没有本地功能。

15) RACI

数据平台(R):幻灯片店面、管道、监控、版本注册。
数据科学(R):选择算法,k/度量,解释。
产品/CRM (A):分段操作,实验。
风险/RG (C):限制政策和"重"细分市场的HITL。
安全/DPO(A/R):隐私,令牌化,k匿名。
BI (C): dashbords、目录、文档。

16)相关部分

分段定位,推荐系统,玩家分析,减少偏见,性能基准,分析和度量API,MLOps:模型操作,数据伦理和透明度。

底线

聚类不仅是UMAP图形,而且是制造工具:没有PII的纯仙女,可持续的度量标准和可理解的"护照"细分,在线助手以及CRM/产品/RG中的动作。通过定期审核和监测漂移,它将"行为混乱"转变为可管理的增长,安全和责任策略。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。