GH GambleHub

与老师和没有老师一起学习

1)为何及何时

与老师(Supervised):有一个标签(标签)→预测概率/类/值。当可以理解"正确答案"并且有历史记录时,请使用:churn,7天的存款,RG/AML风险,离线响应概率,LTV预测。
没有老师(Unsupervised):没有标签→我们找到结构/集群/异常/潜在因素:玩家细分、指环、主题游戏概况、提供者故障识别、特征压缩。

选择规则:如果业务解决方案取决于特定的概率预测→则;如果目标是打开未知模式/信号,或降低数据维度→未知。实际上,它们是组合的。

2) iGaming典型桉例

Supervised

Churn/重新激活:二进制分类(消失/不消失),用于暴露的uplift模型。
Propensity到存款/购买:地平线T中事件的概率。
RG/AML:风险障碍,结构概率,可疑会话。
反资产奖金:欺诈性使用促销的可能性。
建议(排名):点击的可能性/投注游戏(listwise/pointwise)。

Unsupervised

玩家细分:根据RFM/行为/流派,k-means,GMM,HDBSCAN。
异常:Isolation Forest, LOF, AutoEncoder在付款/游戏模式。
图形分析:在Player-divays-Card-IP图中进行聚类。
尺寸降低:PCA/UMAP用于成像和摄影工程。
主题模型:NMF/LDL用于游戏描述/支持聊天。

3)数据和fichi

点对点连接以排除数据泄漏。
特征窗口:10分钟/1小时/1天/7天/30天(回收、频率、货币)。
背景:市场/管辖权/DST/假期,供应商/类型,设备/ASN。
图形特征:唯一地图/IP/Devys的数量,中心性。
货币/时区正常化,users/games/providers的SCD II。

4)算法和指标

和老师

算法:LogReg,XGBoost/LightGBM/CatBoost,TabNet;排名-LambdaMART/GBDT;时间序列-Prophet/ETS/Gradient Boosted TS。
指标:ROC-AUC/PR-AUC,F1@操作阈值,KS(风险),NDCG/MAP@K(建议),MAPE/WAPE(预测),带有FP/FN重量的开销。

没有老师

聚类:k-means/GMM(聚类数为elbow/silhouette),HDBSCAN(密集)。
异常:隔离森林/LOF/AutoEncoder;度量标准是专家标记上的precision@k,合成异常上的AUCPR。
尺寸:PCA/UMAP用于摄影设计和可视化。

5)组合方法

Semi-Supervised:未标记数据部分(自我培训)的伪标记,consistency regularization。
自我维护:对比/掩盖任务(会议/游戏的栓塞)→在超级维护中使用下游。
主动学习:系统提供标记候选者(最大不确定性/多样性)→节省AML/RG专家的工作。
Weak Supervision:启发式方法/规则/差异标记形成"弱"标签,然后进行校准。

6)过程: 从离线到在线伺服器

1.离线:收集/准备按时间/市场划分的→ →培训/验证→背景。
2.语义指标:单一公式(例如,churn_30d)和固定时间窗口。
3.Feature Store:在线/离线幻灯片的统一公式;合规性测试。
4.在线浏览:gRPC/REST, SLA潜伏期,AB路由/金丝雀版本。
5.监视:数据/预测漂移(PSI/KL),latency p95,业务指标错误,Alerta。

7)隐私和合规性

PII最小化:化名,mapping隔离,CLS/RLS。
Residency:按地区划分的单独传送带/加密密钥(EEA/UK/BR)。
DSAR/RTBF:删除/编辑图片和日志;保留例外的法律依据。
法律保护:冻结调查/报告文物。
公平:代理信息审核,影响报告(SHAP), RG干预政策。

8)经济和生产力

计算幻影(cost/feature)和地狱(cost/request)的成本。
离线聚合的实现;在线-只有关键窗口。
短片TTL的权限/计分结果缓存,带有计时器的异步外观。
继电器配额和预算;按命令/模型进行充电。

9)示例(片段)

9.1点计时采样churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支付异常(伪代码,隔离森林)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-means细分(RFM+流派)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4二元模型的成本阈值

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10)评估,验证和实验

离线:临时分裂(train/val/test by time/Market)、反向测试、引导信任。
在线:A/B/n,序列测试,CUPED/diff-diff。
非策略:用于个性化策略的IPS/DR。
校准:用于正确概率的Platt/Isotonic。
降解控制:按业务指标和PR-AUC/KS进行评估。

11) RACI

R(响应能力):数据科学(模型/实验),MLOps(平台/伺服器),Data Eng(fici/pipline)。

A (Accountable): Head of Data/CDO.

C(咨询):合规性/DPO(PII/RG/AML),安全(KMS/秘密),SRE(SLO/成本),财务(ROI)。
I (Informed):产品/营销/运营/支持。

12)实施路线图

MVP(4-6周):

1.目标/标签和信号目录(churn_30d,propensity_7d,risk_rg)。

2.Feature Store v1 (5-10 fich),基本的XGBoost型号,离线度量码。

3.k-means分段(8个群集)+分段描述;Isolation Forest用于付款。

4.带缓存的在线伺服器,p95 <150 ms;A/B占流量的10-20%。

第二阶段(6至12周):
  • 主动/半自上而下的标签短缺(AML/RG),自上而下的游戏/会话栓塞。
  • 金丝雀发布,漂移监控,自动转移。
  • 单个语义层度量表和联机/离线匹配。
第三阶段(12至20周):
  • 图形特征和指环;奖金的uplift模型。
  • 多区域伺服器,配额/充电器;WORM版本存档。
  • 公平审计,压力测试,事件运行手册。

13)售前支票清单

  • 点对点抽样和针对泄漏的测试。
  • 概率校准;按开销选择阈值。
  • 模型卡(所有者、数据、指标、风险、公平)。
  • Feature Store:在线/离线合规性测试。
  • 监视漂移/潜伏/错误,异常和自动滚动。
  • PII/DSAR/RTBF/法律保留政策;拼写是非个人化的。
  • 计划A/B和统计能力被计算在内;runbook回滚准备就绪。

14)反模式

将新事件混合到标签中(泄漏),并且没有计时。
"一对一模型"代替域解构。
没有自由化的概率→错误的商业门槛。
飞行"盲目":在线没有漂移/质量监测。
在线重排(没有缓存和计时器的重型外部连接)。
没有业务解释和所有者的细分市场。

15)结果

与老师一起学习会给出可衡量的预测和风险/收入管理;没有老师-没有标签的结构和信号。它们在数据学科(点对点,功能商店),编译和MLOps中的组合(半自动/自我维持,主动学习)使iGaming平台稳步提高Net Revenue,减少了伪造并及时进行了RG干预-具有可重复性,成本控制和准备性审计。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。