与老师和没有老师一起学习

1）为何及何时

与老师（Supervised）：有一个标签（标签）→预测概率/类/值。当可以理解"正确答案"并且有历史记录时，请使用：churn，7天的存款，RG/AML风险，离线响应概率，LTV预测。
没有老师（Unsupervised）：没有标签→我们找到结构/集群/异常/潜在因素：玩家细分、指环、主题游戏概况、提供者故障识别、特征压缩。

选择规则：如果业务解决方案取决于特定的概率预测→则；如果目标是打开未知模式/信号，或降低数据维度→未知。实际上，它们是组合的。

2） iGaming典型桉例

Supervised

Churn/重新激活：二进制分类（消失/不消失），用于暴露的uplift模型。
Propensity到存款/购买：地平线T中事件的概率。
RG/AML：风险障碍，结构概率，可疑会话。
反资产奖金：欺诈性使用促销的可能性。
建议（排名）：点击的可能性/投注游戏（listwise/pointwise）。

Unsupervised

玩家细分：根据RFM/行为/流派，k-means，GMM，HDBSCAN。
异常：Isolation Forest, LOF, AutoEncoder在付款/游戏模式。
图形分析：在Player-divays-Card-IP图中进行聚类。
尺寸降低：PCA/UMAP用于成像和摄影工程。
主题模型：NMF/LDL用于游戏描述/支持聊天。

3）数据和fichi

点对点连接以排除数据泄漏。
特征窗口：10分钟/1小时/1天/7天/30天（回收、频率、货币）。
背景：市场/管辖权/DST/假期，供应商/类型，设备/ASN。
图形特征：唯一地图/IP/Devys的数量，中心性。
货币/时区正常化，users/games/providers的SCD II。

4）算法和指标

和老师

算法：LogReg，XGBoost/LightGBM/CatBoost，TabNet；排名-LambdaMART/GBDT；时间序列-Prophet/ETS/Gradient Boosted TS。
指标：ROC-AUC/PR-AUC，F1@操作阈值，KS（风险），NDCG/MAP@K（建议），MAPE/WAPE（预测），带有FP/FN重量的开销。

没有老师

聚类：k-means/GMM（聚类数为elbow/silhouette），HDBSCAN（密集）。
异常：隔离森林/LOF/AutoEncoder；度量标准是专家标记上的precision@k，合成异常上的AUCPR。
尺寸：PCA/UMAP用于摄影设计和可视化。

5）组合方法

Semi-Supervised：未标记数据部分（自我培训）的伪标记，consistency regularization。
自我维护：对比/掩盖任务（会议/游戏的栓塞）→在超级维护中使用下游。
主动学习：系统提供标记候选者（最大不确定性/多样性）→节省AML/RG专家的工作。
Weak Supervision：启发式方法/规则/差异标记形成"弱"标签,然后进行校准。

6）过程： 从离线到在线伺服器

1.离线：收集/准备按时间/市场划分的→ →培训/验证→背景。
2.语义指标：单一公式（例如,churn_30d）和固定时间窗口。
3.Feature Store：在线/离线幻灯片的统一公式；合规性测试。
4.在线浏览：gRPC/REST, SLA潜伏期,AB路由/金丝雀版本。
5.监视：数据/预测漂移（PSI/KL），latency p95，业务指标错误，Alerta。

7）隐私和合规性

PII最小化：化名，mapping隔离，CLS/RLS。
Residency：按地区划分的单独传送带/加密密钥（EEA/UK/BR）。
DSAR/RTBF：删除/编辑图片和日志；保留例外的法律依据。
法律保护：冻结调查/报告文物。
公平：代理信息审核,影响报告（SHAP）, RG干预政策。

8）经济和生产力

计算幻影（cost/feature）和地狱（cost/request）的成本。
离线聚合的实现；在线-只有关键窗口。
短片TTL的权限/计分结果缓存，带有计时器的异步外观。
继电器配额和预算；按命令/模型进行充电。

9）示例（片段）

9.1点计时采样churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支付异常（伪代码,隔离森林）

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-means细分（RFM+流派）

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4二元模型的成本阈值

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10）评估，验证和实验

离线：临时分裂（train/val/test by time/Market）、反向测试、引导信任。
在线：A/B/n，序列测试，CUPED/diff-diff。
非策略：用于个性化策略的IPS/DR。
校准：用于正确概率的Platt/Isotonic。
降解控制：按业务指标和PR-AUC/KS进行评估。

11) RACI

R（响应能力）：数据科学（模型/实验），MLOps（平台/伺服器），Data Eng（fici/pipline）。

A (Accountable): Head of Data/CDO.

C（咨询）：合规性/DPO（PII/RG/AML），安全（KMS/秘密），SRE（SLO/成本），财务（ROI）。
I （Informed）：产品/营销/运营/支持。

12）实施路线图

MVP（4-6周）：

1.目标/标签和信号目录（churn_30d，propensity_7d，risk_rg)。

2.Feature Store v1 （5-10 fich）,基本的XGBoost型号,离线度量码。

3.k-means分段（8个群集）+分段描述；Isolation Forest用于付款。

4.带缓存的在线伺服器，p95 <150 ms；A/B占流量的10-20％。

第二阶段（6至12周）：

主动/半自上而下的标签短缺（AML/RG），自上而下的游戏/会话栓塞。
金丝雀发布，漂移监控，自动转移。
单个语义层度量表和联机/离线匹配。

第三阶段（12至20周）：

图形特征和指环；奖金的uplift模型。
多区域伺服器，配额/充电器；WORM版本存档。
公平审计，压力测试，事件运行手册。

13）售前支票清单

点对点抽样和针对泄漏的测试。
概率校准；按开销选择阈值。
模型卡（所有者、数据、指标、风险、公平）。
Feature Store：在线/离线合规性测试。
监视漂移/潜伏/错误，异常和自动滚动。
PII/DSAR/RTBF/法律保留政策；拼写是非个人化的。
计划A/B和统计能力被计算在内；runbook回滚准备就绪。

14）反模式

将新事件混合到标签中（泄漏），并且没有计时。
"一对一模型"代替域解构。
没有自由化的概率→错误的商业门槛。
飞行"盲目"：在线没有漂移/质量监测。
在线重排（没有缓存和计时器的重型外部连接）。
没有业务解释和所有者的细分市场。

15）结果

与老师一起学习会给出可衡量的预测和风险/收入管理；没有老师-没有标签的结构和信号。它们在数据学科（点对点，功能商店），编译和MLOps中的组合（半自动/自我维持，主动学习）使iGaming平台稳步提高Net Revenue，减少了伪造并及时进行了RG干预-具有可重复性，成本控制和准备性审计。

与老师和没有老师一起学习

Unsupervised

没有老师

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目