與老師和沒有老師一起學習

1）為何及何時

與老師（Supervised）：有一個標簽（標簽）→預測概率/類/值。當可以理解「正確答案」並且有歷史記錄時，請使用：churn，7天的存款，RG/AML風險，離線響應概率，LTV預測。
沒有老師（Unsupervised）：沒有標簽→我們找到結構/集群/異常/潛在因素：玩家細分、指環、主題遊戲概況、提供者故障識別、特征壓縮。

選擇規則：如果業務解決方案取決於特定的概率預測→則；如果目標是打開未知模式/信號，或降低數據維度→未知。實際上，它們是組合的。

2） iGaming典型案例

Supervised

Churn/重新激活：二進制分類（消失/不消失），用於暴露的uplift模型。
Propensity到存款/購買：地平線T中事件的概率。
RG/AML：風險障礙，結構概率，可疑會話。
反資產獎金：欺詐性使用促銷的可能性。
建議（排名）：點擊的可能性/投註遊戲（listwise/pointwise）。

Unsupervised

玩家細分：根據RFM/行為/流派，k-means，GMM，HDBSCAN。
異常：Isolation Forest, LOF, AutoEncoder在付款/遊戲模式。
圖形分析：在Player-divays-Card-IP圖中進行聚類。
尺寸降低：PCA/UMAP用於成像和攝影工程。
主題模型：NMF/LDL用於遊戲描述/支持聊天。

3）數據和fichi

點對點連接以排除數據泄漏。
特征窗口：10分鐘/1小時/1天/7天/30天（回收、頻率、貨幣）。
背景：市場/管轄權/DST/假期，供應商/類型，設備/ASN。
圖形特征：唯一地圖/IP/Devys的數量，中心性。
貨幣/時區正常化，users/games/providers的SCD II。

4）算法和指標

和老師

算法：LogReg，XGBoost/LightGBM/CatBoost，TabNet；排名-LambdaMART/GBDT；時間序列-Prophet/ETS/Gradient Boosted TS。
指標：ROC-AUC/PR-AUC，F1@操作閾值，KS（風險），NDCG/MAP@K（建議），MAPE/WAPE（預測），帶有FP/FN重量的開銷。

沒有老師

聚類：k-means/GMM（聚類數為elbow/silhouette），HDBSCAN（密集）。
異常：隔離森林/LOF/AutoEncoder；度量標準是專家標記上的precision@k，合成異常上的AUCPR。
尺寸：PCA/UMAP用於攝影設計和可視化。

5）組合方法

Semi-Supervised：未標記數據部分（自我培訓）的偽標記，consistency regularization。
自我維護：對比/掩蓋任務（會議/遊戲的栓塞）→在超級維護中使用下遊。
主動學習：系統提供標記候選者（最大不確定性/多樣性）→節省AML/RG專家的工作。
Weak Supervision：啟發式方法/規則/差異標記形成「弱」標簽,然後進行校準。

6）過程： 從離線到在線伺服器

1.離線：收集/準備按時間/市場劃分的→ →培訓/驗證→背景。
2.語義指標：單一公式（例如,churn_30d）和固定時間窗口。
3.Feature Store：在線/離線幻燈片的統一公式；合規性測試。
4.在線瀏覽：gRPC/REST, SLA潛伏期,AB路由/金絲雀版本。
5.監視：數據/預測漂移（PSI/KL），latency p95，業務指標錯誤，Alerta。

7）隱私和合規性

PII最小化：化名，mapping隔離，CLS/RLS。
Residency：按地區劃分的單獨傳送帶/加密密鑰（EEA/UK/BR）。
DSAR/RTBF：刪除/編輯圖片和日誌；保留例外的法律依據。
法律保護：凍結調查/報告文物。
公平：代理信息審核,影響報告（SHAP）, RG幹預政策。

8）經濟和生產力

計算幻影（cost/feature）和地獄（cost/request）的成本。
離線聚合的實現；在線-只有關鍵窗口。
短片TTL的權限/計分結果緩存，帶有計時器的異步外觀。
繼電器配額和預算；按命令/模型進行充電。

9）示例（片段）

9.1點計時采樣churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支付異常（偽代碼,隔離森林）

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-means細分（RFM+流派）

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4二元模型的成本閾值

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10）評估，驗證和實驗

離線：臨時分裂（train/val/test by time/Market）、反向測試、引導信任。
在線：A/B/n，序列測試，CUPED/diff-diff。
非策略：用於個性化策略的IPS/DR。
校準：用於正確概率的Platt/Isotonic。
降解控制：按業務指標和PR-AUC/KS進行評估。

11) RACI

R（響應能力）：數據科學（模型/實驗），MLOps（平臺/伺服器），Data Eng（fici/pipline）。

A (Accountable): Head of Data/CDO.

C（咨詢）：合規性/DPO（PII/RG/AML），安全（KMS/秘密），SRE（SLO/成本），財務（ROI）。
I （Informed）：產品/營銷/運營/支持。

12）實施路線圖

MVP（4-6周）：

1.目標/標簽和信號目錄（churn_30d，propensity_7d，risk_rg)。

2.Feature Store v1 （5-10 fich）,基本的XGBoost型號,離線度量碼。

3.k-means分段（8個群集）+分段描述；Isolation Forest用於付款。

4.帶緩存的在線伺服器，p95 <150 ms；A/B占流量的10-20％。

第二階段（6至12周）：

主動/半自上而下的標簽短缺（AML/RG），自上而下的遊戲/會話栓塞。
金絲雀發布，漂移監控，自動轉移。
單個語義層度量表和聯機/離線匹配。

第三階段（12至20周）：

圖形特征和指環；獎金的uplift模型。
多區域伺服器，配額/充電器；WORM版本存檔。
公平審計，壓力測試，事件運行手冊。

13）售前支票清單

點對點抽樣和針對泄漏的測試。
概率校準；按開銷選擇閾值。
模型卡（所有者、數據、指標、風險、公平）。
Feature Store：在線/離線合規性測試。
監視漂移/潛伏/錯誤，異常和自動滾動。
PII/DSAR/RTBF/法律保留政策；拼寫是非個人化的。
計劃A/B和統計能力被計算在內；runbook回滾準備就緒。

14）反模式

將新事件混合到標簽中（泄漏），並且沒有計時。
「一對一模型」代替域解構。
沒有自由化的概率→錯誤的商業門檻。
飛行「盲目」：在線沒有漂移/質量監測。
在線重排（沒有緩存和計時器的重型外部連接）。
沒有業務解釋和所有者的細分市場。

15）結果

與老師一起學習會給出可衡量的預測和風險/收入管理；沒有老師-沒有標簽的結構和信號。它們在數據學科（點對點，功能商店），編譯和MLOps中的組合（半自動/自我維持，主動學習）使iGaming平臺穩步提高Net Revenue，減少了偽造並及時進行了RG幹預-具有可重復性，成本控制和準備性審計。

與老師和沒有老師一起學習

Unsupervised

沒有老師

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案