GH GambleHub

與老師和沒有老師一起學習

1)為何及何時

與老師(Supervised):有一個標簽(標簽)→預測概率/類/值。當可以理解「正確答案」並且有歷史記錄時,請使用:churn,7天的存款,RG/AML風險,離線響應概率,LTV預測。
沒有老師(Unsupervised):沒有標簽→我們找到結構/集群/異常/潛在因素:玩家細分、指環、主題遊戲概況、提供者故障識別、特征壓縮。

選擇規則:如果業務解決方案取決於特定的概率預測→則;如果目標是打開未知模式/信號,或降低數據維度→未知。實際上,它們是組合的。

2) iGaming典型案例

Supervised

Churn/重新激活:二進制分類(消失/不消失),用於暴露的uplift模型。
Propensity到存款/購買:地平線T中事件的概率。
RG/AML:風險障礙,結構概率,可疑會話。
反資產獎金:欺詐性使用促銷的可能性。
建議(排名):點擊的可能性/投註遊戲(listwise/pointwise)。

Unsupervised

玩家細分:根據RFM/行為/流派,k-means,GMM,HDBSCAN。
異常:Isolation Forest, LOF, AutoEncoder在付款/遊戲模式。
圖形分析:在Player-divays-Card-IP圖中進行聚類。
尺寸降低:PCA/UMAP用於成像和攝影工程。
主題模型:NMF/LDL用於遊戲描述/支持聊天。

3)數據和fichi

點對點連接以排除數據泄漏。
特征窗口:10分鐘/1小時/1天/7天/30天(回收、頻率、貨幣)。
背景:市場/管轄權/DST/假期,供應商/類型,設備/ASN。
圖形特征:唯一地圖/IP/Devys的數量,中心性。
貨幣/時區正常化,users/games/providers的SCD II。

4)算法和指標

和老師

算法:LogReg,XGBoost/LightGBM/CatBoost,TabNet;排名-LambdaMART/GBDT;時間序列-Prophet/ETS/Gradient Boosted TS。
指標:ROC-AUC/PR-AUC,F1@操作閾值,KS(風險),NDCG/MAP@K(建議),MAPE/WAPE(預測),帶有FP/FN重量的開銷。

沒有老師

聚類:k-means/GMM(聚類數為elbow/silhouette),HDBSCAN(密集)。
異常:隔離森林/LOF/AutoEncoder;度量標準是專家標記上的precision@k,合成異常上的AUCPR。
尺寸:PCA/UMAP用於攝影設計和可視化。

5)組合方法

Semi-Supervised:未標記數據部分(自我培訓)的偽標記,consistency regularization。
自我維護:對比/掩蓋任務(會議/遊戲的栓塞)→在超級維護中使用下遊。
主動學習:系統提供標記候選者(最大不確定性/多樣性)→節省AML/RG專家的工作。
Weak Supervision:啟發式方法/規則/差異標記形成「弱」標簽,然後進行校準。

6)過程: 從離線到在線伺服器

1.離線:收集/準備按時間/市場劃分的→ →培訓/驗證→背景。
2.語義指標:單一公式(例如,churn_30d)和固定時間窗口。
3.Feature Store:在線/離線幻燈片的統一公式;合規性測試。
4.在線瀏覽:gRPC/REST, SLA潛伏期,AB路由/金絲雀版本。
5.監視:數據/預測漂移(PSI/KL),latency p95,業務指標錯誤,Alerta。

7)隱私和合規性

PII最小化:化名,mapping隔離,CLS/RLS。
Residency:按地區劃分的單獨傳送帶/加密密鑰(EEA/UK/BR)。
DSAR/RTBF:刪除/編輯圖片和日誌;保留例外的法律依據。
法律保護:凍結調查/報告文物。
公平:代理信息審核,影響報告(SHAP), RG幹預政策。

8)經濟和生產力

計算幻影(cost/feature)和地獄(cost/request)的成本。
離線聚合的實現;在線-只有關鍵窗口。
短片TTL的權限/計分結果緩存,帶有計時器的異步外觀。
繼電器配額和預算;按命令/模型進行充電。

9)示例(片段)

9.1點計時采樣churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支付異常(偽代碼,隔離森林)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-means細分(RFM+流派)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4二元模型的成本閾值

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10)評估,驗證和實驗

離線:臨時分裂(train/val/test by time/Market)、反向測試、引導信任。
在線:A/B/n,序列測試,CUPED/diff-diff。
非策略:用於個性化策略的IPS/DR。
校準:用於正確概率的Platt/Isotonic。
降解控制:按業務指標和PR-AUC/KS進行評估。

11) RACI

R(響應能力):數據科學(模型/實驗),MLOps(平臺/伺服器),Data Eng(fici/pipline)。

A (Accountable): Head of Data/CDO.

C(咨詢):合規性/DPO(PII/RG/AML),安全(KMS/秘密),SRE(SLO/成本),財務(ROI)。
I (Informed):產品/營銷/運營/支持。

12)實施路線圖

MVP(4-6周):

1.目標/標簽和信號目錄(churn_30d,propensity_7d,risk_rg)。

2.Feature Store v1 (5-10 fich),基本的XGBoost型號,離線度量碼。

3.k-means分段(8個群集)+分段描述;Isolation Forest用於付款。

4.帶緩存的在線伺服器,p95 <150 ms;A/B占流量的10-20%。

第二階段(6至12周):
  • 主動/半自上而下的標簽短缺(AML/RG),自上而下的遊戲/會話栓塞。
  • 金絲雀發布,漂移監控,自動轉移。
  • 單個語義層度量表和聯機/離線匹配。
第三階段(12至20周):
  • 圖形特征和指環;獎金的uplift模型。
  • 多區域伺服器,配額/充電器;WORM版本存檔。
  • 公平審計,壓力測試,事件運行手冊。

13)售前支票清單

  • 點對點抽樣和針對泄漏的測試。
  • 概率校準;按開銷選擇閾值。
  • 模型卡(所有者、數據、指標、風險、公平)。
  • Feature Store:在線/離線合規性測試。
  • 監視漂移/潛伏/錯誤,異常和自動滾動。
  • PII/DSAR/RTBF/法律保留政策;拼寫是非個人化的。
  • 計劃A/B和統計能力被計算在內;runbook回滾準備就緒。

14)反模式

將新事件混合到標簽中(泄漏),並且沒有計時。
「一對一模型」代替域解構。
沒有自由化的概率→錯誤的商業門檻。
飛行「盲目」:在線沒有漂移/質量監測。
在線重排(沒有緩存和計時器的重型外部連接)。
沒有業務解釋和所有者的細分市場。

15)結果

與老師一起學習會給出可衡量的預測和風險/收入管理;沒有老師-沒有標簽的結構和信號。它們在數據學科(點對點,功能商店),編譯和MLOps中的組合(半自動/自我維持,主動學習)使iGaming平臺穩步提高Net Revenue,減少了偽造並及時進行了RG幹預-具有可重復性,成本控制和準備性審計。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。