GH GambleHub

教師の有無にかかわらず教える

1)理由と時期

監督:ラベル→確率/クラス/値を予測します。「正解」が明確であり、ストーリーがあるときに使用します。チャーン、7日間の預金、RG/AMLリスク、オファーへの応答の可能性、LTV予測。
監視されていない:マークがない→構造/クラスタ/異常/潜在的要因を見つける:プレーヤーのセグメンテーション、詐欺リング、ゲームのテーマ別プロファイル、プロバイダの障害の検出、サインの圧縮。

選択規則:ビジネスの決定が特定の確率的予測に依存している場合→監督;目的が未知のパターン/信号を開くか、またはデータの次元を減らすことであれば→監視されていない。実際には、それらは組み合わされます。

2)典型的なiGamingケース

監督された

チャーン/リアクティベーション:バイナリ分類(go/not go)、インパクトのアップリフトモデル。
入金/購入の傾向:地平線でのイベントの確率T。
RG/AML:リスク率、構造化の確率、疑わしいセッション。
ボーナス乱用防止:プロモーションの不正使用の可能性。
推薦(ランキング):ゲームのクリック/ベットの確率(listwise/pointwise)。

監視対象外

プレーヤーのセグメンテーション:RFM/behavior/ジャンルによるk-means、 GMM、 HDBSCAN。
異常:アイソレーションフォレスト、LOF、支払い/ゲームパターンのAutoEncoder。
グラフ解析:「player-device-card-IP」列のクラスタリング。
ダウンサイズ:視覚化とフィーチャーエンジニアリングのためのPCA/UMAP。
テーマ別モデル:ゲームの説明/サポートチャットのためのNMF/LDL。

3)データと機能

データ漏洩を除外するポイント・イン・タイム接続。
特徴的な窓:10分/1 h/1 日/7日/30日(recency、頻度、金銭)。
コンテキスト:市場/管轄/DST/休日、プロバイダ/ジャンル、デバイス/ASN。
グラフの特徴:一意のカード/IP/デバイスの数、中心性。
通貨/タイムゾーン正規化、ユーザー/ゲーム/プロバイダのSCD II。

4)アルゴリズムとメトリック

先生と一緒に

アルゴリズム:LogReg、 XGBoost/LightGBM/CatBoost、 TabNet;ランキング-LambdaMART/GBDT;時系列-Prophet/ETS/Gradient Boosted TS。
メトリクス:ROC-AUC/PR-AUC、 F1@運用しきい値、KS(リスク)、NDCG/MAP@K(推奨値)、MAPE/WAPE(予測値)、FP/FN重量の予想コスト。

先生なし

クラスタリング:k-means/GMM(クラスタ数-肘/シルエット)、HDBSCAN(密度)。
異常:分離の森/LOF/AutoEncoder;メトリクス-エキスパートマークアップのprecision@k、合成異常のAUCPR。
ディメンション:特徴設計および視覚化のためのPCA/UMAP。

5)結合されたアプローチ

Semi-Supervised:未割り当てデータ(自己トレーニング)、整合性規制の一部の疑似バブル。
自己監督:対照的/マスクされたタスク(セッション/ゲームの埋め込み)→監督された下流で使用します。
Active Learning:システムはマーキング候補(最大不確実性/多様性)→AML/RG専門家の作業を節約します。
弱い監督:ヒューリスティクス/ルール/遠くのマークアップは「弱い」ラベルを形成し、次に校正します。

6)プロセス: オフラインからオンラインサーフィンへの

1.オフライン:収集/準備→時間/市場ごとに分割→トレーニング/検証→バックテスト。
2.メトリクスのセマンティクス:均一な数式(例えば、churn_30d)と固定時間ウィンドウ。
3.フィーチャーストア:オンライン/オフラインで均一なフィーチャーフォーミュラ;コンプライアンステスト。
4.オンラインサーフィン:gRPC/RESTエンドポイント、レイテンシーによるSLA、 ABルーティング/カナリアリリース。
5.モニタリング:データ/予測ドリフト(PSI/KL)、 レイテンシーp 95、ビジネスメトリクスエラー、アラート。

7)プライバシーとコンプライアンス

PII最小化:仮名化、マッピング分離、CLS/RLS。
レジデンシー:地域別の個々のパイプライン/暗号化キー(EEA/UK/BR)。
DSAR/RTBF:機能とログを削除/編集します。例外の法的根拠を守れ。
法的保留:調査/報告のアーティファクトを凍結します。
公平性:監査プロキシ機能、インパクトレポート(SHAP)、 RG介入ポリシー。

8)経済性と生産性

特徴(費用/特徴)および推論(費用/要求)を計算する費用。
オフライン集計の具体化;オンライン-唯一の重要なウィンドウ。
短いTTLのパーミッション/スコアリング結果のキャッシュ、タイムアウトのある非同期ルックアップ。
リプレイ/バックテストのクォータと予算;コマンド/モデルによるチャージバック。

9)例(断片)

9.1 churn_30dのポイント・イン・タイム選択

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支払い異常(擬似コード、孤立林)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-meansのセグメンテーション(RFM+ジャンル)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4バイナリモデルのコストしきい値

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10)評価、検証、実験

オフライン:時間の割れ目(時間/市場によるtrain/val/test)、 backtesting、 bootstrapの信頼。
オンライン:A/B/n、シーケンシャルテスト、CUPED/diff-in-diff。
オフポリシー:パーソナライゼーションポリシーのIPS/DR。
キャリブレーション:正しい確率のためのプラット/アイソトニック。
劣化制御:ビジネスメトリックとPR-AUC/KSによるアラート。

11) RACI

R(責任ある):データサイエンス(モデル/実験)、MLOps(プラットフォーム/サービング)、Data Eng(特徴/パイプライン)。
A(説明責任):データ/CDOの責任者。
C(コンサルティング):コンプライアンス/DPO (PII/RG/AML)、セキュリティ(KMS/secrets)、 SRE (SLO/value)、ファイナンス(ROI)。
I(インフォームド):製品/マーケティング/オペレーション/サポート。

12)実装ロードマップ

MVP (4-6週):

1.ターゲット/ラベルおよび信号のカタログ(churn_30d、 propensity_7d、 risk_rg)。

2.Feature Store v1 (5-10機能)、基本的なXGBoostモデル、オフラインメトリックダッシュボード。

3.k-means (8クラスタ)のセグメンテーション+セグメントの説明;支払いのための孤立の森。

4.キャッシュ付きオンラインサーフィン、p95 <150 ms;交通の10-20%のためのA/B。

フェーズ2(6-12週間):
  • AML/RG (Active/Semi-Supervised for Label Scarcity)、自主的なゲーム/セッション埋め込み。
  • カナリアリリース、ドリフトモニタリング、自動再トレーニング。
  • メトリクスとオンライン/オフラインマッチング機能の1つのセマンティックレイヤー。
フェーズ3(12-20週間):
  • グラフサインと詐欺リング;アップリフトボーナスモデル。
  • マルチリージョナルサービング、クォータ/チャージバック;リリースのWORMアーカイブ。
  • 公平性監査、ストレステスト、ランブックインシデント。

13)売り上げ前のチェックリスト

  • ポイントインタイムサンプリングおよび漏れ防止テスト。
  • 確率キャリブレーション;予想されるコストのしきい値を選択します。
  • モデルカード(所有者、データ、指標、リスク、公平性)。
  • Feature Store Online/Offline Compliance Test。
  • ドリフト/レイテンシ/エラー監視、アラートおよび自動ロールバック。
  • PII/DSAR/RTBF/法的保持ポリシー;ロギングは非人格的です。
  • プランA/Bと計算された統計力;rollback runbookは準備ができています。

14)アンチパターン

新しいイベントをラベル(リーク)とポイントインタイムの不在に混在させます。
ドメイン分解の代わりに「すべてのための1つのモデル」。
いくつかのライブラリ化された確率→誤ったビジネスしきい値。
ブラインドフライト:オンラインドリフト/品質監視なし。
オンラインの過剰複合(キャッシュとタイムアウトのない重い外部結合)。
ビジネス通訳および所有者のない区分。

15)ボトムライン

監督された学習は、測定可能な予後とリスク/所得管理を提供します。教師なし-構造とマークがない場所の信号。データ分野(ポイント・イン・タイム、Feature Store)、コンプライアンス、MLOpsの組み合わせにより、iGamingプラットフォームは純収入が着実に増加し、詐欺やタイムリーなRG介入が減少します。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。