教師の有無にかかわらず教える

1）理由と時期

監督：ラベル→確率/クラス/値を予測します。「正解」が明確であり、ストーリーがあるときに使用します。チャーン、7日間の預金、RG/AMLリスク、オファーへの応答の可能性、LTV予測。
監視されていない：マークがない→構造/クラスタ/異常/潜在的要因を見つける：プレーヤーのセグメンテーション、詐欺リング、ゲームのテーマ別プロファイル、プロバイダの障害の検出、サインの圧縮。

選択規則：ビジネスの決定が特定の確率的予測に依存している場合→監督；目的が未知のパターン/信号を開くか、またはデータの次元を減らすことであれば→監視されていない。実際には、それらは組み合わされます。

2）典型的なiGamingケース

監督された

チャーン/リアクティベーション：バイナリ分類（go/not go）、インパクトのアップリフトモデル。
入金/購入の傾向：地平線でのイベントの確率T。
RG/AML：リスク率、構造化の確率、疑わしいセッション。
ボーナス乱用防止：プロモーションの不正使用の可能性。
推薦（ランキング）：ゲームのクリック/ベットの確率（listwise/pointwise）。

監視対象外

プレーヤーのセグメンテーション：RFM/behavior/ジャンルによるk-means、 GMM、 HDBSCAN。
異常：アイソレーションフォレスト、LOF、支払い/ゲームパターンのAutoEncoder。
グラフ解析：「player-device-card-IP」列のクラスタリング。
ダウンサイズ：視覚化とフィーチャーエンジニアリングのためのPCA/UMAP。
テーマ別モデル：ゲームの説明/サポートチャットのためのNMF/LDL。

3）データと機能

データ漏洩を除外するポイント・イン・タイム接続。
特徴的な窓：10分/1 h/1 日/7日/30日（recency、頻度、金銭）。
コンテキスト：市場/管轄/DST/休日、プロバイダ/ジャンル、デバイス/ASN。
グラフの特徴：一意のカード/IP/デバイスの数、中心性。
通貨/タイムゾーン正規化、ユーザー/ゲーム/プロバイダのSCD II。

4）アルゴリズムとメトリック

先生と一緒に

アルゴリズム：LogReg、 XGBoost/LightGBM/CatBoost、 TabNet；ランキング-LambdaMART/GBDT；時系列-Prophet/ETS/Gradient Boosted TS。
メトリクス：ROC-AUC/PR-AUC、 F1@運用しきい値、KS（リスク）、NDCG/MAP@K（推奨値）、MAPE/WAPE（予測値）、FP/FN重量の予想コスト。

先生なし

クラスタリング：k-means/GMM（クラスタ数-肘/シルエット）、HDBSCAN（密度）。
異常：分離の森/LOF/AutoEncoder；メトリクス-エキスパートマークアップのprecision@k、合成異常のAUCPR。
ディメンション：特徴設計および視覚化のためのPCA/UMAP。

5）結合されたアプローチ

Semi-Supervised：未割り当てデータ（自己トレーニング）、整合性規制の一部の疑似バブル。
自己監督：対照的/マスクされたタスク（セッション/ゲームの埋め込み）→監督された下流で使用します。
Active Learning：システムはマーキング候補（最大不確実性/多様性）→AML/RG専門家の作業を節約します。
弱い監督：ヒューリスティクス/ルール/遠くのマークアップは「弱い」ラベルを形成し、次に校正します。

6）プロセス： オフラインからオンラインサーフィンへの

1.オフライン：収集/準備→時間/市場ごとに分割→トレーニング/検証→バックテスト。
2.メトリクスのセマンティクス：均一な数式（例えば、churn_30d）と固定時間ウィンドウ。
3.フィーチャーストア：オンライン/オフラインで均一なフィーチャーフォーミュラ；コンプライアンステスト。
4.オンラインサーフィン：gRPC/RESTエンドポイント、レイテンシーによるSLA、 ABルーティング/カナリアリリース。
5.モニタリング：データ/予測ドリフト（PSI/KL）、レイテンシーp 95、ビジネスメトリクスエラー、アラート。

7）プライバシーとコンプライアンス

PII最小化：仮名化、マッピング分離、CLS/RLS。
レジデンシー：地域別の個々のパイプライン/暗号化キー（EEA/UK/BR）。
DSAR/RTBF：機能とログを削除/編集します。例外の法的根拠を守れ。
法的保留：調査/報告のアーティファクトを凍結します。
公平性：監査プロキシ機能、インパクトレポート（SHAP）、 RG介入ポリシー。

8）経済性と生産性

特徴（費用/特徴）および推論（費用/要求）を計算する費用。
オフライン集計の具体化；オンライン-唯一の重要なウィンドウ。
短いTTLのパーミッション/スコアリング結果のキャッシュ、タイムアウトのある非同期ルックアップ。
リプレイ/バックテストのクォータと予算；コマンド/モデルによるチャージバック。

9）例（断片）

9.1 churn_30dのポイント・イン・タイム選択

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9.2支払い異常（擬似コード、孤立林）

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9.3 k-meansのセグメンテーション（RFM+ジャンル）

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9.4バイナリモデルのコストしきい値

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10）評価、検証、実験

オフライン：時間の割れ目（時間/市場によるtrain/val/test）、 backtesting、 bootstrapの信頼。
オンライン：A/B/n、シーケンシャルテスト、CUPED/diff-in-diff。
オフポリシー：パーソナライゼーションポリシーのIPS/DR。
キャリブレーション：正しい確率のためのプラット/アイソトニック。
劣化制御：ビジネスメトリックとPR-AUC/KSによるアラート。

11） RACI

R（責任ある）：データサイエンス（モデル/実験）、MLOps（プラットフォーム/サービング）、Data Eng（特徴/パイプライン）。
A（説明責任）：データ/CDOの責任者。
C（コンサルティング）：コンプライアンス/DPO （PII/RG/AML）、セキュリティ（KMS/secrets）、 SRE （SLO/value）、ファイナンス（ROI）。
I（インフォームド）：製品/マーケティング/オペレーション/サポート。

12）実装ロードマップ

MVP （4-6週）：

1.ターゲット/ラベルおよび信号のカタログ（churn_30d、 propensity_7d、 risk_rg)。

2.Feature Store v1 （5-10機能）、基本的なXGBoostモデル、オフラインメトリックダッシュボード。

3.k-means （8クラスタ）のセグメンテーション+セグメントの説明；支払いのための孤立の森。

4.キャッシュ付きオンラインサーフィン、p95 <150 ms；交通の10-20％のためのA/B。

フェーズ2（6-12週間）：

AML/RG （Active/Semi-Supervised for Label Scarcity）、自主的なゲーム/セッション埋め込み。
カナリアリリース、ドリフトモニタリング、自動再トレーニング。
メトリクスとオンライン/オフラインマッチング機能の1つのセマンティックレイヤー。

フェーズ3（12-20週間）：

グラフサインと詐欺リング；アップリフトボーナスモデル。
マルチリージョナルサービング、クォータ/チャージバック；リリースのWORMアーカイブ。
公平性監査、ストレステスト、ランブックインシデント。

13）売り上げ前のチェックリスト

ポイントインタイムサンプリングおよび漏れ防止テスト。
確率キャリブレーション；予想されるコストのしきい値を選択します。
モデルカード（所有者、データ、指標、リスク、公平性）。
Feature Store Online/Offline Compliance Test。
ドリフト/レイテンシ/エラー監視、アラートおよび自動ロールバック。
PII/DSAR/RTBF/法的保持ポリシー；ロギングは非人格的です。
プランA/Bと計算された統計力；rollback runbookは準備ができています。

14）アンチパターン

新しいイベントをラベル（リーク）とポイントインタイムの不在に混在させます。
ドメイン分解の代わりに「すべてのための1つのモデル」。
いくつかのライブラリ化された確率→誤ったビジネスしきい値。
ブラインドフライト：オンラインドリフト/品質監視なし。
オンラインの過剰複合（キャッシュとタイムアウトのない重い外部結合）。
ビジネス通訳および所有者のない区分。

15）ボトムライン

監督された学習は、測定可能な予後とリスク/所得管理を提供します。教師なし-構造とマークがない場所の信号。データ分野（ポイント・イン・タイム、Feature Store）、コンプライアンス、MLOpsの組み合わせにより、iGamingプラットフォームは純収入が着実に増加し、詐欺やタイムリーなRG介入が減少します。

教師の有無にかかわらず教える

監視対象外

先生なし

お問い合わせ

迅速な連絡

動画はまもなく更新されます

現在、私たちはプロジェクトで非常に多忙です