یادگیری ماشین در iGaming
1) موارد کسب و کار و ارزش
محصول/درآمد: پیش بینی LTV، ریزش (خروج)، تمایل به سپرده/خرید، ماموریت/مأموریت پویا، بهترین اقدام/پیشنهاد بعدی.
بازاریابی/CRM: نگاه به طور یکسان، تقسیم بندی، محرک های زمان واقعی، بهینه سازی پاداش (ABO - بهینه سازی پاداش مقاوم در برابر سوء استفاده).
ریسک/انطباق: ضد تقلب/AML (سرعت، ساختار، ویژگی های نمودار)، بازی مسئولانه (RG) - میزان خطر، عوامل مداخله.
عملیات/SRE: پیش بینی حادثه، پیش بینی ظرفیت/ترافیک، ناهنجاری های ارائه دهنده.
امور مالی: پیش بینی GGR/NGR، حساسیت Fx، تشخیص دستکاری طرف مقابل.
دستورالعمل اثر: + 3-7٪ به درآمد خالص با توجه به شخصی سازی، − 20-40٪ به تقلب از دست دادن، − 10-25٪ به ریزش، پاسخ SLA RG <5 s در هنگام آنلاین.
2) مهندسی ویژگی
منابع: گیم پلی، پرداخت/PSP، احراز هویت، دستگاه ها/ASN/geo، RG/KYC/KYB، UTM بازاریابی، سیاهههای مربوط به ارائه دهنده، پشتیبانی/متون.
ویژگی های اساسی:- پنجره های رفتاری: N نرخ/سپرده و مقدار در هر 10 دقیقه/ساعت/روز، اعتبار/فرکانس/پولی.
- توالی: زنجیره ای از بازی ها، زمان با آخرین فعالیت، ویژگی های جلسه.
- جغرافیایی/دستگاه: کشور/بازار، ASN، نوع دستگاه/مرورگر.
- نمودار: اتصالات بازیکن-کارت-دستگاه-IP، اجزاء/مراکز (حلقه های تقلب).
- متنی: زمان روز/روز از هفته/تعطیلات بازار، ارائه دهنده/سبک/نوسانات بازی.
- RG/AML: محدودیت ها، خود حذفی، پرچم های غربالگری، PEP/تحریم ها (از طریق حافظه پنهان/asynchron).
- عادی سازی ارزها و زمان (محلی UTC + بازار).
- ابعاد تاریخی (SCD II)
- موافقت در مورد تبدیل آنلاین/آفلاین (کد فروشگاه تک ویژگی).
3) معماری: آفلاین ↔ آنلاین
3. 1 حلقه آفلاین
لیکهاوس: برنز → نقره (عادی/غنی سازی) → طلا (مجموعه داده).
فروشگاه ویژگی (آفلاین): ثبت فرمول، پیوستن به نقطه در زمان، تحقق مجموعه های آموزشی.
آموزش: ظروف با وابستگی های ثابت ؛ آزمایش های ردیابی (معیارها/مصنوعات/داده ها).
اعتبار سنجی: تقسیم k-fold/temporal، backtest، ارزیابی خارج از سیاست.
3. 2 مدار آنلاین
وارد کردن → پردازش جریان: Flink/Spark/Beam با پنجره ها/علامت ها، idempotency.
فروشگاه ویژگی (آنلاین): کش کم ثبت اختراع (Redis/Scylla) + کست های آفلاین.
خدمت: نقاط پایانی REST/gRPC، نمودار امتیاز دهی، مسیریابی AB، انتشار قناری.
فروشگاه های زمان واقعی: ClickHouse/Pinot برای پانل ها/قوانین.
4) مدل ها و رویکردها
طبقه بندی/امتیاز دهی: ریزش/سپرده/تقلب/RG (LogReg، XGBoost/LightGBM، TabNet، CatBoost).
رتبه بندی/توصیه ها: فاکتور/لیست رتبه بندی (LambdaMART)، seq2rec (RNN/ترانسفورماتور)، راهزنان متنی.
ناهنجاری ها: جنگل جداسازی، SVM یک کلاس، AutoEncoder، پیامبر/TSfresh برای سری های زمانی.
نمودار: Node2Vec/GraphSAGE/GNN برای حلقه های تقلب.
علیت: مدل های بالا بردن، T-learner/X-learner، DoWhy/CausalML.
NLP/ASR: بلیط/چت، طبقه بندی شکایات، احساسات، موضوعات.
5) معیارهای کیفیت
طبقه بندی: ROC-AUC/PR-AUC، F1 در آستانه های عملیاتی، هزینه مورد انتظار (FP/FN وزن)، KS برای نمره ریسک.
توصیه ها: NDCG @ K، MAP @ K، پوشش/تنوع، CTR/CVR آنلاین.
TS/پیش بینی: MAPE/SMAPE، WAPE، خطای P50/P90، پوشش PI.
RG/AML: دقت/یادآوری در SLA، میانگین زمان به فاصله.
اقتصاد: افزایش درآمد خالص، تقلب ذخیره شده، کمپین های ROI، سوء استفاده از پاداش٪.
6) ارزیابی و آزمایش
آفلاین: تقسیم زمانی، backtest توسط هفته/بازار/مستاجر.
آنلاین: A/B/n، CUPED/diff-in-diff، آزمایشات متوالی.
خارج از سیاست: IPS/DR برای سیاست های شخصی سازی.
قدرت حالت: محاسبه اندازه نمونه با توجه به واریانس و MDE.
python cost_fp = 5. 0 # false alarm cost_fn = 50. 0 # missed fraud threshold = pick_by_expected_cost (scores, labels, cost_fp, cost_fn)
7) حریم خصوصی، اخلاق، انطباق
کمینه سازی PII: نام مستعار، جداسازی نقشه، CLS/RLS.
اقامت: محدوده EEA/UK/BR جداگانه ؛ بدون پیوستن متقابل منطقه ای بدون پایه و اساس.
DSAR/RTBF: حذف/ویرایش در ویژگی ها و سیاهههای مربوط ؛ نگه حقوقی برای موارد/گزارش.
انصاف/تعصب: حسابرسی از ویژگی های, تاثیر متفاوت, کنترل متغیرهای پروکسی.
توضیح پذیری: اهمیت SHAP/ویژگی، کارت های مدل (مالک، تاریخ، داده ها، معیارها، خطرات).
امنیت: KMS/CMK، اسرار خارج از سیاهههای مربوط، آرشیو WORM از نسخه های.
8) MLOps: چرخه عمر
1. داده ها و ویژگی ها: طرح ها/قراردادها، قوانین DQ (کامل بودن/منحصر به فرد بودن/محدوده/زمانی)، اصل و نسب.
2. آموزش: ظروف، autotuning، آزمایش های ردیابی.
3. اعتبار سنجی: تست های سازگاری مدار، تعصب/انصاف، تست های عملکرد.
4. انتشار (CI/CD/CT): رول های قناری/مرحله ای، پرچم های ویژگی، «راه اندازی تاریک».
5. خدمت: خودکار سازی، ذخیره سازی، gRPC/REST، زمان بندی/بازپرداخت.
6. مانیتورینگ: رانش داده/پیش بینی (PSI/KL)، تاخیر p95، نرخ خطا، پوشش، «معیارهای خاموش».
7. Re-train: schedule/triggers on drift/degradation of metrics.
8. حوادث: runbook، rollback مدل، fallback (قانون/مدل ساده).
9) ویژگی فروشگاه (هسته قوام)
آفلاین: محاسبات نقطه در زمان، ضد نشت، ویژگی نسخه فرمول.
آنلاین: تاخیر کم (≤ 10-30 میلی ثانیه)، TTL، سازگاری با آفلاین.
قراردادها: نام/توضیحات، مالک، SLA، فرمول، آزمون های انطباق آنلاین/آفلاین.
yaml name: deposits_sum_10m owner: ml-risk slo: {latency_ms_p95: 20, availability: 0. 999}
offline:
source: silver. payments transform: "SUM(amount_base) OVER 10m BY user_pseudo_id"
online:
compute: "streaming_window: 10m"
tests:
- compare_online_offline_max_abs_diff: 0. 5
10) امتیاز دهی آنلاین و قوانین
ترکیبی ML + قوانین: مدل → سرعت + توضیحات ؛ قوانین - سخت گارد/اخلاق/قانون.
دوختن: الگوهای CEP (ساختار/سرعت/سوئیچ دستگاه) + امتیاز ML.
SLA: p95 پایان به پایان 50-150ms برای شخصی سازی، ≤ 2-5s برای هشدارهای RG/AML.
python features = feature_store. fetch(user_id)
score = model. predict(features)
if score > T_RG:
trigger_intervention(user_id, reason="RG_HIGH_RISK", score=score)
elif score > T_BONUS:
send_personal_offer(user_id, offer=choose_offer(score, seg))
11) داده های آموزش: نمونه ها و برچسب ها
پنجره های رویداد: t0 - مرجع، t0 + Δ - برچسب (سپرده/سیاه/تقلب).
کنترل نشت: پیوستن به نقطه در زمان، حذف رویدادهای آینده.
تعادل: طبقه بندی/وزن کلاس، از دست دادن کانونی برای کلاس های نادر.
اخلاق: حذف ویژگی های حساس/پروکسی، کنترل نفوذ.
12) اقتصاد و بهره وری
ویژگی های هزینه: تعداد هزینه/ویژگی و هزینه/درخواست، جلوگیری از سنگین آنلاین می پیوندد.
نقدی: ویژگی های داغ در RAM، سرد - تنبل.
تحقق: تجمع آفلاین ؛ آنلاین فقط انتقادی است.
سهمیه ها: محدودیت در تکرار، backtests در پنجره های زمان ؛ شارژ توسط تیم.
13) نمونه های SQL/شبه کد
نمونه نقطه در زمان برای ریزش (30 روز سکوت):sql
WITH base AS (
SELECT user_pseudo_id, MIN(event_time) AS first_seen
FROM silver. fact_bets
GROUP BY user_pseudo_id
),
agg AS (
SELECT user_pseudo_id,
DATE(t. event_time) AS asof,
SUM(amount_base) FILTER (WHERE type='deposit' AND event_time >= t. event_time - INTERVAL '30' DAY AND event_time < t. event_time) AS dep_30d,
COUNT() FILTER (WHERE type='bet' AND event_time >= t. event_time - INTERVAL '7' DAY) AS bets_7d
FROM silver. fact_events t
GROUP BY user_pseudo_id, DATE(t. event_time)
)
SELECT a. user_pseudo_id, a. asof, a. dep_30d, a. bets_7d,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events e
WHERE e. user_pseudo_id=a. user_pseudo_id AND e. event_time > a. asof AND e. event_time <= a. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS label_churn_30d
FROM agg a;
پنجره سپرده آنلاین (Flink SQL، 10 دقیقه):
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
14) نقشه راه پیاده سازی
MVP (4-6 هفته):1. کاتالوگ سیگنال ها و ویژگی های فروشگاه v1 (5-10 ویژگی برای پرداخت/گیم پلی).
2. مدل پایه ریزش/سپرده (XGBoost) + A/B برای 10-20٪ ترافیک.
3. گشت و گذار آنلاین با کش (p95 <150 ms) و canary releases.
4. رانش/نظارت بر کیفیت، کارت مدل، rollback runbook.
مرحله 2 (6-12 هفته):- امتیاز دهی RG/AML، ویژگی های نمودار، محرک های زمان واقعی.
- مدل های ارتقاء برای پاداش ها، راهزنان متنی، ارزیابی خارج از سیاست.
- خودکار مجدد آموزش توسط رانش/تقویم، اتوماسیون اسناد.
- شخصی سازی کاتالوگ بازی ها (seq2rec)، بهینه سازی چند منظوره (درآمد/مسئولیت).
- گشت و گذار چند منطقه ای، SLAs/سهمیه ها، بازپرداخت ویژگی ها/استنتاج.
- ممیزی عدالت و تست استرس، دریل DR و مخازن انتشار WORM.
15) RACI
R (مسئول): MLOps (پلت فرم/خدمت)، علوم داده (مدل/آزمایش)، مهندسی داده (ویژگی ها/خطوط لوله).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (PII/RG/AML/DSAR)، امنیت (KMS/اسرار)، SRE (SLO/ارزش)، امور مالی (اثر/ROI)، حقوقی.
I (مطلع): محصول/بازاریابی/عملیات/پشتیبانی.
16) چک لیست پیش فروش
- امکانات توافق آنلاین/آفلاین، آزمون حمل و نقل گذشت.
- کارت مدل (مالک، داده ها، معیارها، خطرات، انصاف) پر شده است.
- آزادی قناری/fichflag ؛ SLA و هشدار تاخیر/خطا/رانش.
- سیاست های PII/DSAR/RTBF/Legal Hold اجرا می شود ؛ سیاهههای مربوط غیر شخصی هستند.
- Runbook Incident/Rollback ؛ استراتژی عقب نشینی
- آزمایشات رسمی (فرضیه ها، معیارها، مدت زمان، MDE).
- هزینه استنتاج و ویژگی در بودجه گنجانده شده است ؛ محدودیت ها و محدودیت ها را شامل می شود.
17) ضد الگوهای
اختلاف آنلاین/آفلاین → عدم دسترسی.
API های خارجی همزمان در «مسیر داغ» بدون کش و وقفه.
فرمول متریک مات/هیچ کارت مدل.
بازآموزی/رانش بدون نظارت و overtraining.
PII در تجزیه و تحلیل و آموزش بدون CLS/RLS/به حداقل رساندن.
«یک مدل بزرگ برای همه چیز» بدون تجزیه دامنه.
18) خط پایین
ML در iGaming مجموعه ای از مدل های «سحر و جادو» نیست، بلکه یک رشته است: داده ها و ویژگی های سازگار، آموزش آفلاین قابل تکرار، گشت و گذار آنلاین قابل اعتماد، MLOps دقیق، معیارهای شفاف و اخلاق/انطباق. با پیروی از این راهنما، شما یک سیستم ایجاد خواهید کرد که به طور مداوم درآمد و نگهداری را افزایش می دهد، خطر را کاهش می دهد و مطابق با الزامات قانونی - در مقیاس، سریع و قابل پیش بینی است.