iGaming машиналық оқыту
1) Бизнес-кейстер және құндылық
Өнім/кіріс: LTV болжамы, churn (әкету), депозитке/сатып алуға пропенситтер, динамикалық миссиялар/квесттер, next-best-action/offer.
Маркетинг/CRM: look-alike, сегментация, real-time триггерлері, бонустарды оңтайландыру (ABO - Abuse-resistant Bonus Optimization).
Тәуекел/Комплаенс: антифрод/AML (velocity, құрылымдау, графалық белгілер), Responsible Gaming (RG) - тәуекел-скор, араласу триггерлері.
Операциялар/SRE: оқиғаларды болжау, capacity/traffic forecasting, провайдерлердің ауытқулары.
Қаржы: GGR/NGR болжамы, Fx-сезімталдығы, контрагенттердің манипуляцияларын детекциялау.
Әсер ету бағдарлары: дербестендіру есебінен Net Revenue-ге + 3-7%, fraud-loss-ке − 20-40%, churn-ге − 10-25%, онлайн кезінде RG <5 с ден қою SLA.
2) Деректер мен белгілер (Feature Engineering)
Дереккөздер: gameplay, төлемдер/PSP, аутентификация, құрылғылар/ASN/гео, RG/KYC/KYB, маркетингтік UTM, провайдерлік логтар, саппорт/мәтіндер.
Негізгі фичтер:- Мінез-құлық терезелері: Ставкалардың/депозиттердің N және 10 мин/сағат/күн үшін сома, recency/frequency/monetary.
- Бірізділігі: ойын тізбегі, соңғы белсенділігі бар уақыт, сессиялық белгілер.
- Гео/құрылғы: ел/нарық, ASN, девайс/шолғыш түрі.
- Графикалық: ойыншы-карта-құрылғы-IP байланыстары, компоненттер/орталықтықтар (fraud rings).
- Контекст: тәулік уақыты/апта күні/базар мерекелері, провайдер/жанр/ойынның құбылмалылығы.
- RG/AML: лимиттер, өзін-өзі жою, скрининг жалаулары, РЕР/санкциялар (кэш/асинхрон арқылы).
- Валюталар мен уақытты қалыпқа келтіріңіз (UTC + жергілікті нарық).
- Өлшемдерді тарихтаңыз (SCD II).
- Онлайн/офлайн трансформацияны келісіңіз (Feature Store-дағы бірыңғай код).
3) Сәулет: онлайн режимінде
3. 1 Офлайн контур
Lakehouse: Bronze → Silver (қалыпқа келтіру/байыту) → Gold (датасеттер).
Feature Store (offline): формула тіркелімі фич, point-in-time join, оқыту іріктемелерін материалдандыру.
Тренинг: белгіленген тәуелділіктері бар контейнерлер; эксперименттердің трекингі (метриктер/артефактілер/деректер).
Валидация: k-fold/temporal split, backtest, off-policy бағалау.
3. 2 Онлайн контур
Ingest → Stream Processing: Flink/Spark/Beam терезелерімен/watermarks, демпотенттілігі.
Feature Store (online): төмен патентті кэш (Redis/Scylla) + офлайн бедерлері.
Сервинг: REST/gRPC эндпоинттер, скоринг бағандары, AB-роутинг, канареялық релиздер.
Real-time витриналар: панельдер/ережелер үшін ClickHouse/Pinot.
4) Үлгілік модельдер мен тәсілдер
Жіктеу/скоринг: churn/депозит/фрод/RG (LogReg, XGBoost/LightGBM, TabNet, CatBoost).
Ранжирлеу/ұсынымдар: факторизация/лист-рангинг (LambdaMART), seq2rec (RNN/Transformers), контекстік бандиттер.
Ауытқулар: уақытша қатарлар үшін Isolation Forest, One-Class SVM, AutoEncoder, Prophet/TSfresh.
Графалық: алаяқтық сақиналары үшін Node2Vec/GraphSAGE/GNN.
Себептері (causal): uplift-модельдері, T-learner/X-learner, DoWhy/CausalML.
NLP/ASR: тикеттер/чаттар, шағымдардың жіктелуі, sentiment, тақырыптар.
5) Сапа өлшемдері
Жіктелуі: ROC-AUC/PR-AUC, F1 операциялық табалдырықтарда, expected cost (өлшенген FP/FN), KS тәуекел-скоринг үшін.
Ұсынымдар: NDCG @K, MAP @K, coverage/diversity, CTR/CVR онлайн.
TS/Forecast: MAPE/SMAPE, WAPE, P50/P90 қате, PI жабыны.
RG/AML: SLA кезінде precision/recall, орташа time-to-intervene.
Экономика: Net Revenue uplift, fraud saved, ROI кампаниялары,% бонус-абьюза.
6) Бағалау және эксперименттер
Офлайн: temporal split, backtest апталар/нарықтар/теңгелер бойынша.
Онлайн: A/B/n, CUPED/diff-in-diff, sequential tests.
Off-policy: Дербестендіру саясаты үшін IPS/DR.
Стат. қуаты: дисперсия мен MDE есебімен іріктеме өлшемін есептеу.
python cost_fp = 5. 0 # false alarm cost_fn = 50. 0 # missed fraud threshold = pick_by_expected_cost (scores, labels, cost_fp, cost_fn)
7) Құпиялылық, этика, комплаенс
PII-минимизация: бүркеншік атаулар, маппингтерді оқшаулау, CLS/RLS.
Резиденттік: EEA/UK/BR бөлек контурлары; негізсіз кросс-өңірлік join 'оларсыз.
DSAR/RTBF: фич және логтардағы жою/редакциялау; Кейстер/есептілік үшін Legal Hold.
Fairness/бейтараптық: фич аудиті, disparate impact, proxy-айнымалыларды бақылау.
Explainability: SHAP/feature importance, модель карточкалары (owner, күні, деректері, өлшемдері, тәуекелдері).
Қауіпсіздік: KMS/CMK, журналдардан тыс құпиялар, WORM-релиздер мұрағаттары.
8) MLOps: өмірлік цикл
1. Data & Features: схемалар/келісімшарттар, DQ-ережелер (completeness/uniqueness/range/temporal), lineage.
2. Тренинг: контейнерлер, автотюнинг, эксперименттердің трекингі.
3. Валидация: схемалардың үйлесімділік тестілері, bias/fairness, performance-тестілер.
4. Релиз (CI/CD/CT): канареялық/кезең-кезеңмен көтерілу, фича-жалаулар, «қараңғы ұшыру».
5. Сервинг: автоскейлинг, кэштеу, gRPC/REST, timeouts/ретра.
6. Мониторинг: деректер/болжамдар дрейфі (PSI/KL), latency p95, error-rate, coverage, «silent metrics».
7. Re-train: дрейф бойынша кесте/триггерлер/метриктердің тозуы.
8. Оқиғалар: runbook, модель қайтару, fallback (ереже/қарапайым үлгі).
9) Feature Store (келісім өзегі)
Офлайн: point-in-time есептеу, anti-leakage, фич формуласының нұсқасы.
Онлайн: төмен жасырындылық (≤ 10-30 мс), TTL, офлайнмен үйлесімділік.
Келісімшарттар: аты/сипаттамасы, иесі, SLA, формула, сәйкестік тестілері online/offline.
yaml name: deposits_sum_10m owner: ml-risk slo: {latency_ms_p95: 20, availability: 0. 999}
offline:
source: silver. payments transform: "SUM(amount_base) OVER 10m BY user_pseudo_id"
online:
compute: "streaming_window: 10m"
tests:
- compare_online_offline_max_abs_diff: 0. 5
10) Онлайн скоринг және ережелер
Гибрид ML + Руль: модель → жылдам + түсініктеме; ережелер - hard-guard/этика/заң.
Тігу: CEP-паттерндер (structuring/velocity/device switch) + ML-скоринг.
SLA: p95 энд-ту-энд персоналдандыру үшін 50-150 мс, RG/AML ≤ үшін 2-5 с.
python features = feature_store. fetch(user_id)
score = model. predict(features)
if score > T_RG:
trigger_intervention(user_id, reason="RG_HIGH_RISK", score=score)
elif score > T_BONUS:
send_personal_offer(user_id, offer=choose_offer(score, seg))
11) Оқытуға арналған деректер: іріктемелер мен лейблдер
Оқиға терезелері: t0 - референс, t0 + Δ - лейбл (депозит/қара/фрод).
Leakage-бақылау: point-in-time join, болашақ оқиғаларды болдырмау.
Теңгерім: кластардың стратификациясы/салмағы, сирек сыныптар үшін focal loss.
Этика: сезімтал атрибуттарды/проксиді алып тастау, әсерін бақылау.
12) Экономика және өнімділік
Фич құны: cost/feature және cost/request санаңыз, ауыр online-join 'oларды болдырмаңыз.
Кэш: RAM ыстық фичтер, суық фичтер - lazy.
Материалдандыру: офлайн агрегациясы; онлайнда тек сыни.
Квоталар: уақыт терезелері бойынша реплеяларға, бэктестерге арналған лимиттер; командалар бойынша chargeback.
13) SQL/жалған кодтың мысалдары
Point-in-time churn үшін іріктеме (30 күн тыныштық):sql
WITH base AS (
SELECT user_pseudo_id, MIN(event_time) AS first_seen
FROM silver. fact_bets
GROUP BY user_pseudo_id
),
agg AS (
SELECT user_pseudo_id,
DATE(t. event_time) AS asof,
SUM(amount_base) FILTER (WHERE type='deposit' AND event_time >= t. event_time - INTERVAL '30' DAY AND event_time < t. event_time) AS dep_30d,
COUNT() FILTER (WHERE type='bet' AND event_time >= t. event_time - INTERVAL '7' DAY) AS bets_7d
FROM silver. fact_events t
GROUP BY user_pseudo_id, DATE(t. event_time)
)
SELECT a. user_pseudo_id, a. asof, a. dep_30d, a. bets_7d,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events e
WHERE e. user_pseudo_id=a. user_pseudo_id AND e. event_time > a. asof AND e. event_time <= a. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS label_churn_30d
FROM agg a;
Онлайн депозит терезесі (Flink SQL, 10 мин):
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
14) Енгізу жол картасы
MVP (4-6 апта):1. Сигналдар каталогы және Feature Store v1 (Payments/Gameplay үшін 5-10 бет).
2. Churn/депозиттің базалық моделі (XGBoost) + трафиктің 10-20% -на A/B.
3. Кэш (p95 <150 мс) және канареялық релиздері бар онлайн сервинг.
4. Дрейф/сапа мониторингі, модель карточкасы, runbook кері қайтару.
2-фаза (6-12 апта):- RG/AML-скорингтер, графикалық белгілер, real-time триггерлер.
- бонустар үшін Uplift модельдері, контекстік бандиттер, off-policy бағалау.
- Дрейф/күнтізбе бойынша авто-ре-трейн, құжаттаманы автоматтандыру.
- Ойын каталогын дербестендіру (seq2rec), мульти-объективті оңтайландыру (кіріс/жауапкершілік).
- Мульти-өңірлік сервинг, SLAs/квоталар, фич/инференс бойынша chargeback.
- Fairness-аудит және стресс-тесттер, DR-жаттығулар және WORM-релиздер репозиторийлері.
15) RACI
R (Responsible): MLOps (платформа/сервинг), Data Science (модельдер/эксперименттер), Data Eng (фичтер/пайплайндар).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/құпиялар), SRE (SLO/құны), Finance (Effect/ROI), Legal.
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.
16) Азық-түлік алдындағы чек-парағы
- Фичтер online/offline келісілді, өтімділік тестілері өтті.
- Модель карточкасы (owner, деректер, метрика, тәуекелдер, fairness) толтырылды.
- Канареялық релиз/фичфлаг; SLA және latency/қателер/дрейф алерттары.
- PII/DSAR/RTBF/Legal Hold саясаты сақталған; иесіз қалған.
- Оқиғалар/кері қайтару Runbook; fallback стратегиясы.
- Эксперименттер ресімделген (гипотезалар, метрика, ұзақтығы, MDE).
- Инференс пен фич құны бюджетке жазылған; квоталар мен лимиттер енгізілген.
17) Қарсы үлгілер
Алшақтық онлайн/офлайн → бұзылмаушылық.
Кэш пен таймаусыз «ыстық жолдағы» синхронды сыртқы API.
Метриканың мөлдір емес формулалары/үлгілер карточкаларының болмауы.
Мониторинг және қайта жаттықтырусыз қайта оқыту/дрейф.
PII CLS/RLS/азайтусыз талдауда және жаттығуда.
Домендік декомпозициясыз «барлығына бір үлкен модель».
18) Қорытынды
iGaming-тегі ML - «сиқырлы» модельдер жиынтығы емес, пән: келісілген деректер мен фичтер, ойнатылатын офлайн-тренинг, сенімді онлайн сервинг, қатаң MLOps, мөлдір метрика және этика/комплаенс. Осы нұсқаулықты басшылыққа ала отырып, сіз кіріс пен ұстап қалуды тұрақты арттыратын, тәуекелдерді төмендететін және реттеуші талаптарды сақтайтын жүйе құрасыз - масштабта, жылдам және болжамды.