Мұғаліммен және мұғалімсіз
1) Неге және қашан
Мұғаліммен (Supervised): белгі (лейбл) бар → ықтималдықты/сыныпты/мәнді болжаймыз. «Дұрыс жауап» түсінікті болғанда пайдаланамыз және тарих бар: churn, 7 күндік депозит, RG/AML тәуекелі, офферге жауап беру ықтималдығы, LTV болжамы.
Мұғалімсіз (Unsupervised): таңбалар жоқ → құрылым/кластерлер/аномалиялар/жасырын факторлар: ойыншылардың сегментациясы, фрод сақиналары, тақырыптық ойындар профильдері, провайдерлік ақауларды анықтау, белгілердің қысылуы.
Таңдау ережесі: егер бизнес-шешім нақты ықтималдық болжамына байланысты болса → supervised; егер мақсат белгісіз паттерндерді/сигналдарды ашу немесе деректердің өлшемін азайту болса → unsupervised. Іс жүзінде біріктіріледі.
2) iGaming типтік кейстері
Supervised
Churn/реактивация: бинарлық жіктеу (кетеді/кетпейді), әсер ету үшін uplift модельдері.
Депозитке/сатып алуға қатысты пропенситі: T көкжиегіндегі оқиғаның ықтималдығы.
RG/AML: тәуекел-жылдамдық, құрылымдау ықтималдығы, күдікті сессия.
Антиабьюз бонустар: жарнаманы алаяқтықпен пайдалану ықтималдығы.
Ұсынымдар (ранжирлеу): ойынға басу/мөлшерлеме ықтималдығы (listwise/pointwise).
Unsupervised
Ойыншылардың сегментациясы: RFM/мінез-құлық/жанрлар бойынша k-means, GMM, HDBSCAN.
Аномалиялар: Isolation Forest, LOF, AutoEncoder төлем/ойын үлгілерінде.
Графалық талдау: «ойыншы-девайс-карта-IP» бағанында кластерлеу.
Өлшемдердің төмендеуі: визуализация және фич-инжиниринг үшін PCA/UMAP.
Тақырыптық модельдер: NMF/LDL ойындарды/қолдау чаттарын сипаттау үшін.
3) Деректер мен фичтер
data leakage болдырмау үшін point-in-time қосылымдары.
Белгілер терезелері: 10 мин/1 сағ/1 күн/7 күн/30 күн (recency, frequency, monetary).
Контекст: нарық/юрисдикция/DST/мерекелер, провайдер/жанр, құрылғы/ASN.
Графикалық белгілері: бірегей карталар/IP/девайстар саны, орталықтығы.
Валюта/сағат белдеулерін қалыпқа келтіру, users/games/providers үшін SCD II.
4) Алгоритмдер мен метриктер
Мұғаліммен
Алгоритмдер: LogReg, XGBoost/LightGBM/CatBoost, TabNet; ранжирлеу үшін - LambdaMART/GBDT; уақытша қатарлар - Prophet/ETS/Gradient Boosted TS.
Метриктер: ROC-AUC/PR-AUC, F1 @операционный табалдырық, KS (тәуекел), NDCG/MAP @K (ұсынымдар), MAPE/WAPE (болжамдар), FP/FP таразылары бар expected cost N.
Мұғалімсіз
Кластерлеу: k-means/GMM (кластерлер саны - elbow/silhouette), HDBSCAN (тығыздық).
Аномалиялар: Isolation Forest/LOF/AutoEncoder; метриктер - сарапшылардың белгілеуіндегі precision @k, синтетикалық аномалиялардағы AUCPR.
Өлшемі: PCA/UMAP фич-құрастыру және визуализация үшін.
5) Құрамдастырылған тәсілдер
Semi-Supervised: анықталмаған деректер бөлігіне арналған псевдолейблдер (self-training), consistency regularization.
Self-Supervised: қарама-қарсы/жасырын тапсырмалар (сессиялар/ойындар эмбеддингі) → supervised downstream пайдаланады.
Active Learning: жүйе таңбалауға кандидаттарды ұсынады (максималды белгісіздік/әртүрлілік) → AML/RG сарапшыларының еңбегін үнемдейді.
Weak Supervision: эвристиктер/ережелер/дистанциялық белгілеулер «әлсіз» лейблдерді қалыптастырады, содан кейін калибрлейді.
6) Процесс: офлайннан онлайнға сервингке
1. Офлайн: жинау/дайындау → уақыт/нарық бойынша split → оқыту/валидация → backtest.
2. Метрикалардың семантикасы: бірыңғай формулалар (мысалы, churn_30d) және тіркелген уақыт терезелері.
3. Feature Store: бірыңғай формулалар fich online/offline; сәйкестік тестілері.
4. Онлайн-сервинг: gRPC/REST эндпоинттері, жасырындылық бойынша SLA, AB-роутинг/канареялық релиздер.
5. Мониторинг: деректер/болжамдар дрейфі (PSI/KL), latency p95, бизнес-метрика қатесі, алерта.
7) Құпиялылық және комплаенс
PII-минимизация: псевдонимизация, маппингтерді оқшаулау, CLS/RLS.
Residency: аймақтар бойынша жеке конвейерлер/шифрлау кілттері (EEA/UK/BR).
DSAR/RTBF: фичтер мен логтерді жойамыз/өңдейміз; алып тастаудың құқықтық негіздерін сақтаймыз.
Legal Hold: тергеу/есептілік артефактілерін мұздату.
Fairness: прокси-фич аудиті, әсер ету есептері (SHAP), RG интервенция саясаты.
8) Экономика және өнімділік
Фич (cost/feature) және инференсті (cost/request) есептеу құны.
Офлайн-агрегаттарды материалдандыру; онлайн - тек күрделі терезелер.
Қысқа TTL, асинхронды lookups таймауттары бар рұқсаттар/скоринг нәтижелері кэші.
Реплеяларға/бэктестерге арналған квоталар мен бюджеттер; командалар/модельдер бойынша chargeback.
9) Мысалдар (фрагменттер)
9. 1 Point-in-time churn_30d үшін таңдау
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Төлемдердің аномалиялары (жалған құжат, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 k-means сегментациясы (RFM + жанрлар)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Бинарлық модельге арналған құн шегі
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Бағалау, валидация және эксперименттер
Офлайн: temporal split (уақыт/нарық бойынша train/val/test), backtesting, bootstrap сенім.
Онлайн: A/B/n, sequential tests, CUPED/дифф-дифф.
Off-policy: Дербестендіру саясаты үшін IPS/DR.
Калибрлеу: Platt/Isotonic дұрыс ықтималдықтар үшін.
Деградацияны бақылау: бизнес-метриктер және PR-AUC/KS бойынша alertlar.
11) RACI
R (Responsible): Data Science (модельдер/эксперименттер), MLOps (платформа/сервинг), Data Eng (фичтер/пайплайндар).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/құпиялар), SRE (SLO/құны), Finance (ROI).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.
12) Енгізу жол картасы
MVP (4-6 апта):1. Мақсаттар/лейблдер және сигналдар каталогы (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 фич), XGBoost базалық модельдері, офлайн-метриктердің дашбордтары.
3. k-means сегментациясы (8 кластер) + сегменттердің сипаттамасы; Төлемдер үшін Isolation Forest.
4. Кэші бар онлайн сервинг, p95 <150 мс; трафиктің 10-20% -ына A/B.
2-фаза (6-12 апта):- Лейблдер тапшылығы үшін Active/Semi-Supervised (AML/RG), ойындар/сессиялар эмбеддингі self-supervised.
- Канареялық релиздер, дрейф-мониторинг, автотренаждау.
- Метриканың бірыңғай семантикалық қабаты және online/offline фич.
- Графалық белгілер мен фрод сақиналары; бонустардың uplift-модельдері.
- Мульти-өңірлік сервинг, квоталар/chargeback; WORM релиздер мұрағаты.
- Fairness-аудит, стресс-тесттер, runbooks оқиғалар.
13) Азық-түлік алдындағы чек-парағы
- Point-in-time іріктемелер және leakage қарсы тесттер.
- Ықтималдықтарды калибрлеу; expected cost бойынша шекті таңдау.
- Модель карточкалары (owner, деректер, метрика, тәуекелдер, fairness).
- Feature Store: сәйкестік тесті online/offline.
- Дрейф/жасырындылық/қателер, алерта және авто-роллбек мониторингі.
- PII/DSAR/RTBF/Legal Hold саясаты; логин иесіз.
- A/B жоспары және статистикалық қуаты есептелді; runbook дайын.
14) Қарсы үлгілер
Жаңа оқиғаларды лейблдерге (leakage) араластыру және point-in-time болмауы.
Домендік декомпозицияның орнына «барлығына бір модель».
Беймәлім ықтималдықтар → қате бизнес табалдырықтары.
«Соқыр» ұшу: онлайнда дрейф/сапа мониторингі жоқ.
Онлайндағы күрделену (кэшсіз және таймаусыз ауыр external-join's).
Бизнес-интерпретациясы мен иесінсіз сегменттер.
15) Қорытынды
Мұғаліммен оқыту өлшенетін болжам және тәуекелді/табысты басқару береді; мұғалімсіз - құрылым мен белгісі жоқ сигналдар. Деректердің тәртібі (point-in-time, Feature Store), комплаенс және MLOps кезінде олардың үйлесімі (semi/self-supervised, active learning) iGaming-платформасына Net Revenue тұрақты өсімін, фродтың азаюын және уақтылы RG-интервенцияларды береді ұдайы өндірілуі, құнын бақылауы және аудитке дайындығы.