Мугалим менен жана мугалимсиз окутуу
1) Эмне үчүн жана качан
Менен мугалим (Supervised): бир белги (лейбл) бар → ыктымалдуулугун алдын ала/класс/мааниси. Биз "туура жооп" түшүнүктүү жана тарыхы бар колдонушат: churn, 7 күндүк депозит, RG/AML тобокелдиги, offer жооп ыктымалдыгы, LTV божомолу.
Жок мугалим (Unsupervised): эч кандай белгилер → түзүмүн табуу/кластерлер/аномалиялар/жашыруун себептер: оюнчулардын сегменттештирүү, froda шакек, тематикалык оюн профилдери, провайдердик мүчүлүштүктөрдү аныктоо, белгилерди кысуу.
Тандоо эрежеси: эгерде бизнес чечим белгилүү бир ыктымалдуулукка көз каранды → supervised; максаты - белгисиз үлгүлөрдү/сигналдарды ачуу же маалыматтарды өлчөмүн азайтуу → unsupervised. Иш жүзүндө биригет.
2) типтүү учурларда iGaming
Supervised
Churn/реактивация: бинардык классификация (кетет/кетпейт), таасир этүү үчүн uplift моделдери.
Депозитке/сатып алууга пропенсити: горизонттогу окуялардын ыктымалдыгы Т.
RG/AML: тобокелдик-тез, структуралаштыруу ыктымалдыгы, шектүү сессия.
Antiabuse бонустар: алдамчылык промо пайдалануу ыктымалдыгы.
Сунуштар (ранжирлөө): оюнду басуу/коюм ыктымалдыгы (listwise/pointwise).
Unsupervised
Оюнчулардын сегментациясы: k-means, GMM, RFM/жүрүм-турум/жанрлар боюнча HDBSCAN.
Аномалиялар: Isolation Forest, LOF, AutoEncoder төлөмдөр/оюн үлгүлөрү боюнча.
Graph талдоо: "оюнчу-аппарат-карта-IP" тилкесинде кластерлөө.
Көлөмдүн төмөндөшү: PCA/UMAP Visualize жана Fich Engineering үчүн.
Тематикалык моделдер: NMF/LDL оюн сүрөттөлүшү/чат колдоо.
3) Маалыматтар жана чыпкалар
Point-in-time байланыш data leakage жокко чыгаруу үчүн.
Windows белгилери: 10 мин/1 саат/1 күн/7 күн/30 күн (recency, frequency, акча).
Контекст: базар/юрисдикция/DST/майрамдар, провайдер/жанр, түзмөк/ASN.
Графикалык белгилер: уникалдуу карталардын/IP/түзмөктөрдүн саны, борборлоштук.
Валюталарды/убакыт алкактарын нормалдаштыруу, users/games/providers үчүн SCD II.
4) Алгоритмдер жана метрика
мугалим менен
Алгоритмдер: LogReg, XGBoost/LightGBM/CatBoost, TabNet; рейтинг үчүн - LambdaMART/GBDT; убакыт катар - Prophet/ETS/Gradient Boosted TS.
Метриктер: ROC-AUC/PR-AUC, F1 @операционный босогосу, KS (тобокелдик), NDCG/MAP @K (сунуштар), MAPE/WAPE (божомолдор), FP/FP таразалары менен коштолгон N.
мугалим жок
Кластерлештирүү: k-means/GMM (кластерлердин саны - elbow/silhouette), HDBSCAN (тыгыздыгы).
Аномалиялар: Isolation Forest/LOF/AutoEncoder; метриктер - precision @k эксперттердин белгилөө боюнча, AUCPR синтетикалык аномалиялар боюнча.
Көлөмү: PCA/UMAP Fich дизайн жана визуалдаштыруу үчүн.
5) айкалыштырылган ыкмалар
Жарым-Supervised: такталбаган маалыматтардын бир бөлүгү үчүн псевдо-лейблдер (өзүн-өзү окутуу), consistency regularization.
Self-Supervised: карама-каршы/камуфляж милдеттери (сессиялар/оюндар эмбеддинг) → supervised downstream колдонуу.
Active Learning: система белгилөө үчүн талапкерлерди сунуш кылат (максималдуу белгисиздик/ар түрдүүлүк) → AML/RG эксперттердин эмгегин үнөмдөйт.
Weak Supervision: euristics/эрежелер/алсыз белгилөө "алсыз" белги түзүү, андан кийин калибрлөө.
6) Процесс: оффлайн режиминен онлайн сервисине чейин
1. Offline: чогултуу/даярдоо → убакыт/базарлар боюнча split → окутуу/валидация → backtest.
2. Метриканын семантикасы: бирдиктүү формулалар (мисалы, churn_30d) жана туруктуу убакыт терезелери.
3. Feature Store: бирдиктүү формулалар онлайн/оффлайн; шайкештик тесттер.
4. Онлайн тейлөө: gRPC/REST, жашыруун SLA, AB-роутинг/канарейка релиздери.
5. Мониторинг: маалымат/алдын ала (PSI/KL), latency p95, бизнес-метр ката, Алерт.
7) Купуялык жана комплаенс
PII-минималдаштыруу: псевдонимизациялоо, маппингдерди изоляциялоо, CLS/RLS.
Residency: региондор боюнча өзүнчө конвейерлер/шифрлөө ачкычтары (EEA/UK/BR).
DSAR/RTBF: өчүрүү/түзөтүү Чичи жана Логи; укуктук негиздерин сактайбыз.
Legal Hold: тергөө/отчеттуулук артефакттарын тоңдуруу.
Fairness: proxy аудит, таасир отчеттор (SHAP), RG кийлигишүү саясаты.
8) Экономика жана аткаруу
эсептөө наркы fich (cost/feature) жана inferens (cost/request).
Оффлайн агрегаттарды материалдаштыруу; онлайн - гана маанилүү терезелер.
Кыска TTL, убакыт менен асинхрондук lookups үчүн алдын ала уруксат/балл натыйжалары.
Репликаларга/бэктесттерге квоталар жана бюджеттер; командалар/моделдер боюнча chargeback.
9) Мисалдар (фрагменттер)
9. 1-пункту-жылы-убакыт churn_30d үчүн үлгү
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Төлөмдөрдүн аномалиялары (псевдокод, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 k-means сегменттөө (RFM + жанрлары)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 бинардык модели үчүн наркы босого
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Баалоо, валидация жана эксперименттер
Оффлайн: temporal split (train/val/test by time/market), backtesting, bootstrap ишеним.
Онлайн: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-саясат: IPS/DR жекелештирүү саясаты үчүн.
калибрлөө: туура ыктымалдыгы үчүн Platt/Isotonic.
Деградацияны көзөмөлдөө: бизнес-метриктер жана PR-AUC/KS боюнча аллергиялар.
11) RACI
R (Responsible): Data Science (моделдер/эксперименттер), MLOps (платформа/сервинг), Data Eng (фич/пайплайндар).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/сырлар), SRE (SLO/наркы), Finance (ROI).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.
12) Ишке ашыруунун жол картасы
MVP (4-6 жума):1. Максаттар/лейблдер жана сигналдар каталогу (churn_30d, propensity_7d, risk_rg).
2. Feature Store v1 (5-10 бет), XGBoost негизги моделдер, оффлайн-метрикалык дашборддор.
3. Сегментация k-means (8 кластерлер) + сегменттердин сүрөттөлүшү; төлөмдөр үчүн Isolation Forest.
4. кэш менен онлайн тейлөө, p95 <150 ms; А/Б 10-20% жол.
2-этап (6-12 жума):- Active/Жарым-Supervised үчүн этикеткалар тартыштыгы (AML/RG), өзүн-өзү supervised оюндар/сессиялар эмбеддинг.
- Канар релиздери, дрейф-мониторинг, автоперетренация.
- Бирдиктүү семантикалык катмар метрика жана шайкеш онлайн/offline fich.
- Графикалык белгилер жана фрод шакектери; бонустардын uplift-модели.
- Көп аймактык тейлөө, квота/chargeback; WORM-релиздер архиви.
- Fairness аудит, стресс-тесттер, runbooks окуялар.
13) Азык-түлүктүн алдындагы чек-тизме
- Point-in-time үлгүлөрү жана тесттер каршы leakage.
- Ыктымалдык калибрлөө; expected cost боюнча босого тандоо.
- Карталар моделдер (owner, маалыматтар, метрика, тобокелдиктер, fairness).
- Feature Store: онлайн/offline шайкештик сыноо.
- Мониторинг Drift/жашыруун/каталар, Алерт жана авто Rollbek.
- PII/DSAR/RTBF/Legal Hold саясаты; логин аноним.
- План A/B жана статистикалык кубаттуулугу эсептелет; runbook кайра даяр.
14) Анти-үлгүлөрү
Жаңы окуяларды лейблдерге аралаштыруу (leakage) жана чекит-убакыттын жоктугу.
Домендик декомпозициянын ордуна "баары үчүн бир модель".
Жок Librowed ыктымалдыгы → туура эмес бизнес босоголор.
Учуу "сокур": онлайн эч кандай мониторинг dreyf/сапаты.
онлайн (кэш жана убакыт жок оор external-join's).
бизнес-чечмелөө жана ээси жок сегменттер.
15) Жыйынтык
мугалим менен окутуу өлчөнгөн божомол жана тобокелдик/киреше башкаруу берет; жок - түзүлүшү жана сигналдары жок жерде. Алардын айкалышы (semi/self-supervised, active learning) маалымат тартиби менен (point-in-time, Feature Store), комплаенс жана MLOps iGaming платформасына Net Revenue туруктуу өсүшүн, фрод кыскартууну жана өз убагында RG интервенцияларын берет - менен кайталанышы, наркын контролдоо жана аудитке даярдыгы.