Мугалим менен жана мугалимсиз окутуу

1) Эмне үчүн жана качан

Менен мугалим (Supervised): бир белги (лейбл) бар → ыктымалдуулугун алдын ала/класс/мааниси. Биз "туура жооп" түшүнүктүү жана тарыхы бар колдонушат: churn, 7 күндүк депозит, RG/AML тобокелдиги, offer жооп ыктымалдыгы, LTV божомолу.
Жок мугалим (Unsupervised): эч кандай белгилер → түзүмүн табуу/кластерлер/аномалиялар/жашыруун себептер: оюнчулардын сегменттештирүү, froda шакек, тематикалык оюн профилдери, провайдердик мүчүлүштүктөрдү аныктоо, белгилерди кысуу.

Тандоо эрежеси: эгерде бизнес чечим белгилүү бир ыктымалдуулукка көз каранды → supervised; максаты - белгисиз үлгүлөрдү/сигналдарды ачуу же маалыматтарды өлчөмүн азайтуу → unsupervised. Иш жүзүндө биригет.

2) типтүү учурларда iGaming

Supervised

Churn/реактивация: бинардык классификация (кетет/кетпейт), таасир этүү үчүн uplift моделдери.
Депозитке/сатып алууга пропенсити: горизонттогу окуялардын ыктымалдыгы Т.
RG/AML: тобокелдик-тез, структуралаштыруу ыктымалдыгы, шектүү сессия.
Antiabuse бонустар: алдамчылык промо пайдалануу ыктымалдыгы.
Сунуштар (ранжирлөө): оюнду басуу/коюм ыктымалдыгы (listwise/pointwise).

Unsupervised

Оюнчулардын сегментациясы: k-means, GMM, RFM/жүрүм-турум/жанрлар боюнча HDBSCAN.
Аномалиялар: Isolation Forest, LOF, AutoEncoder төлөмдөр/оюн үлгүлөрү боюнча.
Graph талдоо: "оюнчу-аппарат-карта-IP" тилкесинде кластерлөө.
Көлөмдүн төмөндөшү: PCA/UMAP Visualize жана Fich Engineering үчүн.
Тематикалык моделдер: NMF/LDL оюн сүрөттөлүшү/чат колдоо.

3) Маалыматтар жана чыпкалар

Point-in-time байланыш data leakage жокко чыгаруу үчүн.
Windows белгилери: 10 мин/1 саат/1 күн/7 күн/30 күн (recency, frequency, акча).
Контекст: базар/юрисдикция/DST/майрамдар, провайдер/жанр, түзмөк/ASN.
Графикалык белгилер: уникалдуу карталардын/IP/түзмөктөрдүн саны, борборлоштук.
Валюталарды/убакыт алкактарын нормалдаштыруу, users/games/providers үчүн SCD II.

4) Алгоритмдер жана метрика

мугалим менен

Алгоритмдер: LogReg, XGBoost/LightGBM/CatBoost, TabNet; рейтинг үчүн - LambdaMART/GBDT; убакыт катар - Prophet/ETS/Gradient Boosted TS.
Метриктер: ROC-AUC/PR-AUC, F1 @операционный босогосу, KS (тобокелдик), NDCG/MAP @K (сунуштар), MAPE/WAPE (божомолдор), FP/FP таразалары менен коштолгон N.

мугалим жок

Кластерлештирүү: k-means/GMM (кластерлердин саны - elbow/silhouette), HDBSCAN (тыгыздыгы).
Аномалиялар: Isolation Forest/LOF/AutoEncoder; метриктер - precision @k эксперттердин белгилөө боюнча, AUCPR синтетикалык аномалиялар боюнча.
Көлөмү: PCA/UMAP Fich дизайн жана визуалдаштыруу үчүн.

5) айкалыштырылган ыкмалар

Жарым-Supervised: такталбаган маалыматтардын бир бөлүгү үчүн псевдо-лейблдер (өзүн-өзү окутуу), consistency regularization.
Self-Supervised: карама-каршы/камуфляж милдеттери (сессиялар/оюндар эмбеддинг) → supervised downstream колдонуу.
Active Learning: система белгилөө үчүн талапкерлерди сунуш кылат (максималдуу белгисиздик/ар түрдүүлүк) → AML/RG эксперттердин эмгегин үнөмдөйт.
Weak Supervision: euristics/эрежелер/алсыз белгилөө "алсыз" белги түзүү, андан кийин калибрлөө.

6) Процесс: оффлайн режиминен онлайн сервисине чейин

1. Offline: чогултуу/даярдоо → убакыт/базарлар боюнча split → окутуу/валидация → backtest.
2. Метриканын семантикасы: бирдиктүү формулалар (мисалы, churn_30d) жана туруктуу убакыт терезелери.
3. Feature Store: бирдиктүү формулалар онлайн/оффлайн; шайкештик тесттер.
4. Онлайн тейлөө: gRPC/REST, жашыруун SLA, AB-роутинг/канарейка релиздери.
5. Мониторинг: маалымат/алдын ала (PSI/KL), latency p95, бизнес-метр ката, Алерт.

7) Купуялык жана комплаенс

PII-минималдаштыруу: псевдонимизациялоо, маппингдерди изоляциялоо, CLS/RLS.
Residency: региондор боюнча өзүнчө конвейерлер/шифрлөө ачкычтары (EEA/UK/BR).
DSAR/RTBF: өчүрүү/түзөтүү Чичи жана Логи; укуктук негиздерин сактайбыз.
Legal Hold: тергөө/отчеттуулук артефакттарын тоңдуруу.
Fairness: proxy аудит, таасир отчеттор (SHAP), RG кийлигишүү саясаты.

8) Экономика жана аткаруу

эсептөө наркы fich (cost/feature) жана inferens (cost/request).
Оффлайн агрегаттарды материалдаштыруу; онлайн - гана маанилүү терезелер.
Кыска TTL, убакыт менен асинхрондук lookups үчүн алдын ала уруксат/балл натыйжалары.
Репликаларга/бэктесттерге квоталар жана бюджеттер; командалар/моделдер боюнча chargeback.

9) Мисалдар (фрагменттер)

9. 1-пункту-жылы-убакыт churn_30d үчүн үлгү

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Төлөмдөрдүн аномалиялары (псевдокод, Isolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 k-means сегменттөө (RFM + жанрлары)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 бинардык модели үчүн наркы босого

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Баалоо, валидация жана эксперименттер

Оффлайн: temporal split (train/val/test by time/market), backtesting, bootstrap ишеним.
Онлайн: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-саясат: IPS/DR жекелештирүү саясаты үчүн.
калибрлөө: туура ыктымалдыгы үчүн Platt/Isotonic.
Деградацияны көзөмөлдөө: бизнес-метриктер жана PR-AUC/KS боюнча аллергиялар.

11) RACI

R (Responsible): Data Science (моделдер/эксперименттер), MLOps (платформа/сервинг), Data Eng (фич/пайплайндар).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/сырлар), SRE (SLO/наркы), Finance (ROI).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.

12) Ишке ашыруунун жол картасы

MVP (4-6 жума):

1. Максаттар/лейблдер жана сигналдар каталогу (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (5-10 бет), XGBoost негизги моделдер, оффлайн-метрикалык дашборддор.

3. Сегментация k-means (8 кластерлер) + сегменттердин сүрөттөлүшү; төлөмдөр үчүн Isolation Forest.

4. кэш менен онлайн тейлөө, p95 <150 ms; А/Б 10-20% жол.

2-этап (6-12 жума):

Active/Жарым-Supervised үчүн этикеткалар тартыштыгы (AML/RG), өзүн-өзү supervised оюндар/сессиялар эмбеддинг.
Канар релиздери, дрейф-мониторинг, автоперетренация.
Бирдиктүү семантикалык катмар метрика жана шайкеш онлайн/offline fich.

Этап 3 (12-20 жума):

Графикалык белгилер жана фрод шакектери; бонустардын uplift-модели.
Көп аймактык тейлөө, квота/chargeback; WORM-релиздер архиви.
Fairness аудит, стресс-тесттер, runbooks окуялар.

13) Азык-түлүктүн алдындагы чек-тизме

Point-in-time үлгүлөрү жана тесттер каршы leakage.
Ыктымалдык калибрлөө; expected cost боюнча босого тандоо.
Карталар моделдер (owner, маалыматтар, метрика, тобокелдиктер, fairness).
Feature Store: онлайн/offline шайкештик сыноо.
Мониторинг Drift/жашыруун/каталар, Алерт жана авто Rollbek.
PII/DSAR/RTBF/Legal Hold саясаты; логин аноним.
План A/B жана статистикалык кубаттуулугу эсептелет; runbook кайра даяр.

14) Анти-үлгүлөрү

Жаңы окуяларды лейблдерге аралаштыруу (leakage) жана чекит-убакыттын жоктугу.
Домендик декомпозициянын ордуна "баары үчүн бир модель".
Жок Librowed ыктымалдыгы → туура эмес бизнес босоголор.
Учуу "сокур": онлайн эч кандай мониторинг dreyf/сапаты.
онлайн (кэш жана убакыт жок оор external-join's).
бизнес-чечмелөө жана ээси жок сегменттер.

15) Жыйынтык

мугалим менен окутуу өлчөнгөн божомол жана тобокелдик/киреше башкаруу берет; жок - түзүлүшү жана сигналдары жок жерде. Алардын айкалышы (semi/self-supervised, active learning) маалымат тартиби менен (point-in-time, Feature Store), комплаенс жана MLOps iGaming платформасына Net Revenue туруктуу өсүшүн, фрод кыскартууну жана өз убагында RG интервенцияларын берет - менен кайталанышы, наркын контролдоо жана аудитке даярдыгы.

Мугалим менен жана мугалимсиз окутуу

Unsupervised

мугалим жок

Биз менен байланышыңыз

Ыкчам байланыш

Видео жакында жаңыртылат

Азыр биз долбоорлор менен абдан алекпиз