GH GambleHub

Modelleri öwretmek

1) Bellenilmegi we ýörelgeleri

Okuwyň maksady, RG/AML/Legal laýyklykda iş metrikasyny (Net Revenue, churn ↓, fraud ↓) gowulandyrýan durnukly, köpeldilip bilinýän we tygşytly modeli almakdyr.

Ýörelgeler:
  • Problem → Metric → Data: ilki bilen wezipe we operasiýa metrikasy/ýalňyşlyklaryň bahasy, soň bolsa dataset.
  • Nokat-in-time: Hiç bir fiş/bellik geljegi ulanmaýar.
  • Reproducibility: kesgitlenen seeds/wersiýalary, artefaktlara gözegçilik.
  • Simplicity first: esasy modellerden başlaň/fich; diňe subut edilen peýdada kynlaşdyrýarys.
  • Privacy by design: PII-minimallaşdyrmak, rezidentlik, audit.

2) Wezipäni we metrikleri resmileşdirmek

Klassifikasiýa: churn/depozit/frod/RG → PR-AUC, F1 @опер. bosagasy, KS, expected cost.
Regressiýa/çaklama: LTV/GGR → WAPE/SMAPE, P50/P90 ýalňyşlyk, PI ýapmak.
Reýting/teklipler: NDCG @K, MAP @K, coverage/diversity.
Onlaýn metrikler: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Bahasy boýunça çäk (psevdokod):
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datasetler we bölmek

Point-in-time join we SCD-laýyk ölçegler.
Synplaryň deňsizligi: stratifed sampling, class_weight, focal loss, oversampling seýrek hadysalar.
Wagt/bazarlar/tenantlar boýunça bölünişikler: train, val.

Temporal split (SQL ideýa):
sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Alamatlary taýýarlamak

Penjireler we agregatlar: 10m/1h/1d/7d/30d, R/F/M, tizlik/paýlar.
Kategoriýalar: hashing/one-hot; target encoding (time-aware).
Kadalaşma/skeyling: train parametrleri, artefaktlarda saklaýarys.
Grafiki/NLP/geo: batch gurýarys, Feature Store-da (online/offline) çap edýäris.

5) Esasy algoritmler

GBDT: XGBoost/LightGBM/CatBoost - tablo maglumatlary üçin güýçli baza.
Logistika regressiýasy/ElasticNet: düşündirilýän/arzan.
Maslahat beriji: LambdaMART, faktorizasiýa, seq2rec.
Anomaliýalar: Isolation Forest, AutoEncoder.
Wagt hatlary: Prophet/ETS/GBDT-senenama şekilleri boýunça.

6) Gaýtadan taýýarlamagy tertipleşdirmek we öňüni almak

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Irki duralga: patience we minimal gowulaşma bilen val boýunça metrika boýunça.

7) Giperparametrleri saýlamak

Grid/Random Inçe sazlamak üçin Baýesian/Hyperband.
Çäklendirmeler: iterasiýalaryň/wagtyň/bahanyň býudjeti, wal üçin "no-overfit" (birnäçe wagtlaýyn bölünişiklerde çapraz barlag).

Eskiz:
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Ähtimallyklary kalibrlemek

Platt/Isotonic на holdout; kalibrlemek funksiýasyny artefakt hökmünde saklamak.
ESE/relaýability barlaň; expected cost boýunça bosagalary täzeden utgaşdyrmak.

9) Düşündirilebilirlik we düşündirişler

Global: feature importance/SHAP, permutasiýa goşandy.
Lokal: Aýry-aýry çözgütler üçin SHAP (RG/AML halatlary).
Düşündirişleri onlaýn ulanmagyň töwekgelçiliklerini we ýol beriljekdigini resminamalaşdyrmak.

10) Köpeldilmegi we artefaktlary

Seed hemme ýerde: maglumatlar/model/saýlamak/bölmek.
Artefaktlar: maglumatlaryň wersiýasy, fiç-paypline, agram, kalibrlemek, bosagalar, konfigi.
Deterministic builds: kesgitlenen gaplar/garaşlylyk.

11) Synaglary yzarlamak

Hasaba alýarys: git-commit, dataset/fich wersiýalary, modelleri, metrikleri (off/online), artefaktlar we teswirler.
Synaglary atlandyrmagyň düzgünleri, taglar (domen/bazar/model).

12) Awtonom transfer → onlaýn

Üýtgeşmeleriň bitewi kody (Feature Store); online/offline ekwiwalentlik synagy.
Hyzmat etmek: REST/gRPC, wagt/retrailer/keş; kanar/tapgyrlaýyn çykmak.
Bosagasy/syýasaty: konfigurasiýa (fiça-baýdaklar), audit we roll-back.

13) Gözegçilik we süýşmek

Maglumat/tizlik: PSI/KL; çäklerden geçende alertler.
Kalibrlemek we metrikler: Akym belliklerinde ECE, PR-AUC/KS.
Iş metrikleri: uplift Net Revenue, fraud saved, RG-gatyşmalar, SLA.
Retrain triggerleri: dreýf/möwsümliligi/goýberilişi/möhleti boýunça.

14) Gizlinlik, rezidentlik, fairness

PII-minimalizasiýa: lakamlary, CLS/RLS, aýry-aýry mappingler.
Residency: aýry-aýry kataloglar/açarlar (EEA/UK/BR); esassyz sebitleýin join 'olaryň gadagan edilmegi.
Fairness: slays-analiz (bazar/enjam/hasap ýaşy), disparate impact, equalized odds; surat/bosagalar/agramlary düzetmek.

15) Cost-in engineering

Okuw bahasy: CPU/GPU-sagatlar, I/O, geçişleriň sany.
Inferens bahasy: latency/cost per request; onlaýn çyzgylara we modeliň ululygyna çäklendirmeler.
Materializasiýa: agyr çyzgylar - awtonom; onlaýn - çalt, kesilen.
Çargeback: synaglar/repleýler üçin býudjetler.

16) Mysallar (bölekler)

LightGBM (klassifikasiýa, Python eskizi):
python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Nokat-in-time (SQL-ideýa):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Expected cost bahasy we bosagany saýlamak:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Amallar we RACI

R (Responsible): Data Science (modeller/synaglar), Data Eng (datasetler/fiçler/Feature Store), MLOps (serving/monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/syrlar/audit), SRE (SLO/bahasy), Finance (ROI).
I (Informed): Önüm/Marketing/Amallar/Goldaw.

18) Durmuşa geçirmegiň ýol kartasy

MVP (3-6 hepde):

1. Meseleler we metrikler katalogy (expected cost), point-in-time datasets.

2. Esasy modeller (LogReg/GBDT) + kalibrlemek + modelleriň kartoçkalary.

3. Synaglary yzarlamak, kesgitlenen seeds/artefaktlar, reproducible builds.

4. Kanareýanyň onlaýn hyzmaty, bosagalar ýaly, metrik/dreýfiň alertleri.

2-nji faza (6-12 hepde):
  • Baýesowskiý/Hyperband saýlama, slaýs-analiz/fairness, retrain-triggers.
  • Ykdysadyýet fich/inferens, kesh/TTL, chargeback.
  • Metrik/bosagaly formulalaryň resminamalaşdyrylyşy, what-if simulýasiýa.
3-nji faza (12-20 hepde):
  • Köp sebit paýlaýynlary, DR/maşklar, WORM-relizleriň arhiwi.
  • Hil/kalibrlemek hasabatlarynyň awtogenerasiýasy, wakalar boýunça awto-gaýtadan taýýarlamak.
  • Sequential testing we awtomatiki durmak bilen A/B/n synaglary.

19) Azyk önüminden öň çek-sanawy

  • Wezipe we metrika iş taýdan ylalaşyldy; ýalňyşlyklaryň bahasy hasaplandy.
  • Dataset point-in-time; wagt/bazarlar boýunça bölmek; leýkedj ýok.
  • Saýlamak/tertipleşdirmek, irki durmak, ähtimallyklary kalibrlemek.
  • Model kartoçkasy: maglumatlar, çyzgylar, metrikler, töwekgelçilikler, fairness, eýesi.
  • Artefaktlar saklandy (agram, çip, kalibrlemek, bosagalar).
  • Online/offline ekwiwalentlik synagy geçdi; ficha-baýdak bilen hyzmat etmek.
  • Süýşmek/kalibrlemek/iş metriklerine gözegçilik etmek; retrain/rollback meýilnamalary.
  • PII/DSAR/RTBF syýasaty, rezidentlik we giriş barlagy berjaý edilýär.
  • Okuwyň/infensiýanyň bahasy býudjetine ýazylýar; SLA alertleri.

20) Anti-patternler we töwekgelçilikler

Leýkedge: SCD-ler bilen utgaşdyrylmadyk geljekdäki fiçler/bellikler.
Bir wal-nusgada "gök" sazlamak: wagtlaýyn bölekler/çapraz barlag ýok.
Bahasy boýunça kalibrlemegiň we bosagalaryň ýoklugy.
Onlaýn/awtonom gabat gelmezlik: önümdäki dürli netijeler.
"fairness/slays": bazarlarda/enjamlarda gizlin şowsuzlyklar.
Çäksiz repleýalar we gymmat bahaly hileler: peýdasyz gymmatyň ýokarlanmagy.

21) Jemleýji

Modelleri okatmak dolandyrylýan prosesdir: anyk wezipe we metrika, maglumatlaryň tertibi (nokat-in-time), yzygiderli sazlamak, kalibrlemek we köpeltmek, onlaýn görnüşde aç-açan geçirmek we hil, baha we töwekgelçiliklere yzygiderli gözegçilik etmek. Bu pleýbuka eýerip, önümi, saklamak we laýyklygy çalt, ahlakly we ygtybarly gowulaşdyrýan modelleri alarsyňyz.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Telegram
@Gamble_GC
Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.