Modelleri öwretmek
1) Bellenilmegi we ýörelgeleri
Okuwyň maksady, RG/AML/Legal laýyklykda iş metrikasyny (Net Revenue, churn ↓, fraud ↓) gowulandyrýan durnukly, köpeldilip bilinýän we tygşytly modeli almakdyr.
Ýörelgeler:- Problem → Metric → Data: ilki bilen wezipe we operasiýa metrikasy/ýalňyşlyklaryň bahasy, soň bolsa dataset.
- Nokat-in-time: Hiç bir fiş/bellik geljegi ulanmaýar.
- Reproducibility: kesgitlenen seeds/wersiýalary, artefaktlara gözegçilik.
- Simplicity first: esasy modellerden başlaň/fich; diňe subut edilen peýdada kynlaşdyrýarys.
- Privacy by design: PII-minimallaşdyrmak, rezidentlik, audit.
2) Wezipäni we metrikleri resmileşdirmek
Klassifikasiýa: churn/depozit/frod/RG → PR-AUC, F1 @опер. bosagasy, KS, expected cost.
Regressiýa/çaklama: LTV/GGR → WAPE/SMAPE, P50/P90 ýalňyşlyk, PI ýapmak.
Reýting/teklipler: NDCG @K, MAP @K, coverage/diversity.
Onlaýn metrikler: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datasetler we bölmek
Point-in-time join we SCD-laýyk ölçegler.
Synplaryň deňsizligi: stratifed sampling, class_weight, focal loss, oversampling seýrek hadysalar.
Wagt/bazarlar/tenantlar boýunça bölünişikler: train, val.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Alamatlary taýýarlamak
Penjireler we agregatlar: 10m/1h/1d/7d/30d, R/F/M, tizlik/paýlar.
Kategoriýalar: hashing/one-hot; target encoding (time-aware).
Kadalaşma/skeyling: train parametrleri, artefaktlarda saklaýarys.
Grafiki/NLP/geo: batch gurýarys, Feature Store-da (online/offline) çap edýäris.
5) Esasy algoritmler
GBDT: XGBoost/LightGBM/CatBoost - tablo maglumatlary üçin güýçli baza.
Logistika regressiýasy/ElasticNet: düşündirilýän/arzan.
Maslahat beriji: LambdaMART, faktorizasiýa, seq2rec.
Anomaliýalar: Isolation Forest, AutoEncoder.
Wagt hatlary: Prophet/ETS/GBDT-senenama şekilleri boýunça.
6) Gaýtadan taýýarlamagy tertipleşdirmek we öňüni almak
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Irki duralga: patience we minimal gowulaşma bilen val boýunça metrika boýunça.
7) Giperparametrleri saýlamak
Grid/Random Inçe sazlamak üçin Baýesian/Hyperband.
Çäklendirmeler: iterasiýalaryň/wagtyň/bahanyň býudjeti, wal üçin "no-overfit" (birnäçe wagtlaýyn bölünişiklerde çapraz barlag).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Ähtimallyklary kalibrlemek
Platt/Isotonic на holdout; kalibrlemek funksiýasyny artefakt hökmünde saklamak.
ESE/relaýability barlaň; expected cost boýunça bosagalary täzeden utgaşdyrmak.
9) Düşündirilebilirlik we düşündirişler
Global: feature importance/SHAP, permutasiýa goşandy.
Lokal: Aýry-aýry çözgütler üçin SHAP (RG/AML halatlary).
Düşündirişleri onlaýn ulanmagyň töwekgelçiliklerini we ýol beriljekdigini resminamalaşdyrmak.
10) Köpeldilmegi we artefaktlary
Seed hemme ýerde: maglumatlar/model/saýlamak/bölmek.
Artefaktlar: maglumatlaryň wersiýasy, fiç-paypline, agram, kalibrlemek, bosagalar, konfigi.
Deterministic builds: kesgitlenen gaplar/garaşlylyk.
11) Synaglary yzarlamak
Hasaba alýarys: git-commit, dataset/fich wersiýalary, modelleri, metrikleri (off/online), artefaktlar we teswirler.
Synaglary atlandyrmagyň düzgünleri, taglar (domen/bazar/model).
12) Awtonom transfer → onlaýn
Üýtgeşmeleriň bitewi kody (Feature Store); online/offline ekwiwalentlik synagy.
Hyzmat etmek: REST/gRPC, wagt/retrailer/keş; kanar/tapgyrlaýyn çykmak.
Bosagasy/syýasaty: konfigurasiýa (fiça-baýdaklar), audit we roll-back.
13) Gözegçilik we süýşmek
Maglumat/tizlik: PSI/KL; çäklerden geçende alertler.
Kalibrlemek we metrikler: Akym belliklerinde ECE, PR-AUC/KS.
Iş metrikleri: uplift Net Revenue, fraud saved, RG-gatyşmalar, SLA.
Retrain triggerleri: dreýf/möwsümliligi/goýberilişi/möhleti boýunça.
14) Gizlinlik, rezidentlik, fairness
PII-minimalizasiýa: lakamlary, CLS/RLS, aýry-aýry mappingler.
Residency: aýry-aýry kataloglar/açarlar (EEA/UK/BR); esassyz sebitleýin join 'olaryň gadagan edilmegi.
Fairness: slays-analiz (bazar/enjam/hasap ýaşy), disparate impact, equalized odds; surat/bosagalar/agramlary düzetmek.
15) Cost-in engineering
Okuw bahasy: CPU/GPU-sagatlar, I/O, geçişleriň sany.
Inferens bahasy: latency/cost per request; onlaýn çyzgylara we modeliň ululygyna çäklendirmeler.
Materializasiýa: agyr çyzgylar - awtonom; onlaýn - çalt, kesilen.
Çargeback: synaglar/repleýler üçin býudjetler.
16) Mysallar (bölekler)
LightGBM (klassifikasiýa, Python eskizi):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Nokat-in-time (SQL-ideýa):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Expected cost bahasy we bosagany saýlamak:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Amallar we RACI
R (Responsible): Data Science (modeller/synaglar), Data Eng (datasetler/fiçler/Feature Store), MLOps (serving/monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/syrlar/audit), SRE (SLO/bahasy), Finance (ROI).
I (Informed): Önüm/Marketing/Amallar/Goldaw.
18) Durmuşa geçirmegiň ýol kartasy
MVP (3-6 hepde):1. Meseleler we metrikler katalogy (expected cost), point-in-time datasets.
2. Esasy modeller (LogReg/GBDT) + kalibrlemek + modelleriň kartoçkalary.
3. Synaglary yzarlamak, kesgitlenen seeds/artefaktlar, reproducible builds.
4. Kanareýanyň onlaýn hyzmaty, bosagalar ýaly, metrik/dreýfiň alertleri.
2-nji faza (6-12 hepde):- Baýesowskiý/Hyperband saýlama, slaýs-analiz/fairness, retrain-triggers.
- Ykdysadyýet fich/inferens, kesh/TTL, chargeback.
- Metrik/bosagaly formulalaryň resminamalaşdyrylyşy, what-if simulýasiýa.
- Köp sebit paýlaýynlary, DR/maşklar, WORM-relizleriň arhiwi.
- Hil/kalibrlemek hasabatlarynyň awtogenerasiýasy, wakalar boýunça awto-gaýtadan taýýarlamak.
- Sequential testing we awtomatiki durmak bilen A/B/n synaglary.
19) Azyk önüminden öň çek-sanawy
- Wezipe we metrika iş taýdan ylalaşyldy; ýalňyşlyklaryň bahasy hasaplandy.
- Dataset point-in-time; wagt/bazarlar boýunça bölmek; leýkedj ýok.
- Saýlamak/tertipleşdirmek, irki durmak, ähtimallyklary kalibrlemek.
- Model kartoçkasy: maglumatlar, çyzgylar, metrikler, töwekgelçilikler, fairness, eýesi.
- Artefaktlar saklandy (agram, çip, kalibrlemek, bosagalar).
- Online/offline ekwiwalentlik synagy geçdi; ficha-baýdak bilen hyzmat etmek.
- Süýşmek/kalibrlemek/iş metriklerine gözegçilik etmek; retrain/rollback meýilnamalary.
- PII/DSAR/RTBF syýasaty, rezidentlik we giriş barlagy berjaý edilýär.
- Okuwyň/infensiýanyň bahasy býudjetine ýazylýar; SLA alertleri.
20) Anti-patternler we töwekgelçilikler
Leýkedge: SCD-ler bilen utgaşdyrylmadyk geljekdäki fiçler/bellikler.
Bir wal-nusgada "gök" sazlamak: wagtlaýyn bölekler/çapraz barlag ýok.
Bahasy boýunça kalibrlemegiň we bosagalaryň ýoklugy.
Onlaýn/awtonom gabat gelmezlik: önümdäki dürli netijeler.
"fairness/slays": bazarlarda/enjamlarda gizlin şowsuzlyklar.
Çäksiz repleýalar we gymmat bahaly hileler: peýdasyz gymmatyň ýokarlanmagy.
21) Jemleýji
Modelleri okatmak dolandyrylýan prosesdir: anyk wezipe we metrika, maglumatlaryň tertibi (nokat-in-time), yzygiderli sazlamak, kalibrlemek we köpeltmek, onlaýn görnüşde aç-açan geçirmek we hil, baha we töwekgelçiliklere yzygiderli gözegçilik etmek. Bu pleýbuka eýerip, önümi, saklamak we laýyklygy çalt, ahlakly we ygtybarly gowulaşdyrýan modelleri alarsyňyz.