Modellarni oʻqitish
1) Vazifasi va prinsiplari
O’qitishning maqsadi - RG/AML/Legal talablariga rioya qilgan holda biznes metrikasini (Net Revenue, churn ↓, fraud ↓) yaxshilaydigan barqaror, takrorlanadigan va tejamkor modelni olish.
Prinsiplar:- Problem → Metric → Data: avval vazifa va operatsion metrika/xato qiymati, keyin dataset.
- Point-in-time: Hech bir fich/yorliq kelajakdan foydalanmaydi.
- Reproducibility: oʻrnatilgan seeds/versiyalar, artefaktlarni nazorat qilish.
- Simplicity first: asosiy modellardan boshlaymiz foyda isbotlangan taqdirdagina murakkablashtiramiz.
- Privacy by design: PII-minimallashtirish, rezidentlik, audit.
2) Vazifa va metrikani rasmiylashtirish
Tasniflash: churn/depozit/frod/RG → PR-AUC, F1 @опер. chegara, KS, expected cost.
Regressiya/prognoz: LTV/GGR → WAPE/SMAPE, P50/P90 xatosi, PI qoplamasi.
Reyting/tavsiyalar: NDCG @K, MAP @K, coverage/diversity.
Onlayn metriklar: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datasetlar va bo’linishlar
Point-in-time join va SCD mos keladigan oʻlchovlar.
Sinf nomutanosibligi: stratifed sampling, class_weight, focal loss, oversampling noyob hodisalar.
Vaqt/bozorlar/tenantlar bo’yicha bo’linishlar: train, val.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Belgilarni tayyorlash
Deraza va agregatlar: 10m/1ch/1d/7d/30d, R/F/M, tezlik/ulushlar.
Kategoriyalar: hashing/one-hot; target encoding (time-aware).
Normalizatsiya/skeyling: train parametrlari, biz artefaktlarda saqlaymiz.
Grafik/NLP/geo: batch quramiz, Feature Store (online/offline) da chop etamiz.
5) Bazaviy algoritmlar
GBDT: XGBoost/LightGBM/CatBoost - jadval maʼlumotlari uchun kuchli baza.
Logistika regressiyasi/ElasticNet: talqin qilinadigan/arzon.
Tavsiyanomalar: LambdaMART, faktorizatsiya, seq2rec.
Anomaliyalar: Isolation Forest, AutoEncoder.
Vaqtinchalik qatorlar: Prophet/ETS/GBDT - taqvim chiziqlari boʻyicha.
6) Qayta o’qitishni tartibga solish va oldini olish
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Erta to’xtash: patience va minimal yaxshilanish bilan val metrikasi bo’yicha.
7) Giperparametrlarni tanlash
Qidirish uchun Grid/Random; Sozlash uchun Bayesian/Hyperband.
Cheklovlar: iteratsiya/vaqt/qiymat budjeti, val bo’yicha «no-overfit» (bir nechta vaqtinchalik splitlarda o’zaro tekshirish).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Ehtimollarni kalibrlash
Platt/Isotonic на holdout; kalibrlash funksiyasini artefakt sifatida saqlash.
YE/relayability tekshirish; expected cost bo’yicha chegaralarni qayta muvofiqlashtirish.
9) Sharhlanuvchanlik va tushuntirishlar
Global: feature importance/SHAP, permutatsiya hissasi.
Yagona yechimlar uchun Local: SHAP (RG/AML keys).
Xavf-xatarlarni va tushuntirishlardan onlayn foydalanish imkoniyatini hujjatlashtirish.
10) Takrorlanuvchanlik va artefaktlar
Seed hamma joyda: maʼlumotlar/model/tanlash/boʻlish.
Artefaktlar: ma’lumotlar versiyasi, fich-payplayn, og’irlik, kalibrlash, chegara, konfigi.
Deterministic builds: oʻrnatilgan konteynerlar/qaramliklar.
11) Eksperimentlar trekingi
Ro’yxatdan o’tkazamiz: git-kommit, dataset/fich versiyalari, modellari, metrikalari (off/online), artefaktlar va sharhlar.
Tajribalarni nomlash qoidalari, teglar (domen/bozor/model).
12) Oflayn rejimga o’tkazish → onlayn
Yagona transformatsiya kodi (Feature Store); online/offline ekvivalentlik testi.
Serving: REST/gRPC, taymaut/retrai/kesh; kanar/bosqichma-bosqich otish.
Chegara/siyosat: konfiguratsiyalanadigan (fich-bayroqlar), audit va roll-back.
13) Monitoring va dreyf
Maʼlumotlar/skor: PSI/KL; chegaradan oshganda alerta.
Kalibrlash va metrika: ECE, PR-AUC/KS oqim yorliqlarida.
Biznes-metriklar: uplift Net Revenue, fraud saved, RG-intervensiyalar, SLA.
Triggerlar retrain: dreyf/mavsumiylik/reliz/yaroqlilik muddati bo’yicha.
14) Maxfiylik, rezidentlik, fairness
PII-minimallashtirish: taxalluslar, CLS/RLS, alohida mappinglar.
Residency: alohida kataloglar/kalitlar (EEA/UK/BR); asossiz kross-mintaqaviy join’onlarni taqiqlash.
Fairness: slays-tahlil (bozor/qurilma/hisob yoshi), disparate impact, equalized odds; fich/chegara/tarozilarni tuzatish.
15) Cost-injiniring
O’qitish qiymati: CPU/GPU-soatlar, I/O, progonlar soni.
Inferens qiymati: latency/cost per request; onlayn-fichlar uchun limitlar va model o’lchami.
Materiallashtirish: og’ir chi - oflayn; onlayn - tezkor, kesh qilinadigan.
Chargeback: tajriba/replay uchun byudjetlar.
16) Misollar (parchalar)
LightGBM (tasnifi, Python eskizi):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Point-in-time tanlash (SQL gʻoyasi):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
expected cost bahosi va chegarani tanlash:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Jarayonlar va RACI
R (Responsible): Data Science (modellar/eksperimentlar), Data Eng (datasetlar/fichi/Feature Store), MLOps (serving/monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/sirlar/audit), SRE (SLO/qiymat), Finance (ROI).
I (Informed): Mahsulot/Marketing/Operatsiyalar/Qo’llab-quvvatlash.
18) Joriy etishning yo’l xaritasi
MVP (3-6 hafta):1. Vazifalar va metriklar katalogi (expected cost), point-in-time datasetlari.
2. Bazaviy modellar (LogReg/GBDT) + kalibrlash + modellar kartochkalari.
3. Tajriba trekingi, oʻrnatilgan seeds/artefaktlar, reproducible builds.
4. Kanareyekli onlayn servis, ostonalar, metrik/dreyf alertlari kabi.
2-faza (6-12 hafta):- Bayesovskiy/Hyperband tanlash, slays-tahlil/fairness, retrain-triggerlar.
- Iqtisodiyot fich/inferensa, kesh/TTL, chargeback.
- Metrik/chegaralar hujjatlari, what-if simulyatsiyasi.
- Multi-mintaqaviy payplaynlar, DR/mashqlar, WORM-relizlar arxivi.
- Sifat/kalibrlash hisobotlarini avtogeneratsiya qilish, voqealar bo’yicha avto-qayta tayyorlash.
- A/B/n sequential testing va avtomatik to’xtash bilan tajribalar.
19) Sotishdan oldingi chek-varaq
- Vazifa va metrika biznes-kelishilgan; xatolar qiymati hisoblab chiqilgan.
- Dataset point-in-time; vaqt/bozorlar bo’yicha bo’lish; leykedj mavjud emas.
- Tanlash/tartibga solish, erta to’xtash, ehtimollarni kalibrlash.
- Model kartasi: ma’lumotlar, chichlar, metriklar, xavflar, fairness, egasi.
- Artefaktlar saqlangan (og’irlik, fich-payplayn, kalibrlash, ostonalar).
- Onlayn/offline ekvivalentlik testi o’tdi; fich-bayroq bilan serving.
- Dreyf/kalibrlash/biznes-metrik monitoringi; retrain/rollback rejalari.
- PII/DSAR/RTBF siyosatiga, rezidentlik va kirish auditiga rioya qilingan.
- O’qitish/infensa qiymati budjetga kiritilgan; SLA alertlari.
20) Anti-patternlar va xavflar
Leykedj: kelajak fichlari/yorliqlari, kelishilmagan SCD.
Bitta val-tanlashda «ko’kgacha» tyuning: vaqtinchalik splitlar/xoch tekshirish yo’q.
Qiymati bo’yicha kalibrlash va chegaralarning yo’qligi.
Onlayn/oflayn o’zaro kelishmovchilik: prodda turli natijalar.
Ignor fairness/slayslar: bozorlarda/qurilmalarda yashirin muvaffaqiyatsizliklar.
Cheksiz repleylar va qimmatbaho chichlar: foydasiz qiymatning oshishi.
21) Jami
Modellarni o’qitish - bu boshqariladigan jarayon: aniq vazifa va metrika, ma’lumotlar intizomi (point-in-time), muntazam tyuning, kalibrlash va takrorlanuvchanlik, sifat, qiymat va xavf-xatarlarning onlayn va doimiy monitoringiga shaffof o’tkazish. Ushbu pleybukga amal qilib, siz mahsulotni oldindan aytib bo’lmaydigan darajada yaxshilaydigan modellarni olasiz, ushlab turish va komplayens - tez, axloqiy va ishonchli.