Modellarni oʻqitish

1) Vazifasi va prinsiplari

O’qitishning maqsadi - RG/AML/Legal talablariga rioya qilgan holda biznes metrikasini (Net Revenue, churn ↓, fraud ↓) yaxshilaydigan barqaror, takrorlanadigan va tejamkor modelni olish.

Prinsiplar:

Problem → Metric → Data: avval vazifa va operatsion metrika/xato qiymati, keyin dataset.
Point-in-time: Hech bir fich/yorliq kelajakdan foydalanmaydi.
Reproducibility: oʻrnatilgan seeds/versiyalar, artefaktlarni nazorat qilish.
Simplicity first: asosiy modellardan boshlaymiz foyda isbotlangan taqdirdagina murakkablashtiramiz.
Privacy by design: PII-minimallashtirish, rezidentlik, audit.

2) Vazifa va metrikani rasmiylashtirish

Tasniflash: churn/depozit/frod/RG → PR-AUC, F1 @опер. chegara, KS, expected cost.
Regressiya/prognoz: LTV/GGR → WAPE/SMAPE, P50/P90 xatosi, PI qoplamasi.
Reyting/tavsiyalar: NDCG @K, MAP @K, coverage/diversity.
Onlayn metriklar: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Qiymat bo’yicha chegara (psevdokod):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datasetlar va bo’linishlar

Point-in-time join va SCD mos keladigan oʻlchovlar.
Sinf nomutanosibligi: stratifed sampling, class_weight, focal loss, oversampling noyob hodisalar.
Vaqt/bozorlar/tenantlar bo’yicha bo’linishlar: train, val.

Temporal split (SQL gʻoyasi):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Belgilarni tayyorlash

Deraza va agregatlar: 10m/1ch/1d/7d/30d, R/F/M, tezlik/ulushlar.
Kategoriyalar: hashing/one-hot; target encoding (time-aware).
Normalizatsiya/skeyling: train parametrlari, biz artefaktlarda saqlaymiz.
Grafik/NLP/geo: batch quramiz, Feature Store (online/offline) da chop etamiz.

5) Bazaviy algoritmlar

GBDT: XGBoost/LightGBM/CatBoost - jadval maʼlumotlari uchun kuchli baza.
Logistika regressiyasi/ElasticNet: talqin qilinadigan/arzon.
Tavsiyanomalar: LambdaMART, faktorizatsiya, seq2rec.
Anomaliyalar: Isolation Forest, AutoEncoder.
Vaqtinchalik qatorlar: Prophet/ETS/GBDT - taqvim chiziqlari boʻyicha.

6) Qayta o’qitishni tartibga solish va oldini olish

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Erta to’xtash: patience va minimal yaxshilanish bilan val metrikasi bo’yicha.

7) Giperparametrlarni tanlash

Qidirish uchun Grid/Random; Sozlash uchun Bayesian/Hyperband.
Cheklovlar: iteratsiya/vaqt/qiymat budjeti, val bo’yicha «no-overfit» (bir nechta vaqtinchalik splitlarda o’zaro tekshirish).

Eskiz:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Ehtimollarni kalibrlash

Platt/Isotonic на holdout; kalibrlash funksiyasini artefakt sifatida saqlash.
YE/relayability tekshirish; expected cost bo’yicha chegaralarni qayta muvofiqlashtirish.

9) Sharhlanuvchanlik va tushuntirishlar

Global: feature importance/SHAP, permutatsiya hissasi.
Yagona yechimlar uchun Local: SHAP (RG/AML keys).
Xavf-xatarlarni va tushuntirishlardan onlayn foydalanish imkoniyatini hujjatlashtirish.

10) Takrorlanuvchanlik va artefaktlar

Seed hamma joyda: maʼlumotlar/model/tanlash/boʻlish.
Artefaktlar: ma’lumotlar versiyasi, fich-payplayn, og’irlik, kalibrlash, chegara, konfigi.
Deterministic builds: oʻrnatilgan konteynerlar/qaramliklar.

11) Eksperimentlar trekingi

Ro’yxatdan o’tkazamiz: git-kommit, dataset/fich versiyalari, modellari, metrikalari (off/online), artefaktlar va sharhlar.
Tajribalarni nomlash qoidalari, teglar (domen/bozor/model).

12) Oflayn rejimga o’tkazish → onlayn

Yagona transformatsiya kodi (Feature Store); online/offline ekvivalentlik testi.
Serving: REST/gRPC, taymaut/retrai/kesh; kanar/bosqichma-bosqich otish.
Chegara/siyosat: konfiguratsiyalanadigan (fich-bayroqlar), audit va roll-back.

13) Monitoring va dreyf

Maʼlumotlar/skor: PSI/KL; chegaradan oshganda alerta.
Kalibrlash va metrika: ECE, PR-AUC/KS oqim yorliqlarida.
Biznes-metriklar: uplift Net Revenue, fraud saved, RG-intervensiyalar, SLA.
Triggerlar retrain: dreyf/mavsumiylik/reliz/yaroqlilik muddati bo’yicha.

14) Maxfiylik, rezidentlik, fairness

PII-minimallashtirish: taxalluslar, CLS/RLS, alohida mappinglar.
Residency: alohida kataloglar/kalitlar (EEA/UK/BR); asossiz kross-mintaqaviy join’onlarni taqiqlash.
Fairness: slays-tahlil (bozor/qurilma/hisob yoshi), disparate impact, equalized odds; fich/chegara/tarozilarni tuzatish.

15) Cost-injiniring

O’qitish qiymati: CPU/GPU-soatlar, I/O, progonlar soni.
Inferens qiymati: latency/cost per request; onlayn-fichlar uchun limitlar va model o’lchami.
Materiallashtirish: og’ir chi - oflayn; onlayn - tezkor, kesh qilinadigan.
Chargeback: tajriba/replay uchun byudjetlar.

16) Misollar (parchalar)

LightGBM (tasnifi, Python eskizi):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time tanlash (SQL gʻoyasi):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

expected cost bahosi va chegarani tanlash:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Jarayonlar va RACI

R (Responsible): Data Science (modellar/eksperimentlar), Data Eng (datasetlar/fichi/Feature Store), MLOps (serving/monitoring/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/sirlar/audit), SRE (SLO/qiymat), Finance (ROI).
I (Informed): Mahsulot/Marketing/Operatsiyalar/Qo’llab-quvvatlash.

18) Joriy etishning yo’l xaritasi

MVP (3-6 hafta):

1. Vazifalar va metriklar katalogi (expected cost), point-in-time datasetlari.

2. Bazaviy modellar (LogReg/GBDT) + kalibrlash + modellar kartochkalari.

3. Tajriba trekingi, oʻrnatilgan seeds/artefaktlar, reproducible builds.

4. Kanareyekli onlayn servis, ostonalar, metrik/dreyf alertlari kabi.

2-faza (6-12 hafta):

Bayesovskiy/Hyperband tanlash, slays-tahlil/fairness, retrain-triggerlar.
Iqtisodiyot fich/inferensa, kesh/TTL, chargeback.
Metrik/chegaralar hujjatlari, what-if simulyatsiyasi.

3-faza (12-20 hafta):

Multi-mintaqaviy payplaynlar, DR/mashqlar, WORM-relizlar arxivi.
Sifat/kalibrlash hisobotlarini avtogeneratsiya qilish, voqealar bo’yicha avto-qayta tayyorlash.
A/B/n sequential testing va avtomatik to’xtash bilan tajribalar.

19) Sotishdan oldingi chek-varaq

Vazifa va metrika biznes-kelishilgan; xatolar qiymati hisoblab chiqilgan.
Dataset point-in-time; vaqt/bozorlar bo’yicha bo’lish; leykedj mavjud emas.
Tanlash/tartibga solish, erta to’xtash, ehtimollarni kalibrlash.
Model kartasi: ma’lumotlar, chichlar, metriklar, xavflar, fairness, egasi.
Artefaktlar saqlangan (og’irlik, fich-payplayn, kalibrlash, ostonalar).
Onlayn/offline ekvivalentlik testi o’tdi; fich-bayroq bilan serving.
Dreyf/kalibrlash/biznes-metrik monitoringi; retrain/rollback rejalari.
PII/DSAR/RTBF siyosatiga, rezidentlik va kirish auditiga rioya qilingan.
O’qitish/infensa qiymati budjetga kiritilgan; SLA alertlari.

20) Anti-patternlar va xavflar

Leykedj: kelajak fichlari/yorliqlari, kelishilmagan SCD.
Bitta val-tanlashda «ko’kgacha» tyuning: vaqtinchalik splitlar/xoch tekshirish yo’q.
Qiymati bo’yicha kalibrlash va chegaralarning yo’qligi.
Onlayn/oflayn o’zaro kelishmovchilik: prodda turli natijalar.
Ignor fairness/slayslar: bozorlarda/qurilmalarda yashirin muvaffaqiyatsizliklar.
Cheksiz repleylar va qimmatbaho chichlar: foydasiz qiymatning oshishi.

21) Jami

Modellarni o’qitish - bu boshqariladigan jarayon: aniq vazifa va metrika, ma’lumotlar intizomi (point-in-time), muntazam tyuning, kalibrlash va takrorlanuvchanlik, sifat, qiymat va xavf-xatarlarning onlayn va doimiy monitoringiga shaffof o’tkazish. Ushbu pleybukga amal qilib, siz mahsulotni oldindan aytib bo’lmaydigan darajada yaxshilaydigan modellarni olasiz, ushlab turish va komplayens - tez, axloqiy va ishonchli.

Modellarni oʻqitish

Biz bilan bog‘laning

Tez aloqa

Video tez orada yangilanadi

Hozir loyihalar bilan juda bandmiz