Model təlimi

1) Təyinat və prinsiplər

Təlimin məqsədi RG/AML/Legal-a riayət etməklə biznes metrikasını (Net Revenue, churn ↓, fraud ↓) yaxşılaşdıran sabit, təkrar edilə bilən və qənaətli model əldə etməkdir.

Prinsiplər:

Problem → Metric → Data: əvvəlcə tapşırıq və əməliyyat metrikası/səhv dəyəri, sonra tarix.
Point-in-time: heç bir ficle/etiket gələcəkdən istifadə etmir.
Reproducibility: sabit seeds/versiyalar, artefaktlara nəzarət.
Simplicity first: əsas modellər/fich ilə başlayın; yalnız sübut edilmiş mənfəətlə çətinləşdiririk.
Privacy by design: PII-minimallaşdırma, rezidentlik, audit.

2) Vəzifənin və metriklərin rəsmiləşdirilməsi

Təsnifat: churn/depozit/frod/RG → PR-AUC, F1 @опер. eşik, KS, expected cost.
Regressiya/proqnoz: LTV/GGR → WAPE/SMAPE, P50/P90 səhv, PI əhatə edir.
Sıralama/tövsiyələr: NDCG @K, MAP @K, coverage/diversity.
Online metriklər: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Dəyər həddi (psevdokod):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datasetlər və parçalanma

Point-in-time join və SCD uyğun ölçü.
Sinif balanssızlığı: stratifed sampling, class_weight, focal loss, nadir hadisələr oversampling.
Zaman/bazarlar/tenantlar üzrə bölünmələr: sızmalar üçün «boşluq» (gap) ilə train, val.

Temporal split (SQL-ideya):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Əlamətlərin hazırlanması

Pəncərələr və aqreqatlar: 10m/1h/1d/7d/30d, R/F/M, sürət/pay.
Kateqoriyalar: hashing/one-hot; target encoding (time-aware).
Normallaşma/skeylinq: train parametrləri, artefaktlarda saxlanılır.
Graphics/NLP/Geo: Feature Store (online/offline) dərc batch inşa.

5) Əsas alqoritmlər

GBDT: XGBoost/LightGBM/CatBoost tablo məlumatları üçün güclü bazadır.
Logistika reqressiyası/ElasticNet: interpretable/ucuz.
Tövsiyə: LambdaMART, faktorizasiya, seq2rec.
Anomaliyalar: Isolation Forest, AutoEncoder.
Zaman sıraları: Prophet/ETS/GBDT-təqvim fiqurları üzrə.

6) Yenidən təlimin nizamlanması və qarşısının alınması

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Erkən dayanma: patience və minimal təkmilləşdirmə ilə val ölçü.

7) Hiper parametrlərin seçilməsi

Grid/Random üçün kobud axtarış; Bayesian/Hyperband incə konfiqurasiya üçün.
Məhdudiyyətlər: İterasiya/vaxt/dəyər büdcəsi, val üçün «no-overfit» (bir neçə müvəqqəti splitlərdə çarpaz yoxlama).

Eskiz:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Ehtimal kalibrlənməsi

Platt/Isotonic на holdout; kalibrləmə funksiyasını artefakt kimi saxlayın.
ESE/relayability yoxlamaq; expected cost ilə eşikləri yenidən əlaqələndirmək.

9) Şərh və izahlar

Global: feature importance/SHAP, permutasiya töhfəsi.
Lokal: Tək həllər üçün SHAP (RG/AML halları).
Riskləri sənədləşdirin və online izahatların istifadəsinə icazə verin.

10) Reproduktivlik və artefaktlar

Seed hər yerdə: data/model/seçim/bölmə.
Artefaktlar: verilənlər versiyası, fich-paypline, çəkilər, kalibrləmə, eşiklər, konfiqlər.
Deterministic builds: sabit konteynerlər/asılılıqlar.

11) Təcrübələrin izlənməsi

Qeydiyyat: git-kommit, dataset/fich versiyaları, modelləri, metriklər (off/online), artefaktlar və şərhlər.
Təcrübələrin adlandırılması qaydaları, etiketlər (domen/bazar/model).

12) Oflayn transfer → Online

Vahid transformasiya kodu (Feature Store); online/offline ekvivalent testi.
Serving: REST/gRPC, taymaut/retraj/cache; kanar/mərhələli çıxışlar.
Eşik/siyasət: konfiqurasiya edilə bilən (Ficha bayraqlar), audit və roll-back.

13) Monitorinq və drift

Data/Skor: PSI/KL; həddi aşdıqda alertlər.
Kalibrləmə və metrika: axın etiketlərində ECE, PR-AUC/KS.
Business Metrics: uplift Net Revenue, fraud saved, RG-müdaxilələr, SLA.
retrain tetikləyiciləri: sürüklənmə/mövsümiliyə/buraxılışlara/raf ömrünə görə.

14) Gizlilik, rezidentlik, fairness

PII-minimallaşdırma: təxəllüslər, CLS/RLS, fərdi mappinqlər.
Residency: fərdi kataloqlar/açarlar (EEA/UK/BR); əsas olmadan cross-regional join 'oların qadağan edilməsi.
Fairness: slays analizi (bazar/cihaz/hesab yaşı), disparate impact, equalized odds; fich/eşik/tərəzi düzəliş.

15) Cost-mühəndislik

Təhsil haqqı: CPU/GPU-saat, I/O, qaçış sayı.
İnfensin qiyməti: latency/cost per request; Onlayn fiş limitləri və modelin ölçüsü.
Materiallaşdırma: Ağır Fiches - oflayn; online - sürətli, cached.
Chargeback: eksperimentlər/repleylər üçün büdcələr.

16) Nümunələr (fraqmentlər)

LightGBM (təsnifat, Python eskizi):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time nümunə (SQL-ideya):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

expected cost qiymətləndirilməsi və eşik seçimi:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Proseslər və RACI

R (Responsible): Data Science (modellər/eksperimentlər), Data Eng (dataset/fici/Feature Store), MLOps (serving/monitorinq/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/Secrets/Audit), SRE (SLO/Dəyər), Finance (ROI).
I (Informed): Məhsul/Marketinq/Əməliyyatlar/Dəstək.

18) Tətbiqi yol xəritəsi

MVP (3-6 həftə):

1. Tapşırıqlar və metriklər kataloqu (expected cost), point-in-time datasetlər.

2. Əsas modellər (LogReg/GBDT) + kalibrləmə + model kartları.

3. Tracking təcrübələr, sabit seeds/artefaktlar, reproducible builds.

4. Kanarya onlayn xidmət, astanalar kimi, metrik/drift alertləri.

Faza 2 (6-12 həftə):

Bayesovsky/Hyperband seçimi, slays-analiz/fairness, retrain-tetikleyicilər.
İqtisadiyyat fich/infenersa, cache/TTL, chargeback.
Metrik/eşik formullarının sənədləşdirilməsi, what-if simulyasiya.

Faza 3 (12-20 həftə):

Multi-regional payplayns, DR/təlimlər, WORM-relizlər arxivi.
Keyfiyyət/kalibrləmə hesabatlarının avtogenerasiyası, hadisələr üzrə avtomatik yenidən təlim.
A/B/n sequential testing və avtomatik dayandırılması ilə təcrübələr.

19) Satış öncəsi çek siyahısı

Vəzifə və metrika iş əlaqələndirilir; səhvlərin dəyəri hesablanmışdır.
Dataset point-in-time; zaman/bazarlara bölünməsi; leykedj yoxdur.
Seçimi/nizamlanması, erkən dayandırılması, ehtimal kalibrlənməsi.
Model kartı: məlumatlar, fırçalar, metriklər, risklər, fairness, sahibi.
Artefaktlar saxlanılır (çəkilər, fich-paypline, kalibrləmə, eşiklər).
Online/offline ekvivalent test keçdi; Ficha bayrağı ilə xidmət.
Drift/kalibrləmə/biznes metrik monitorinqi; retrain/rollback planları.
PII/DSAR/RTBF siyasətlərinə, rezidentlik və giriş auditinə riayət olunur.
Təhsil/Infense dəyəri büdcəyə daxil edilmişdir; SLA alertləri.

20) Anti-nümunələr və risklər

Lakedge: SCD razılaşdırılmamış gələcəyin Fich/etiket.
Bir val-nümunədə «mavi» sazlama: müvəqqəti split/çapraz yoxlama yoxdur.
Qiymət üzrə kalibrləmə və eşik yoxdur.
Uyğunsuzluq online/offline: prodda müxtəlif nəticələr.
Ignor fairness/slays: bazarlarda/cihazlarda gizli uğursuzluqlar.
Limitsiz repleylər və bahalı fiçalar: faydasız qiymət artımı.

21) Yekun

Model təlimi idarə olunan bir prosesdir: aydın tapşırıq və metrika, məlumat nizam-intizamı (point-in-time), nizam-intizam, kalibrləmə və təkrarlanabilirlik, onlayn və daimi keyfiyyət, dəyər və risk monitorinqinə şəffaf keçid. Bu pleybuku izləyərək, məhsulu, saxlama və uyğunluğu tez, etik və etibarlı şəkildə yaxşılaşdıran modellər əldə edirsiniz.

Model təlimi

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq