Моделдерди окутуу

1) Максаты жана принциптери

Тренингдин максаты - RG/AML/Legal ылайык бизнес метрикасын (Net Revenue, churn ↓, fraud ↓) жакшыртуучу туруктуу, кайталанма жана үнөмдүү моделди алуу.

Принциптери:

Problem → Metric → Data: адегенде тапшырма жана операциялык метрика/ката наркы, андан кийин dataset.
Point-in-time: Эч бир пункт/лейбл келечекти колдонот.
Reproducibility: белгиленген seeds/версиялары, артефакттарды көзөмөлдөө.
Simplicity first: негизги моделдер/fich менен башталат; пайдасы далилденген учурда гана кыйындатабыз.
Privacy by design: PII-минималдаштыруу, резиденттүүлүк, аудит.

2) Тапшырманы формалдаштыруу жана метрика

Классификация: churn/deposit/frod/RG → PR-AUC, F1 @опер. босого, KS, expected cost.
Регрессия/болжолдоо: LTV/GGR → WAPE/SMAPE, P50/P90 ката, PI каптоо.
Рейтинг/сунуштар: NDCG @K, MAP @K, coverage/diversity.
Онлайн метриктер: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Наркы боюнча босого (псевдокод):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datasets жана бөлүү

Point-in-time join жана SCD-шайкеш өлчөө.
Класстардын дисбалансы: stratifed sampling, class_weight, focal loss, сейрек окуялар oversampling.
убакыт/базарлар/тенантам боюнча бөлүү: train, val, сыноо "боштук" менен (gap) агып.

Temporal split (SQL-идея):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) белгилерин даярдоо

Терезелер жана агрегаттар: 10m/1h/1d/7d/30d, R/F/M, ылдамдыгы/үлүшү.
Categories: hashing/one-hot; target encoding (time-aware).
Нормалдашуу/скейлинг: train параметрлери, артефакттарда сакталат.
Graphics/NLP/Гео: Feature Store (онлайн/оффлайн) жарыялайт.

5) Негизги алгоритмдер

GBDT: XGBoost/LightGBM/CatBoost - таблицалык маалыматтар үчүн күчтүү база.
Логистикалык регрессия/ElasticNet: чечмеленүүчү/арзан.
Сунуш: LambdaMART, factorization, seq2rec.
Аномалиялар: Isolation Forest, AutoEncoder.
Убакыт катар: Prophet/ETS/GBDT-Календардын phiches.

6) Кайра даярдоону жөнгө салуу жана алдын алуу

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Эрте токтотуу: patience жана минималдуу жакшыртуу менен val боюнча метрика.

7) Гиперпараметрлерди тандоо

Grid/Random долбоору издөө үчүн; Bayesian/Hyperband кылдат орнотуу үчүн.
Чектөөлөр: итерациянын/убакыттын/нарктын бюджети, val боюнча "no-overfit" (бир нече убактылуу сплиттерде кайчылаш текшерүү).

Эскиз:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) ыктымалдыгын калибрлөө

Platt/Isotonic на holdout; калибрлөө милдетин артефакт катары сактоо.
ES/relayability текшерүү; expected cost боюнча босоголорду кайра.

9) Чечмелөө жана түшүндүрмөлөр

Global: feature importance/SHAP, permutation салымы.
Local: жалгыз чечимдер үчүн SHAP (RG/AML учурларда).
Тобокелдиктерди жана түшүндүрмөлөрдү онлайн колдонууга жол берилгендигин документтештирүү.

10) Воспроизводимость жана артефакттар

Seed бардык жерде: маалыматтар/модель/тандоо/бөлүү.
Артефакттар: берилиштердин версиясы, фич-пайплайн, салмак, калибрлөө, босоголор, конфиги.
Deterministic builds: белгиленген контейнерлер/көз карандылык.

11) трекинг эксперименттер

Биз каттайбыз: git-коммит, dataset/fich версиялары, моделдер, метрика (off/online), экспонаттар жана комментарийлер.
Эксперименттерди, тегтерди атоо эрежелери (домен/базар/модель).

12) Offline которуу → онлайн

Бирдиктүү трансформация коду (Feature Store); онлайн/оффлайн эквиваленттик тест.
Тейлөө: REST/gRPC, убакыт/retrailer/кэш; Канар/этап-этабы.
Босого/саясат: конфигурациялануучу (фича-желектер), аудит жана roll-back.

13) Мониторинг жана дрейф

Маалыматтар/ылдамдыгы: PSI/KL; чектен ашканда аллергия.
Калибрлөө жана өлчөө: ECE, PR-AUC/KS агымы этикеткалар боюнча.
Бизнес-метрика: uplift Net Revenue, fraud saved, RG-кийлигишүү, SLA.
Триггерлер retrain: дрейф/сезондук/релиздер/жарактуулук мөөнөтү.

14) Купуялык, резиденттик, fairness

PII-минималдаштыруу: псевдонимдер, CLS/RLS, өзүнчө mappings.
Residency: жеке каталогдор/ачкычтар (EEA/UK/BR); негизсиз кросс-аймактык join's тыюу салуу.
Fairness: слайс-талдоо (базар/түзмөк/эсеп курагы), disparate impact, equalized odds; fich/босого/тараза тууралоо.

15) Cost-Engineering

Окутуу баасы: CPU/GPU-саат, I/O, прогондордун саны.
Infenerce наркы: latency/cost per request; онлайн чүчүкулак лимиттери жана моделдин өлчөмү.
Материалдаштыруу: оор чүчүкулак - оффлайн; онлайн - тез, кэш.
Chargeback: эксперименттер/репликалар үчүн бюджеттер.

16) Мисалдар (фрагменттер)

LightGBM (классификация, Python эскиз):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time үлгү (SQL-идея):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

expected баалоо жана босого тандоо:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Процесстер жана RACI

R (Responsible): Data Science (моделдер/эксперименттер), Data Eng (Data/Fich/Feature Store), MLOps (сервинг/мониторинг/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/сырлар/аудит), SRE (SLO/наркы), Finance (ROI).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.

18) Ишке ашыруунун жол картасы

MVP (3-6 жума):

1. Тапшырмалардын жана метриктердин каталогу (expected cost), datasets-in-time.

2. Негизги моделдер (LogReg/GBDT) + калибрлөө + карталар моделдер.

3. Tracking эксперименттер, белгиленген seeds/artefacts, reproducible builds.

4. Канар онлайн тейлөө, босоголор сыяктуу, метрика/дрейф алерты.

2-этап (6-12 жума):

Bayesovsky/Hyperband тандоо, слайс-талдоо/fairness, retrain-триггерлер.
Экономика fich/infenersa, кэш/TTL, chargeback.
Документтештирүү формулалары метрика/босоголор, what-if simulation.

Этап 3 (12-20 жума):

Көп региондук пайплайндар, DR/машыгуулар, WORM-релиздер архиви.
Сапат/калибрлөө отчетторун автогенерациялоо, окуялар боюнча авто-кайра даярдоо.
A/B/n sequential тестирлөө жана автоматтык токтотуу менен эксперименттер.

19) Азык-түлүктүн алдындагы чек-тизме

Бизнес-макулдашуу милдети жана метрика; каталардын наркы эсептелген.
Dataset point-in-time; убакыт/базарлар боюнча бөлүү; лейкедж жок.
Тандоо/жөнгө салуу, эрте токтотуу, ыктымалдыгын калибрлөө.
Карта модели: маалыматтар, Fich, метрика, тобокелдиктер, fairness, ээси.
Артефакттар сакталган (салмагы, fich-paypline, калибрлөө, босоголор).
онлайн/оффлайн эквиваленттик тест өттү; Ficha желеги менен тейлөө.
Мониторинг дрейф/калибрлөө/бизнес-метрика; retrain/rollback пландары.
PII/DSAR/RTBF саясаты, резиденттүүлүк жана кирүү аудити сакталат.
Окуу/Infenerce наркы бюджетке жазылган; SLA аллергиясы.

20) Анти-үлгүлөрү жана тобокелдиктер

Лейкедж: SCD тарабынан макулдашылбаган келечектеги Fich/лейблдер.
Тюнинг "көк" бир вал үлгү боюнча: эч кандай убактылуу split/кайчылаш текшерүү.
наркы боюнча калибрлөө жана босого жоктугу.
Дал келбестик онлайн/оффлайн: прод боюнча ар кандай жыйынтыктар.
Ignor fairness/slays: базарларда/түзмөктөрдө жашыруун кемчиликтер.
Чексиз репликалар жана кымбат чыпкалар: пайдасыз нарктын өсүшү.

21) Жыйынтык

Моделдерди окутуу башкарылуучу процесс болуп саналат: так тапшырма жана метрика, маалыматтардын дисциплинасы (пункттук-убакытта), жөнгө салуу менен акылга сыярлык тюнинг, калибрлөө жана ойноо жөндөмдүүлүгү, онлайн жана сапат, нарк жана тобокелдиктердин туруктуу мониторингине ачык-айкын өтүү. Бул ойнотмо ээрчип, сиз алдын ала продукт, сактоо жана комплаенс жакшыртуу моделдерин алуу - тез, этикалык жана ишенимдүү.

Моделдерди окутуу

Биз менен байланышыңыз

Ыкчам байланыш

Видео жакында жаңыртылат

Азыр биз долбоорлор менен абдан алекпиз